Daily Prompt Intelligence Report — 06. Juni 2026
🔤 TOP 3 PROMPTS — Textgenerierung
1. Popperian Falsifikationist-Skill für Code-Generierung
Prompt (vollständig, kopierbar):
Du agierst als Popperianischer Falsifikationist. Bevor du Code schreibst, befolge diese Struktur:
1. **Hypothese formulieren**: Was genau soll der Code leisten? Definiere die erwartete Eingabe und Ausgabe als testbare Behauptung.
2. **Falsifikationsversuche überlegen**: Denke dir mindestens 3 spezifische Szenarien aus, die deine Hypothese widerlegen könnten (Grenzfälle, leere Eingaben, extreme Werte, Race Conditions).
3. **Kritische Analyse**: Gibt es versteckte Annahmen in deiner aktuellen Lösung? Welche Annahmen wären am anfälligsten für Fehler?
4. **Code schreiben**: Implementiere die Lösung mit besonderem Augenmerk auf die in Schritt 2 identifizierten Schwachstellen.
5. **Selbst-Prüfung**: Führe einen mentalen Testlauf durch mit mindestens einem Grenzwert aus Schritt 2. Beschreibe, ob der Code den Test bestehen oder scheitern würde, und warum.
Frage: [Hier deine Programmieraufgabe einfügen]
Am besten mit: Claude Sonnet 4.6, Qwen2.5-Coder (besonders effektiv bei kleineren Modellen)
Warum effektiv: Diese Prompt-Struktur zwingt das Modell, potenzielle Fehler aktiv zu suchen, bevor es eine Lösung produziert. Die arXiv-Studie (2606.06454) hat gezeigt, dass kleinere Qwen2.5-Modelle dabei um 20-22 Punkte in der Korrektheit steigen. Interessanterweise fand die Studie auch heraus, dass die reine Gerüst-Struktur (die Labels und Schritte) mindestens genauso effektiv ist wie der vollständige Popperianische Inhalt — das bedeutet: Die Struktur, nicht die Wörter, machen den Unterschied.
Quelle: https://arxiv.org/abs/2606.06454v1
Community Resonanz: Pre-registrierte Studie mit 163-164 Samples — kalibriertes Negativergebnis zeigt, dass Scaffold-Struktur über den spezifischen Inhalt dominiert. Wichtige Einsicht für alle Prompt-Techniken.
2. Token-Filter-Konfiguration für Coding Agents
Prompt (vollständig, kopierbar):
{
"hooks": {
"PreToolUse": [
{
"matcher": "Bash",
"hooks": [
{
"type": "command",
"command": "lowfat hook"
}
]
}
]
}
}
Am besten mit: Claude Code, Codex, OpenCode, Pi Agent
Warum effektiv: Reduziert den Token-Verbrauch von Coding Agents um bis zu 91,8%, indem unnötige CLI-Ausgaben (z.B. kubectl get -o yaml, langes docker output) vor dem Agenten gefiltert werden. Die .lowfat Konfigurationsdatei ermöglicht projektweite Filter-Pipelines — z.B. pipeline.deploy = grep:^(Deploy|ERROR|FAIL) | head:10 — und drei Intensitätsstufen (lite, full, ultra). In 2 Monaten Nutzung: 4,4M Raw-Tokens → 4,1M eingespart.
Quelle: https://github.com/zdk/lowfat | 128 Upvotes
Community Resonanz: Top-Story auf HN heute. Die Diskussion zeigt, dass viele Developer ähnliche Token-Spar-Techniken selbst entwickelt haben, aber ein einheitliches, erweiterbares Tool fehlt. Kritikpunkt: Risiko, dass der Agent durch zu aggressive Filterung wichtige Stack Traces verliert (Trade-off zwischen Sparen und Vollständigkeit).
3. Agent-Harness Reparatur-Skill
Prompt (vollständig, kopierbar):
Du bist ein Agent-Harness Diagnosetool. Bevor du eine fehlgeschlagene Agent-Ausführung reparierst, analysiere systematisch:
1. **Umgebung prüfen**: Ist das Execution Environment vollständig? Fehlen Werkzeuge, Bibliotheken oder Umgebungsvariablen, die der Agent erwartet?
2. **Tool-Schnittstellen validieren**: Sind alle deklarierten Tools erreichbar und korrekt konfiguriert? Gibt es API-Versionsinkompatibilitäten?
3. **Context-Lifecycle analysieren**: Wurde der Kontext korrekt über mehrere Agent-Runden hinweg transportiert? Sind wichtige Variablen verloren gegangen?
4. **Observability prüfen**: Wurden ausreichende Logs und Metriken generiert? Kann man den Fehler im Execution Path lokalisieren?
5. **Verification Gap**: Gibt es fehlende Tests oder Validierungsschritte, die den Fehler vorher hätten abfangen können?
Fehlerbericht: [Hier den Traceback oder Fehler einfügen]
Agent-Konfiguration: [Hier die Harness-Konfiguration einfügen]
Am besten mit: Claude Sonnet 4.6, GPT-4o, Qwen3.6
Warum effektiv: Eine neue arXiv-Arbeit (2606.06324) zeigt, dass LLM-basierte Agenten primär an Harness-Fehlern (Ausführungsumgebung, Tool-Interfaces, Kontext-Orchestrierung) scheitern — nicht am Modell selbst. Dieser strukturierte Diagnose-Prompt adressiert alle 5 Hauptfehlerkategorien und liefert reproduzierbare Diagnosen. Besonders wertvoll für Teams, die eigene Agent-Workflows betreiben.
Quelle: https://arxiv.org/abs/2606.06324v1
Community Resonanz: Neue Forschung vom 4. Juni 2026. Identifiziert Harness-Flaws als primäre Fehlerquelle in Agent-Systemen — ein oft übersehenes Problem, wenn Teams nur das Modell austauschen statt die Infrastruktur zu debuggen.
🖼️ TOP 3 PROMPTS — Bildgenerierung
(Keine neuen Bildgenerierungs-Prompts in den letzten 24 Stunden aus primären Quellen identifiziert. Reddit-Bild-Communities (r/midjourney, r/StableDiffusion, r/aiArt) waren nicht erreichbar.)
🎬 TOP 3 PROMPTS — Videogenerierung
(Keine neuen Videogenerierungs-Prompts in den letzten 24 Stunden aus primären Quellen identifiziert. Video-Subreddits (r/aivideo, r/RunwayML) waren nicht erreichbar.)
🧠 TOP 3 NEUE TECHNIKEN
1. Scaffold-über-Vokabular-Pattern (Gerüst > Inhalt)
Zusammenfassung: Die Struktur eines Prompts ist wichtiger als die konkreten Worte und Techniken darin — ein kalibriertes Negativergebnis der Forschung.
Erklärung: Die Pre-registrierte Studie (arXiv 2606.06454) verglich drei Ansätze: vollständiger Popperianischer Prompt, ein reines Gerüst (Labels/Struktur ohne inhaltliche Anleitung) und ein Placebo (zufällige Struktur). Bei kleineren Modellen (Qwen2.5-Coder-0.5B) hoben beide strukturierten Ansätze die Korrektheit um 20-22 Punkte, wobei der vollständige Prompt keinen separaten Vorteil gegenüber dem Gerüst-only brachte. Das Placebo folgte nur 2,4 Punkte dahinter. Bei Frontier-Modellen (Claude Sonnet 4.6) waren alle nahe der Benchmark-Obergrenze.
Beispielprompt:
[Phase 1: Analyse]
Beschreibe das Problem: [X]
Identifizierte Constraints: [X]
[Phase 2: Lösungsentwurf]
Vorgeschlagene Architektur: [X]
Risiken und Gegenmaßnahmen: [X]
[Phase 3: Implementierung]
Code mit Kommentaren zu kritischen Stellen.
[Phase 4: Validierung]
Testfälle und Grenzfälle: [X]
Erwartetes Verhalten bei Fehler: [X]
Geeignet für: Qwen2.5-Coder (0.5B-7B), Claude Sonnet 4.6, GPT-4o
Ursprung: https://arxiv.org/abs/2606.06454v1 (4. Juni 2026)
Warum heute wichtig: Viele Prompt-Engineer geben zu viel Aufwand in die Formulierung spezieller Techniken („Akt as Popperian Falsifikationist") statt in die Grundstruktur. Diese Forschung zeigt: Solide Phasen-Labels (Analyse → Entwurf → Implementierung → Validierung) liefern mindestens 90% des Effekts, egal wie die Techniken dahinter benannt sind. Ressourcen besser in Struktur-Investitionen stecken.
2. Adaptive Token-Klassifizierung für Agent-Costs (Model-Router-Muster)
Zusammenfassung: Klassifikation von Agent-Anfragen nach Komplexität und Routing zum günstigsten passenden Modell und Reasoning-Level — 3x Ersparnis bei gleicher Qualität.
Erklärung: Statt alle Coding-Agent-Anfragen an das teuerste Modell mit maximalem Reasoning zu schicken, wird ein schneller vorgelagerter Classifier eingesetzt, der jede Anfrage in Stufen kategorisiert: (1) Routine-Aufgaben → günstiges Modell, kein Reasoning, (2) Standard-Refactoring → mittleres Modell, minimales Reasoning, (3) Architekturentscheidungen → Top-Modell, volles Reasoning. Zusätzlich werden Token-Effizienz-Techniken angewandt: Output-Format-Constraints, Kontext-Fenster-Trimming, und Caching-Wiederverwendung. Ergebnis: 3x mehr Nutzung für dieselben Kosten bei nur marginaler Qualitätseinbuße.
Beispielprompt:
Classify this request into TIER 1, 2, or 3 BEFORE processing:
TIER 1 (Syntax/Edit): Simple edits, typo fixes, formatting changes, renaming
→ Use fast model, 0 reasoning steps
TIER 2 (Logic): Bug fixes, refactoring, adding small features, unit tests
→ Use balanced model, 1-2 reasoning steps
TIER 3 (Architecture): New modules, design decisions, complex integrations
→ Use frontier model, full reasoning depth
Request: [Hier die Agent-Aufgabe einfügen]
Geeignet für: Claude Code, Codex, OpenCode, alle Agent-Systeme mit API-basierter Abrechnung
Ursprung: https://news.ycombinator.com/item?id=48419614 (25↑ HN, 5. Juni 2026)
Warum heute wichtig: Mit steigenden API-Preisen und Token-Limits wird Token-Ökonomie zur entscheidenden Engineering-Frage. Dieses Muster lässt sich als vorgelagerter Prompt direkt in jeden Agent-Hook integrieren — kein zusätzliches Tool nötig, nur ein Klassifizierungs-Step vor der eigentlichen Verarbeitung.
3. PreToolUse-Output-Filterung für AI Agents
Zusammenfassung: Vor jeder Agent-Ausführung automatisch CLI-Outputs filtern, um nur relevante Informationen an das LLM weiterzugeben — bis zu 96% Token-Einsparung pro Befehl.
Erklärung: Coding Agents führen Befehle aus (kubectl get pods, git diff, docker ps, find .) und leiten die volle Ausgabe an das LLM weiter. Oft sind 90-95% dieser Ausgabe irrelevant. Dieses Pattern filtert in einer PreToolUse-Hook-Phase: (a) Built-in Filter für Standard-Kommandos (git diff → nur gezeigte Dateien + Änderungszahlen, docker ps → nur Name + Status), (b) deklarative Pipeline-Konfiguration (.lowfat Datei), (c) Plugin-System für unternehmensinterne CLIs, (d) drei aggressivitäts-Stufen (lite/full/ultra). Das Design ist UNIX-style: komposable Pipes, kein Black-Box-Verhalten.
Beispielprompt:
# .lowbat Konfigurationsdatei für projektweite Filter
level=full
# Filter-Pipelines definieren
pipeline.kubectl = grep:^(NAME|Error|Warning|CrashLoopBackOff) | head:20
pipeline.dockerps = awk '{print $1, $2, $NF}' # nur Container-ID, Image, Status
pipeline.gitdiff = grep:^(diff|@@|\\+|\\-) | head:50
pipeline.find = xargs -I {} basename {} | sort | head:30
pipeline.deploy = grep:^(Deploy|Building|Error|SUCCESS|FAIL) | tail:5
Geeignet für: Claude Code (PreToolUse Hooks), Codex, OpenCode, Pi Agent
Ursprung: https://github.com/zdk/lowfat (128↑ HN, 4. Juni 2026)
Warum heute wichtig: Token-Kosten sind die versteckte Bremse von Agent-Workflows. Dieses Pattern zeigt, wie man durch gezielte Output-Filterung die Agent-Effizienz massiv erhöht — ohne Qualität zu opfern, solange man dem Filter sagt, was wichtig ist. Besonders wertvoll bei DevOps/Infrastruktur-Agents mit massiver CLI-Ausgabe.
🏆 Highlight des Tages
Scaffold-Struktur > Prompt-Inhalt: Warum Gerüste die eigentliche Zauberwaffe sind
Eine präregistrierte Zwei-Tier-Studie (arXiv 2606.06454, 4. Juni 2026) hat ein kontraintuitives und praxisrelevantes Ergebnis geliefert: Die Struktur eines Prompt-Gerüsts liefert den größten Teil des Effekts — der spezifische Inhalt dahinter ist weit weniger wichtig als angenommen.
Die Forscher haben drei Arms verglichen:
- Vollständiger Popperianischer Skill: Modell wird angewiesen, als Falsifikationist zu denken (Hypothese → Falsifikationsversuche → Code → Selbstprüfung)
- Labels-only Gerüst: Gleiche Struktur-Labels [Phase 1: Analyse, Phase 2: Entwurf, Phase 3: Code, Phase 4: Validierung] — aber ohne die inhaltliche Popperianische Prozedur
- Placebo: Zufällige Struktur-Hinweise ohne systematische Logik
Ergebnis bei Qwen2.5-Coder-0.5B (N=164):
- Vollständiger Skill: +20-22 Punkte Korrektheit
- Labels-only Gerüst: +20-22 Punkte Korrektheit (identisch!)
- Placebo: nur 2,4 Punkte weniger
Ergebnis bei Claude Sonnet 4.6 (N=163): Alle nahe der Benchmark-Obergrenze (Ceiling-Effekt), keine separierbaren Unterschiede.
Implikationen für Prompt-Engineering: Stunden in das Feintuning von Prompt-Formulierungen zu investieren ("Act as..." vs "You are..." vs "Du bist...") bringt marginalen Nutzen. Die echte Hebelwirkung liegt in der strukturellen Gerüst-Architektur: Definiere klare Phasen, benenne sie konsistent, und erzwing die Reihenfolge. Ob diese Phasen "Popperianisch", "Sokratisch" oder einfach "Phase 1-2-3-4" heißen, ist sekundär.
Das erklärt auch, warum so viele verschiedene Prompt-Techniken (CoT, ReAct, Tree-of-Thought, Reflexion) ähnliche Effekte zeigen — sie teilen eine gemeinsame Scaffold-Struktur, aber unterschiedliche Benennungen.
Quelle: https://arxiv.org/abs/2606.06454v1
📰 Erlesene Artikel & Ressourcen
Token-Effizienz: Lowfat CLI-Tool (128↑ HN)
Open-Source Tool das Coding-Agent-Token-Kosten um 91,8% senkt. Filtert CLI-Outputs vor dem LLM mit erweiterbaren Plugins und drei Intensitätsstufen. Integrierbar in Claude Code, Codex, OpenCode und Pi Agent. https://github.com/zdk/lowfat
"I nerfed our coding agents on purpose" (25↑ HN)
Praxisbericht über intelligentes Model-Routing nach Anfrage-Komplexität: 3x Ersparnis bei gleicher Ausgabequalität, plus messbar schnellere Antwortzeiten durch korrektes Bin-Packing von Intelligenz-Levels. https://news.ycombinator.com/item?id=48419614
Jo: Programmiersprache gegen Prompt-Injection (10↑ HN)
AI-native Sprache, die Prompt-Injection-Attacken zur Compile-Zeit erkennt, bevor sie ausgeführt werden. Relevant für alle, die Agent-Sicherheit ernster nehmen als Runtime-Filter. https://github.com/typescope/jo
LLM-Agent-Harness-Reparatur (arXiv 2606.06324)
Neue Forschung: LLM-basierte Agenten scheitern primär an Harness-Fehlern (Umgebung, Tools, Kontext-Orchestrierung) — nicht am Modell. Diagnostik- und Reparatur-Framework für fehlgeschlagene Agent-Trajektorien. https://arxiv.org/abs/2606.06324v1
llm.txt: Das Web für Maschinen (36↑ HN)
Diskussion darüber, wie die /llm.txt-Bewegung die Web-Qualität auch für Menschen verbessern könnte. LLM-optimierte Markdown-Versionen von Seiten sind oft klarer und präziser als das marketing-schwere HTML. https://news.ycombinator.com/item?id=48410589
OpenAI führt Lockdown Mode ein
Neue Sicherheitsfunktion in ChatGPT mit erhöhten Risikolabels. Simon Willison dokumentiert die Implementierung und die Auswirkungen auf die Nutzung. https://simonwillison.net/2026/Jun/5/openai-help-lockdown-mode/
Bericht erstellt am 2026-06-06 Quellen: Reddit, Hacker News, arXiv