📅 6. Juni 2026

Daily Prompt Intelligence Report — 06. Juni 2026

🔤 TOP 3 PROMPTS — Textgenerierung

1. Popperian Falsifikationist-Skill für Code-Generierung

Prompt (vollständig, kopierbar):

Du agierst als Popperianischer Falsifikationist. Bevor du Code schreibst, befolge diese Struktur:

1. **Hypothese formulieren**: Was genau soll der Code leisten? Definiere die erwartete Eingabe und Ausgabe als testbare Behauptung.

2. **Falsifikationsversuche überlegen**: Denke dir mindestens 3 spezifische Szenarien aus, die deine Hypothese widerlegen könnten (Grenzfälle, leere Eingaben, extreme Werte, Race Conditions).

3. **Kritische Analyse**: Gibt es versteckte Annahmen in deiner aktuellen Lösung? Welche Annahmen wären am anfälligsten für Fehler?

4. **Code schreiben**: Implementiere die Lösung mit besonderem Augenmerk auf die in Schritt 2 identifizierten Schwachstellen.

5. **Selbst-Prüfung**: Führe einen mentalen Testlauf durch mit mindestens einem Grenzwert aus Schritt 2. Beschreibe, ob der Code den Test bestehen oder scheitern würde, und warum.

Frage: [Hier deine Programmieraufgabe einfügen]

Am besten mit: Claude Sonnet 4.6, Qwen2.5-Coder (besonders effektiv bei kleineren Modellen)

Warum effektiv: Diese Prompt-Struktur zwingt das Modell, potenzielle Fehler aktiv zu suchen, bevor es eine Lösung produziert. Die arXiv-Studie (2606.06454) hat gezeigt, dass kleinere Qwen2.5-Modelle dabei um 20-22 Punkte in der Korrektheit steigen. Interessanterweise fand die Studie auch heraus, dass die reine Gerüst-Struktur (die Labels und Schritte) mindestens genauso effektiv ist wie der vollständige Popperianische Inhalt — das bedeutet: Die Struktur, nicht die Wörter, machen den Unterschied.

Quelle: https://arxiv.org/abs/2606.06454v1

Community Resonanz: Pre-registrierte Studie mit 163-164 Samples — kalibriertes Negativergebnis zeigt, dass Scaffold-Struktur über den spezifischen Inhalt dominiert. Wichtige Einsicht für alle Prompt-Techniken.

2. Token-Filter-Konfiguration für Coding Agents

Prompt (vollständig, kopierbar):

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "lowfat hook"
          }
        ]
      }
    ]
  }
}

Am besten mit: Claude Code, Codex, OpenCode, Pi Agent

Warum effektiv: Reduziert den Token-Verbrauch von Coding Agents um bis zu 91,8%, indem unnötige CLI-Ausgaben (z.B. kubectl get -o yaml, langes docker output) vor dem Agenten gefiltert werden. Die .lowfat Konfigurationsdatei ermöglicht projektweite Filter-Pipelines — z.B. pipeline.deploy = grep:^(Deploy|ERROR|FAIL) | head:10 — und drei Intensitätsstufen (lite, full, ultra). In 2 Monaten Nutzung: 4,4M Raw-Tokens → 4,1M eingespart.

Quelle: https://github.com/zdk/lowfat | 128 Upvotes

Community Resonanz: Top-Story auf HN heute. Die Diskussion zeigt, dass viele Developer ähnliche Token-Spar-Techniken selbst entwickelt haben, aber ein einheitliches, erweiterbares Tool fehlt. Kritikpunkt: Risiko, dass der Agent durch zu aggressive Filterung wichtige Stack Traces verliert (Trade-off zwischen Sparen und Vollständigkeit).

3. Agent-Harness Reparatur-Skill

Prompt (vollständig, kopierbar):

Du bist ein Agent-Harness Diagnosetool. Bevor du eine fehlgeschlagene Agent-Ausführung reparierst, analysiere systematisch:

1. **Umgebung prüfen**: Ist das Execution Environment vollständig? Fehlen Werkzeuge, Bibliotheken oder Umgebungsvariablen, die der Agent erwartet?

2. **Tool-Schnittstellen validieren**: Sind alle deklarierten Tools erreichbar und korrekt konfiguriert? Gibt es API-Versionsinkompatibilitäten?

3. **Context-Lifecycle analysieren**: Wurde der Kontext korrekt über mehrere Agent-Runden hinweg transportiert? Sind wichtige Variablen verloren gegangen?

4. **Observability prüfen**: Wurden ausreichende Logs und Metriken generiert? Kann man den Fehler im Execution Path lokalisieren?

5. **Verification Gap**: Gibt es fehlende Tests oder Validierungsschritte, die den Fehler vorher hätten abfangen können?

Fehlerbericht: [Hier den Traceback oder Fehler einfügen]
Agent-Konfiguration: [Hier die Harness-Konfiguration einfügen]

Am besten mit: Claude Sonnet 4.6, GPT-4o, Qwen3.6

Warum effektiv: Eine neue arXiv-Arbeit (2606.06324) zeigt, dass LLM-basierte Agenten primär an Harness-Fehlern (Ausführungsumgebung, Tool-Interfaces, Kontext-Orchestrierung) scheitern — nicht am Modell selbst. Dieser strukturierte Diagnose-Prompt adressiert alle 5 Hauptfehlerkategorien und liefert reproduzierbare Diagnosen. Besonders wertvoll für Teams, die eigene Agent-Workflows betreiben.

Quelle: https://arxiv.org/abs/2606.06324v1

Community Resonanz: Neue Forschung vom 4. Juni 2026. Identifiziert Harness-Flaws als primäre Fehlerquelle in Agent-Systemen — ein oft übersehenes Problem, wenn Teams nur das Modell austauschen statt die Infrastruktur zu debuggen.

🖼️ TOP 3 PROMPTS — Bildgenerierung

(Keine neuen Bildgenerierungs-Prompts in den letzten 24 Stunden aus primären Quellen identifiziert. Reddit-Bild-Communities (r/midjourney, r/StableDiffusion, r/aiArt) waren nicht erreichbar.)

🎬 TOP 3 PROMPTS — Videogenerierung

(Keine neuen Videogenerierungs-Prompts in den letzten 24 Stunden aus primären Quellen identifiziert. Video-Subreddits (r/aivideo, r/RunwayML) waren nicht erreichbar.)

🧠 TOP 3 NEUE TECHNIKEN

1. Scaffold-über-Vokabular-Pattern (Gerüst > Inhalt)

Zusammenfassung: Die Struktur eines Prompts ist wichtiger als die konkreten Worte und Techniken darin — ein kalibriertes Negativergebnis der Forschung.

Erklärung: Die Pre-registrierte Studie (arXiv 2606.06454) verglich drei Ansätze: vollständiger Popperianischer Prompt, ein reines Gerüst (Labels/Struktur ohne inhaltliche Anleitung) und ein Placebo (zufällige Struktur). Bei kleineren Modellen (Qwen2.5-Coder-0.5B) hoben beide strukturierten Ansätze die Korrektheit um 20-22 Punkte, wobei der vollständige Prompt keinen separaten Vorteil gegenüber dem Gerüst-only brachte. Das Placebo folgte nur 2,4 Punkte dahinter. Bei Frontier-Modellen (Claude Sonnet 4.6) waren alle nahe der Benchmark-Obergrenze.

Beispielprompt:

[Phase 1: Analyse]
Beschreibe das Problem: [X]
Identifizierte Constraints: [X]

[Phase 2: Lösungsentwurf]
Vorgeschlagene Architektur: [X]
Risiken und Gegenmaßnahmen: [X]

[Phase 3: Implementierung]
Code mit Kommentaren zu kritischen Stellen.

[Phase 4: Validierung]
Testfälle und Grenzfälle: [X]
Erwartetes Verhalten bei Fehler: [X]

Geeignet für: Qwen2.5-Coder (0.5B-7B), Claude Sonnet 4.6, GPT-4o

Ursprung: https://arxiv.org/abs/2606.06454v1 (4. Juni 2026)

Warum heute wichtig: Viele Prompt-Engineer geben zu viel Aufwand in die Formulierung spezieller Techniken („Akt as Popperian Falsifikationist") statt in die Grundstruktur. Diese Forschung zeigt: Solide Phasen-Labels (Analyse → Entwurf → Implementierung → Validierung) liefern mindestens 90% des Effekts, egal wie die Techniken dahinter benannt sind. Ressourcen besser in Struktur-Investitionen stecken.

2. Adaptive Token-Klassifizierung für Agent-Costs (Model-Router-Muster)

Zusammenfassung: Klassifikation von Agent-Anfragen nach Komplexität und Routing zum günstigsten passenden Modell und Reasoning-Level — 3x Ersparnis bei gleicher Qualität.

Erklärung: Statt alle Coding-Agent-Anfragen an das teuerste Modell mit maximalem Reasoning zu schicken, wird ein schneller vorgelagerter Classifier eingesetzt, der jede Anfrage in Stufen kategorisiert: (1) Routine-Aufgaben → günstiges Modell, kein Reasoning, (2) Standard-Refactoring → mittleres Modell, minimales Reasoning, (3) Architekturentscheidungen → Top-Modell, volles Reasoning. Zusätzlich werden Token-Effizienz-Techniken angewandt: Output-Format-Constraints, Kontext-Fenster-Trimming, und Caching-Wiederverwendung. Ergebnis: 3x mehr Nutzung für dieselben Kosten bei nur marginaler Qualitätseinbuße.

Beispielprompt:

Classify this request into TIER 1, 2, or 3 BEFORE processing:

TIER 1 (Syntax/Edit): Simple edits, typo fixes, formatting changes, renaming
→ Use fast model, 0 reasoning steps

TIER 2 (Logic): Bug fixes, refactoring, adding small features, unit tests  
→ Use balanced model, 1-2 reasoning steps

TIER 3 (Architecture): New modules, design decisions, complex integrations
→ Use frontier model, full reasoning depth

Request: [Hier die Agent-Aufgabe einfügen]

Geeignet für: Claude Code, Codex, OpenCode, alle Agent-Systeme mit API-basierter Abrechnung

Ursprung: https://news.ycombinator.com/item?id=48419614 (25↑ HN, 5. Juni 2026)

Warum heute wichtig: Mit steigenden API-Preisen und Token-Limits wird Token-Ökonomie zur entscheidenden Engineering-Frage. Dieses Muster lässt sich als vorgelagerter Prompt direkt in jeden Agent-Hook integrieren — kein zusätzliches Tool nötig, nur ein Klassifizierungs-Step vor der eigentlichen Verarbeitung.

3. PreToolUse-Output-Filterung für AI Agents

Zusammenfassung: Vor jeder Agent-Ausführung automatisch CLI-Outputs filtern, um nur relevante Informationen an das LLM weiterzugeben — bis zu 96% Token-Einsparung pro Befehl.

Erklärung: Coding Agents führen Befehle aus (kubectl get pods, git diff, docker ps, find .) und leiten die volle Ausgabe an das LLM weiter. Oft sind 90-95% dieser Ausgabe irrelevant. Dieses Pattern filtert in einer PreToolUse-Hook-Phase: (a) Built-in Filter für Standard-Kommandos (git diff → nur gezeigte Dateien + Änderungszahlen, docker ps → nur Name + Status), (b) deklarative Pipeline-Konfiguration (.lowfat Datei), (c) Plugin-System für unternehmensinterne CLIs, (d) drei aggressivitäts-Stufen (lite/full/ultra). Das Design ist UNIX-style: komposable Pipes, kein Black-Box-Verhalten.

Beispielprompt:

# .lowbat Konfigurationsdatei für projektweite Filter
level=full

# Filter-Pipelines definieren
pipeline.kubectl = grep:^(NAME|Error|Warning|CrashLoopBackOff) | head:20
pipeline.dockerps = awk '{print $1, $2, $NF}'  # nur Container-ID, Image, Status
pipeline.gitdiff = grep:^(diff|@@|\\+|\\-) | head:50
pipeline.find = xargs -I {} basename {} | sort | head:30
pipeline.deploy = grep:^(Deploy|Building|Error|SUCCESS|FAIL) | tail:5

Geeignet für: Claude Code (PreToolUse Hooks), Codex, OpenCode, Pi Agent

Ursprung: https://github.com/zdk/lowfat (128↑ HN, 4. Juni 2026)

Warum heute wichtig: Token-Kosten sind die versteckte Bremse von Agent-Workflows. Dieses Pattern zeigt, wie man durch gezielte Output-Filterung die Agent-Effizienz massiv erhöht — ohne Qualität zu opfern, solange man dem Filter sagt, was wichtig ist. Besonders wertvoll bei DevOps/Infrastruktur-Agents mit massiver CLI-Ausgabe.

🏆 Highlight des Tages

Scaffold-Struktur > Prompt-Inhalt: Warum Gerüste die eigentliche Zauberwaffe sind

Eine präregistrierte Zwei-Tier-Studie (arXiv 2606.06454, 4. Juni 2026) hat ein kontraintuitives und praxisrelevantes Ergebnis geliefert: Die Struktur eines Prompt-Gerüsts liefert den größten Teil des Effekts — der spezifische Inhalt dahinter ist weit weniger wichtig als angenommen.

Die Forscher haben drei Arms verglichen:

Vollständiger Popperianischer Skill: Modell wird angewiesen, als Falsifikationist zu denken (Hypothese → Falsifikationsversuche → Code → Selbstprüfung)
Labels-only Gerüst: Gleiche Struktur-Labels [Phase 1: Analyse, Phase 2: Entwurf, Phase 3: Code, Phase 4: Validierung] — aber ohne die inhaltliche Popperianische Prozedur
Placebo: Zufällige Struktur-Hinweise ohne systematische Logik

Ergebnis bei Qwen2.5-Coder-0.5B (N=164):

Vollständiger Skill: +20-22 Punkte Korrektheit
Labels-only Gerüst: +20-22 Punkte Korrektheit (identisch!)
Placebo: nur 2,4 Punkte weniger

Ergebnis bei Claude Sonnet 4.6 (N=163): Alle nahe der Benchmark-Obergrenze (Ceiling-Effekt), keine separierbaren Unterschiede.

Implikationen für Prompt-Engineering: Stunden in das Feintuning von Prompt-Formulierungen zu investieren ("Act as..." vs "You are..." vs "Du bist...") bringt marginalen Nutzen. Die echte Hebelwirkung liegt in der strukturellen Gerüst-Architektur: Definiere klare Phasen, benenne sie konsistent, und erzwing die Reihenfolge. Ob diese Phasen "Popperianisch", "Sokratisch" oder einfach "Phase 1-2-3-4" heißen, ist sekundär.

Das erklärt auch, warum so viele verschiedene Prompt-Techniken (CoT, ReAct, Tree-of-Thought, Reflexion) ähnliche Effekte zeigen — sie teilen eine gemeinsame Scaffold-Struktur, aber unterschiedliche Benennungen.

Quelle: https://arxiv.org/abs/2606.06454v1

📰 Erlesene Artikel & Ressourcen

Token-Effizienz: Lowfat CLI-Tool (128↑ HN)

Open-Source Tool das Coding-Agent-Token-Kosten um 91,8% senkt. Filtert CLI-Outputs vor dem LLM mit erweiterbaren Plugins und drei Intensitätsstufen. Integrierbar in Claude Code, Codex, OpenCode und Pi Agent. https://github.com/zdk/lowfat

"I nerfed our coding agents on purpose" (25↑ HN)

Praxisbericht über intelligentes Model-Routing nach Anfrage-Komplexität: 3x Ersparnis bei gleicher Ausgabequalität, plus messbar schnellere Antwortzeiten durch korrektes Bin-Packing von Intelligenz-Levels. https://news.ycombinator.com/item?id=48419614

Jo: Programmiersprache gegen Prompt-Injection (10↑ HN)

AI-native Sprache, die Prompt-Injection-Attacken zur Compile-Zeit erkennt, bevor sie ausgeführt werden. Relevant für alle, die Agent-Sicherheit ernster nehmen als Runtime-Filter. https://github.com/typescope/jo

LLM-Agent-Harness-Reparatur (arXiv 2606.06324)

Neue Forschung: LLM-basierte Agenten scheitern primär an Harness-Fehlern (Umgebung, Tools, Kontext-Orchestrierung) — nicht am Modell. Diagnostik- und Reparatur-Framework für fehlgeschlagene Agent-Trajektorien. https://arxiv.org/abs/2606.06324v1

llm.txt: Das Web für Maschinen (36↑ HN)

Diskussion darüber, wie die /llm.txt-Bewegung die Web-Qualität auch für Menschen verbessern könnte. LLM-optimierte Markdown-Versionen von Seiten sind oft klarer und präziser als das marketing-schwere HTML. https://news.ycombinator.com/item?id=48410589

OpenAI führt Lockdown Mode ein

Neue Sicherheitsfunktion in ChatGPT mit erhöhten Risikolabels. Simon Willison dokumentiert die Implementierung und die Auswirkungen auf die Nutzung. https://simonwillison.net/2026/Jun/5/openai-help-lockdown-mode/

Bericht erstellt am 2026-06-06 Quellen: Reddit, Hacker News, arXiv

Daily Prompt Intelligence Report — 06. Juni 2026

🔤 TOP 3 PROMPTS — Textgenerierung

1. Popperian Falsifikationist-Skill für Code-Generierung

2. Token-Filter-Konfiguration für Coding Agents

3. Agent-Harness Reparatur-Skill

🖼️ TOP 3 PROMPTS — Bildgenerierung

🎬 TOP 3 PROMPTS — Videogenerierung

🧠 TOP 3 NEUE TECHNIKEN

1. Scaffold-über-Vokabular-Pattern (Gerüst > Inhalt)

2. Adaptive Token-Klassifizierung für Agent-Costs (Model-Router-Muster)

3. PreToolUse-Output-Filterung für AI Agents

🏆 Highlight des Tages

Scaffold-Struktur > Prompt-Inhalt: Warum Gerüste die eigentliche Zauberwaffe sind

📰 Erlesene Artikel & Ressourcen

Token-Effizienz: Lowfat CLI-Tool (128↑ HN)

"I nerfed our coding agents on purpose" (25↑ HN)

Jo: Programmiersprache gegen Prompt-Injection (10↑ HN)

LLM-Agent-Harness-Reparatur (arXiv 2606.06324)

llm.txt: Das Web für Maschinen (36↑ HN)

OpenAI führt Lockdown Mode ein

Neue KI-Prompts direkt in dein Postfach