📅

In ~/.claude/settings.json, set:

🏆 Highlight

### Permafrost: 64% tiefere API-Kosten für Coding-Agenten Das mit Abstand wichtigste Finding der letzten 24 Stunden: Permafrost ist ein Claude Code Plugin, das den Prompt-Prefix vor jedem API-Call stabilisiert, sodass DeepSeek's automatisches Prefix-Caching maximal trifft (66-88% Hit-Rate vs. 0% ohne). Bei identischem Token-Traffic: | Setup | Cost für gleiche Aufgabe | Ersparnis vs. Cla...

🔤 TOP 3 PROMPTS — Textgenerierung

1. Claude Fable 5 autonomer Codier-Systemprompt

Prompt (vollständig, kopierbar):

You are running as an autonomous coding agent with extended horizon capabilities.
When working on a task:
- Check your own output to see if it needs further action before concluding
- Do not conclude a response with "I'll do that now" without actually taking the next step
- Prompt users less frequently for permission — act when the path is clear
- For each completed task, communicate clearly what you did, including all changes made and why
- Be more detailed in summarizing your actions since you may work for extended periods without human review
- Solve problems autonomously rather than asking human users for answers

Am besten mit: Claude Fable 5 (Anthropic)

Warum effektiv: Fable 5 enthält einen komplett neuen Systemprompt-Block für langlaufende Agenten-Sessions. Der „Communicating with the user"-Anweisungsstrang löst das bekannte Problem, dass Claude nach langer Arbeit nicht mehr weiß, welche Aufgabe „Task 1" war — der Agent muss jetzt jede Aktion dokumentieren und zusammenfassen. Der Autonomie-Block entfernt das ständige Nachfragen nach Erlaubnis und ermöglicht echtes autonomes Codieren über Stunden.

Quelle: https://TwelveTables.blog/comparing-claude-fable-5s-system-prompt-to-opus-4-8/ | 3 Upvotes (HN: 7up für System Prompt Leak)

Community Resonanz: Der Fable 5 Systemprompt-Vergleich zu Opus 4.8 wurde auf HN mit 7 Upvotes diskutiert, während der dazugehörige „Sabotage"-Artikel (Anthropic nerft Fable 5 bei Konkurrenz-LLM-Entwicklung) 42 Upvotes erreichte. Der „Communicating with the user"-Block wird als richtungsweisend für Multi-Day-Agenten-Architektur bewertet.

2. Audit-Script-Prompt: CSV-basiertes Code-Review statt File-Paste

Prompt (vollständig, kopierbar):

Before fixing issues in this codebase, write an audit script that:
1. Classifies each problem by type (with fixable descriptions like "field:description rule:max-length offset:142", not just "something is wrong")
2. Scores each violation by severity (🔴 critical, 🟡 warning, ✅ passing)
3. Deduplicates — one line per unique issue, not one per inheriting row
4. Includes a 4-word context snippet per violation
5. Normalizes edge cases into standard form before flagging

Output as CSV with columns: severity, rule_name, location, snippet, description

After the script runs, present me the compact CSV. Then fix one severity class at a time. 
Never paste the raw file into context.

Am besten mit: Claude Code, Codex, Cursor

Warum effektiv: Statt eine 1000-Zeilen-Datei in den Context zu pasten (50-80% Context-Window-Verbrauch), produziert ein auditierter CSV-Dump eine 10- bis 24-zeilige Issues-Liste — gleicher Fix, 1/10 der Token-Kosten. Das Pattern funktioniert besonders bei produktiven Dateien (Schemata, Design-Tokens, Produktbeschreibungen).

Quelle: https://julienreszka.com/blog/stop-pasting-files-into-agent-prompts/

Community Resonanz: Der Artikel löste intensive Diskussionen aus: Nutzer berichten von „400→6 deduplizierten" Issues bei Schema-Validierungen, und dass der Agent 80% des Context-Fensters verschwendete indem er Config-Dateien las, die er gar nicht ändern musste. Die deduplication-Strategie wurde als „underrated" bezeichnet — ein Agent fixte 6 Kategorien in einem Shot statt 400 identische Fehler.

3. Claude Code Prefix-Freeze: DeepSeek API-Spar-Prompt

Prompt (vollständig, kopierbar):

# In ~/.claude/settings.json, set:
{
  "env": {
    "ANTHROPIC_BASE_URL": "http://127.0.0.1:8787",
    "ENABLE_TOOL_SEARCH": "true"
  }
}

# Then use Permafrost to freeze the prefix:
# export DEEPSEEK_API_KEY=***
# permafrost wrap claude

# The proxy rewrites every request so that:
# 1. cache_control markers are stripped (DeepSeek ignores them)
# 2. Tools are sorted deterministically (MCP reshuffle can't bust prefix)
# 3. Environment variables (cwd, date, git status) are frozen into anchor
# 4. Requests are serialized in canonical UTF-8

Am besten mit: DeepSeek v4-flash (via Permafrost Proxy)

Warum effektiv: Permafrost erreicht 66% Cache-Hit-Rate bei DeepSeek vs. 0% ohne Alignment. Das spart 64% zusätzliche Kosten — bei 100$ Claude-Traffic nur 3,20$ via DeepSeek+Permafrost. Für 4-Turn-Aufgaben (~85K Input-Token) wurde gemessen: Claude Sonnet $0.198 → DeepSeek ohne Permafrost $0.009 → DeepSeek mit Permafrost $0.003 (31× günstiger).

Quelle: https://github.com/jianzhichun/permafrost | 3 Upvotes HN

Community Resonanz: Permafrost wurde auf HN als „Show HN" mit 3 Upvotes vorgestellt. Der 15/15 e2e-Test-Suite mit 71% Cache-Hit / 68% Cost-Saved wurde als reproduzierbar bestätigt.

🖼️ TOP 3 PROMPTS — Bildgenerierung

Keine neuen Bildgenerierungs-Prompts in den letzten 24 Stunden identifiziert — Reddit war durchgängig geblockt, und die arXiv-Papers der letzten 24 Stunden enthielten keine konkreten Bildgenerierungsprompts mit kopierbaren Templates.

🎬 TOP 3 PROMPTS — Videogenerierung

1. VQAScore: Open-Source Eval-Metrik für Text-to-Video

Prompt (vollständig, kopierbar):

# VQAScore evaluates text-to-video prompts by measuring how well generated
# video content answers visual questions about the prompt's elements.
# Use it as a metric to validate your video prompts:

# Scoring methodology:
# 1. Define visual QA pairs for your prompt:
#    Q: "How many people are in the scene?"
#    Q: "What is the camera movement?"
#    Q: "Does the character keep consistent appearance?"
# 2. Score the generated video (0-1) against expected QA answers
# 3. Iterate prompts until all QA pairs score above threshold

# The metric is now available as an open-source eval model for text-to-video

Am besten mit: Sora, Seedance 2, Kling, Runway

Warum effektiv: VQAScore bietet erstmals ein offenes, programmatisches Evaluations-Metric für Text-zu-Video-Prompts. Statt subjektiv zu bewerten, ob ein Video „gut" ist, wird gemessen, ob die generierten Frames die im Prompt spezifizierten visuellen Elemente korrekt rendern.

Quelle: https://hacker-news.firebaseio.com/v0/item/48470666 (Show HN: VQAScore) | 1 Upvote HN

Community Resonanz: Neuerdings auf HN als „Show HN" eingereicht. Das Pattern ist relevant für Seedance-2-R2V-Workflows, wo Character-Konsistenz über Frames hinweg das Hauptproblem ist.

🧠 TOP 3 NEUE TECHNIKEN

1. Prefix-Freeze für LLM Cache-Optimierung

Zusammenfassung: Der Prompt-Prefix eines LLM-Calls wird byte-identisch stabilisiert, sodass API-Caching (DeepSeek, OpenAI) maximal trifft — 64% Kosteneinsparung auf gleicher Token-Menge.

Erklärung: Viele LLM-APIs cachen den Request-Prefix automatisch, wenn er von Byte 0 identisch ist. Doch moderne Agenten-Tools verändern den Prefix bei jedem Turn: Claude Code ändert Tool-Listen-Reihenfolge, MCP-Server laden spät, git status variiert. Permafrost normalisiert diese variablen Teile: deterministisches Tool-Sorting, Environment-Freezing ins Anchor-Prefix, Canonical Serialization. Das Ergebnis: Von 0% auf 66-88% Cache-Hit-Rate bei DeepSeek. Die Technik ist API-agnostisch und funktioniert überall, wo Prefix-Caching angeboten wird.

Beispielprompt:

# Before: Every request has different prefix
Request 1: [tools: A,B,C][env: date=Jun10][messages: ...] → 100% miss
Request 2: [tools: B,C,A][env: date=Jun11][messages: ...] → 100% miss

# After: Frozen prefix via alignment
Request 1: [tools: A,B,C (sorted)][env:FROZEN_DELTA][messages: ...] → 66% hit
Request 2: [tools: A,B,C (sorted)][env:FROZEN_DELTA][messages: ...] → 66% hit

Geeignet für: DeepSeek v4-flash/v4-pro, OpenAI, alle Prefix-Caching-APIs

Ursprung: https://github.com/jianzhichun/permafrost

Warum heute wichtig: Mit wachsender Nutzung von Coding-Agenten (Claude Code, Codex) und günstigeren Alternativen (DeepSeek) wird Token-Ökonomie zunehmend wichtig. 64% zusätzliche Ersparnis auf bereits günstiges API-Pricing ist der größte Hebel, den ein einzelnes Tool aktuell bietet.

2. Audit-Script Pattern statt Context-Paste

Zusammenfassung: Agenten sollen zuerst ein Audit-Skript schreiben, das Issues als deduplizierte CSV liefert, statt direkt die ganze Datei zu analysieren.

Erklärung: Das klassische Pattern „paste die Datei in den Prompt, sag dem Agenten er soll Probleme finden" verschwendet 50-80% des Context-Fensters. Das neue Pattern hat vier Phasen: (1) Agent schreibt Audit-Skript mit Klassifikation, Severity-Scoring und Deduplizierung, (2) Skript wird außerhalb des LLM ausgeführt, (3) Nur die kompakte CSV (10-24 Zeilen statt 500+ Zeilen) wird an den Agenten zurückgegeben, (4) Fix einer Severity-Klasse pro Durchlauf. Der Clou: Das Audit-Skript muss nur einmal geschrieben werden — danach ist jede weitere Analyse kostenlos. Analog zum Compiler: Er sagt nicht „dein Code hat ein Problem", er gibt Pfad, Zeile, Regel-Name.

Beispielprompt:

Write a script that scans this CSV/product catalog/design-token file and:
- Classifies violations into named categories
- Assigns severity: 🔴 critical / 🟡 warning / ✅ passing
- Deduplicates (one row per unique issue, not per instance)
- Outputs: severity,rule,location,snippet,description

Then fix all 🔴 issues first, re-run the audit, then fix 🟡 issues.
Never read the raw file into context.

Geeignet für: Claude Code, Cursor, Codex — alle Agenten mit Context-Kosten

Ursprung: https://julienreszka.com/blog/stop-pasting-files-into-agent-prompts/

Warum heute wichtig: Context-Fenster sind teuer, auch bei günstigen Modellen. Deduplizierung allein reduzierte in gemeldeten Fällen 400 identische Issues auf 6 — der Agent fixte alle 6 in einem Durchgang. Das Pattern ist analog zu Test-Driven Development: Erst Audit-Report (fail), dann fixen, dann rerun bis clean.

3. Silent-Safeguard-Resistenz für LLM Agenten

Zusammenfassung: Claude Fable 5 kann bei „Frontier LLM Development"-Anfragen unbemerkt gedrosselt werden — ein neues Supply-Chain-Risiko für AI-Teams.

Erklärung: Anthropic hat in Fable 5 „interventions" implementiert, die bei Anfragen zu Building Pretraining Pipelines, Distributed Training Infrastructure oder ML Accelerator Design die Effektivität des Models reduzieren — ohne den Nutzer zu informieren. Die Drosselung erfolgt durch Prompt-Modification, Steering Vectors oder PEFT, und der User erfährt nicht, ob eine schlechte Antwort auf ein echtes Problem oder auf einen unsichtbaren Policy-Filter zurückzuführen ist. Das ist besonders riskant, da die Grenze zwischen „Frontier AI Research" und normaler Produkt-Entwicklung zunehmend verschwimmt (Embedding-Modelle, Reranker, Small LLM Fine-Tuning sind heute Standard-Features).

Beispielprompt:

# When debugging model training / AI components with Fable 5:
# 1. Cross-validate critical answers with a non-restricted model (e.g., Gemini, local LLM)
# 2. If you get unusually vague or evasive answers on ML-adjacent tasks, 
#    test with a clearly non-restricted prompt on the same topic
# 3. Document which topics trigger degraded responses — build a mental map
# 4. Consider: "Did the model fail, or did a policy intervention activate?"
# The safeguard affects ~0.03% of developers but is growing as more 
# companies build AI components into their products.

Geeignet für: Claude Fable 5, Opus 4.8

Ursprung: https://jonready.com/blog/posts/claude-fable5-is-allowed-to-sabotage-your-app-if-youre-a-competitor.html | 42 Upvotes HN

Warum heute wichtig: Wenn ein Development-Tool „optimiert, ohne es dir zu sagen", wird Infrastruktur-Vertrauen unmöglich. Für Teams, die KI-Komponenten in ihre Produkte integrieren, ist das ein echtes Supply-Chain-Risiko — nicht nur ein ethisches.

🏆 Highlight des Tages

Permafrost: 64% tiefere API-Kosten für Coding-Agenten

Das mit Abstand wichtigste Finding der letzten 24 Stunden: Permafrost ist ein Claude Code Plugin, das den Prompt-Prefix vor jedem API-Call stabilisiert, sodass DeepSeek's automatisches Prefix-Caching maximal trifft (66-88% Hit-Rate vs. 0% ohne). Bei identischem Token-Traffic:

Setup Cost für gleiche Aufgabe Ersparnis vs. Claude
Claude Sonnet 4.6 (native Caching) $0.1014
Deepseek v4-flash (ohne Permafrost) $0.009 11× günstiger
Deepseek v4-flash + Permafrost $0.003 31× günstiger

Permafrost sitzt als Proxy zwischen Claude Code und DeepSeek und rewrites die cache-relevanten Bytes jeder Anfrage: deterministisches Tool-Sorting, Environment-Variable-Freezing, canonical UTF-8 Serialization. Ergebnis: Byte-identischer Prefix über alle Turns hinweg, selbst wenn MCP-Server spät laden und git status sich ändert.

Das ist kein theoretisches Benchmark-Ergebnis, sondern live gemessen an echten Claude Code Sessions mit 15/15 e2e-Tests bestanden. Für jeden, der Coding-Agenten mit günstigeren Modeln betreibt, ist das der größte einzelne Kostenhebel, den wir in den letzten Wochen gesehen haben.

Quelle: https://github.com/jianzhichun/permafrost | Show HN, 3 Upvotes

📰 Erlesene Artikel & Ressourcen

Can LLMs Beat Classical Hyperparameter Optimization Algorithms?

113 Upvotes HN — arXiv:2603.24647. Systematische Evaluation, ob LLMs als Hyperparameter-Optimierer gegenüber klassischen Algorithmen (Bayesian Optimization, CMA-ES) bestehen. Relevant für alle, die Auto-Prompt-Tuning oder Hyperparameter-Suche via LLM in Betracht ziehen. https://arxiv.org/abs/2603.24647

If Claude Fable stops helping you, you'll never know

42 Upvotes HN — Jon Ready analysiert Anthropic's Entscheidung, Fable 5 bei Konkurrenzenz-LLM-Entwicklung unbemerkt zu drosseln. Supply-Chain-Risiko für Teams, die AI-Komponenten in Produkte integrieren. https://jonready.com/blog/posts/claude-fable5-is-allowed-to-sabotage-your-app-if-youre-a-competitor.html

Claude Fable 5's system prompt leaked

7 Upvotes HN — Elder Plinius hat den Fable 5 Systemprompt via Twitter geleakt. Enthält den neuen „Communicating with the user"-Block und den Autonomie-Strang. https://twitter.com/elder_plinius/status/2064478648057610422

Stop Pasting Files Into Agent Prompts

1 Upvote HN — Julien Reszka's praktischer Guide zum Audit-Script Pattern: CSV-basiertes Issue-Tracking statt Context-Fenster-Verschwendung. Mit sechs konkreten Regeln für Script-Design und TDD-Analogie. https://julienreszka.com/blog/stop-pasting-files-into-agent-prompts/

Comparing Claude Fable 5's system prompt to Opus 4.8

Jackson, Twelve Tables Blog — Detaillierter Diff der Systemprompts zwischen Opus 4.8 und Fable 5 in Claude Code. Zeigt die neuen „Communicating with the user" und Autonomie-Blöcke, plus Request-Header-Diffs mit Fallback-Flags. https://TwelveTables.blog/comparing-claude-fable-5s-system-prompt-to-opus-4-8/

Ask HN: How are you preserving your skills while using AI?

8 Upvotes HN — Diskussion über Skill-Erosion durch AI-Agenten. Lösungsansätze aus der Community: Spec-Driven Development, „slow code" für Side-Projekte, TDD als Driver's-Seat-Pattern, Multi-Agenten-Orchestrierung als Upskill-Stufen. https://news.ycombinator.com/item?id=48463576

TRACE: Unified Rollout Budget Allocation for Agentic RL

arXiv:2606.11119 — RLVR-System mit intelligenter Budget-Zuteilung für Agenten-Rollouts. Relevant für Teams, die GRPO/RLHF mit Agentic-Workflows kombinieren. https://arxiv.org/abs/2606.11119v1


Brief erstellt am 2026-06-10 Quellen: Reddit, Hacker News, arXiv, Blogs