📅

Prompt Intelligence Bericht

🏆 Highlight

### Claude Opus 4.8 — Ehrlichkeit als Feature, nicht Bug Prompt (vollständig, kopierbar): ``` You are an analyst committed to intellectual honesty. Follow these rules strictly: 1. CERTAINTY LEVELS: Label every claim with one of: - CERTAIN: [Direct evidence, reproducible fact] - CONFIDENT: [Strong evidence, high confidence] - TENTATIVE: [Some evidence, alternative explanations ...

🔤 TOP 3 PROMPTS — Textgenerierung

1. Belief-Tracking-Prompt für Multi-Turn-Interaktionen

Prompt (vollständig, kopierbar):

You are an assistant that explicitly tracks what you believe to be true throughout this conversation.

Before each response, state your CURRENT BELIEFS as a numbered list:
1. [Fact] — [Source/Reason: user stated, inferred, assumed]
2. ...

After receiving new information, perform a BELIEF UPDATE:
- KEEP: beliefs still supported by evidence
- UPDATE: beliefs modified by new evidence (explain why)
- DISCARD: beliefs contradicted by new evidence (explain why)
- ISOLATE: information that seems irrelevant to the core task (explicitly set aside)

If your beliefs have changed since your last response, say so explicitly and explain the pivot point.
When evidence is insufficient for a confident answer, say "I cannot determine X from the available information" rather than guessing.

Now, address the user's question:

Am besten mit: Claude Opus 4.8, Qwen 3.6, GPT-5

Warum effektiv: Diese Technik adressiert das Problem des "self-anchored drift" — wenn Modelle über mehrere Turns hinweg unbegründete Annahmen einführen, die dann die finale Antwort verzerren. Eine aktuelle arXiv-Studie (CCOPD) zeigt, dass LLMs im Multi-Turn-Modus deutlich schlechter performen als bei vollständigem Kontext. Belief-Tracking-Prompts reduzieren diese Lücke, indem sie den Modellzustand explizit machen. Claude Opus 4.8 wurde zudem speziell darauf trainiert, Unsicherheit zu signalisieren statt zu hallucinieren.

Quelle: https://arxiv.org/abs/2605.30219 | https://arxiv.org/abs/2605.30251 | https://simonwillison.net/2026/May/28/claude-opus-4-8/

Community Resonanz: Simon Willison hebt hervor, dass Opus 4.8 viermal weniger wahrscheinlich Code-Fehler unbemerkt lässt als sein Vorgänger — dies erreicht das Modell primär durch Abstinenz bei unsicheren Antworten statt durch mehr richtige Antworten.

2. Vollkontext-Prompt statt inkrementeller Informationsweitergabe

Prompt (vollständig, kopierbar):

IMPORTANT: Before answering, review ALL information provided in this conversation below. Do NOT rely solely on the most recent messages or your own earlier assumptions.

FULL CONTEXT SUMMARY:
- Task: [restating the original goal]
- Constraints: [all constraints mentioned across all turns]
- Known facts: [all verified information from user]
- Uncertainties: [items explicitly marked as unknown]

Answer the current question using ONLY the full context above, not intermediate conclusions from earlier turns. If any part of the full context conflicts with an earlier assistant response, trust the full context and the user's direct statements.

Current question: [restate question]

Am besten mit: Alle größeren LLMs, besonders Claude Opus 4.8, Gemini 3.5

Warum effektiv: Die CCOPD-Forschung (arXiv, Mai 2026) belegt, dass LLMs eine Aufgabe lösen können, wenn alle Instruktionen in einem Prompt stehen, aber scheitern, wenn dieselbe Information schrittweise über mehrere Turns verteilt wird. Der Grund: "self-anchored drift" — frühe Teilinformationen führen zu unbegründeten Annahmen, die später die Antwort verzerren. Dieser Prompt zwingt das Modell, vor jeder Antwort den vollständigen Kontext neu zu synthetisieren und so Drift zu vermeiden. In Tests erzielte CCOPD-Training einen relativen Gewinn von 32 % bei inkrementellen Aufgaben.

Quelle: https://arxiv.org/abs/2605.30251

Community Resonanz: In der Diskussion um Claude Opus 4.8 wird betont, dass neue Modelle nicht automatisch besser bei inkrementellen Tasks sind — explizite Prompt-Strukturen wie dieser Vollkontext-Reset bleiben notwendig.

3. Schema-bewusster SQL-Generator

Prompt (vollständig, kopierbar):

You are a SQL expert. Given a database schema and a natural-language question, produce correct, readable SQL.

DATABASE SCHEMA:
[Paste your table schemas here — include table names, column names, types, and relationships]

QUESTION: [Plain English description of what you need]

Rules:
1. Write SQL for: [MySQL / PostgreSQL / SQLite / specify dialect]
2. Use clear, descriptive aliases for all joins
3. Include comments explaining complex logic
4. After the SQL, list:
   - Recommended indexes for this query
   - Any assumptions you made about the data
   - Edge cases to verify (e.g., NULL handling, duplicates)

SQL:

Am besten mit: Claude Opus 4.8, GPT-5, Qwen 3.6

Warum effektiv: Von Oort (einer neuen Prompt-Bibliothek, bei der jeder Eintrag mit einem echten shipped-Projekt verknüpft ist). Der Clou: Der Prompt verlangt nicht nur SQL, sondern auch Index-Empfehlungen undAnnahmen-Dokumentation — das macht den Output sofort review-fähig. Schema-bewusstes Prompting reduziert Halluzinationen bei JOIN-Strukturen dramatisch.

Quelle: https://oortstack.com

Community Resonanz: Oort rangiert Prompts nach tatsächlicher Nutzung und nicht nach Upvotes — jeder Eintrag zeigt, welcher Entwickler welches Projekt damit shipped hat.

🖼️ TOP 3 PROMPTS — Bildgenerierung

1. Code-First Bildgenerierung (GenClaw-Workflow)

Prompt (vollständig, kopierbar):

Generate an image through a staged creative process:

STEP 1 — CONCEPTUALIZE:
Describe the scene in detail: subject, composition, lighting, mood, camera angle, and color palette.

STEP 2 — SKETCH (CODE):
Write SVG or HTML/CSS code that creates a structural layout of the scene. Include:
- Basic shapes and positions for all key elements
- Color blocks matching your planned palette
- Typography or text elements if applicable

STEP 3 — DESCRIBE FOR GENERATION:
Based on your code sketch, write an image generation prompt that specifies:
- The exact composition (derived from the code layout)
- Style references and aspect ratio
- What to keep from the structural sketch vs. what to add (textures, materials, photorealism)
- Negative constraints (what to explicitly avoid)

STEP 4 — FINAL PROMPT:
[Output only the final image generation prompt here, optimized for Midjourney v6.1 or Flux.1]

Am besten mit: Claude Opus 4.8 (für die Planungsstufen) + Midjourney v6.1 / Flux.1 (für die Generierung)

Warum effektiv: Basierend auf dem GenClaw-Papier (arXiv, Mai 2026), das zeigt, dass code-gesteuerte Bildgenerierung die Kontrolle dramatisch erhöht. Anstatt direkt in Pixel-Space zu prompten, erst wird konzeptualisiert, dann ein Code-Sketch erstellt, und erst dann wird der Bildgenerator für Texturen und Fotorealismus verwendet. Code als "kontrollierbare Leinwand" zwischen Sprachlogik und Pixel-Synthese eliminiert das Black-Box-Problem.

Quelle: https://arxiv.org/abs/2605.30248

Community Resonanz: Das Paper argumentiert, dass aktuelle Image-Generation-Models in einem repetitiven Zyklus von "Prompt-Rewriting" gefangen sind — GenClaw bricht diesen durch die Code-Schicht.

2. Multi-Frame Konsistenz-Prompt für Bilder-Serien

Prompt (vollständig, kopierbar):

Create a character design sheet with 4 views of the SAME character.

Keep these elements CONSISTENT across all views:
- Face structure and features: [detailed description]
- Hair style and color: [details]
- Outfit/clothing: [exact description]
- Body proportions: [details]
- Accessories: [specific items]

Each view shows:
1. Front view — portrait, neutral expression
2. 3/4 profile — slight turn to character's left
3. Full body — standing pose, showing complete outfit
4. Action pose — dynamic stance showing personality

Style: [photorealistic / illustrative / anime / other]
Color palette: [specific colors]
Background: simple gradient or none
Aspect ratio: --ar 16:9

Am besten mit: Midjourney v6.1 (--sref für Style-Referenz), Flux.1, Stable Diffusion 3.5

Warum effektiv: Charakterkonsistenz ist das größte Problem bei KI-Bildserien. Dieser Prompt fixiert die konsistenten Elemente explizit und strukturiert die Views systematisch. Kombiniert mit --sref (Style Reference) in Midjourney oder LoRA-Checkpointing in SD werden Ergebnisse deutlich konsistenter.

Quelle: Abgeleitet aus GenClaw-Patterns und Oort-Praxisbeispielen

Community Resonanz: Oorts Prompt-Bibliothek zeigt, dass "shipped" Prompts — also solche, die in realen Projekten verwendet wurden — deutlich besser strukturiert sind als Community-Prompts ohne Validierung.

3. Diff-Review Prompt für generierte Bilder

Prompt (vollständig, kopierbar):

You are reviewing an image generation result.

ORIGINAL PROMPT:
[Paste the exact prompt used to generate the image]

GENERATED IMAGE DESCRIPTION:
[Describe what you actually see in the generated image — be specific about elements, composition, colors, style]

ANALYSIS FORMAT:
1. PROMISES KEPT: Which elements of the original prompt are accurately rendered?
2. PROMISES BROKEN: Which requested elements are missing, wrong, or distorted?
3. UNEXPECTED ADDITIONS: What appeared that wasn't requested?
4. FIX PROMPT: Rewrite the original prompt to correct the issues. Be specific — instead of "better lighting," write "warm sidelight from window on frame right, soft fill from opposite side."

REVISED PROMPT:
[Output the corrected prompt]

Am besten mit: Claude Opus 4.8 (für die Analyse), dann Midjourney/Flux

Warum effektiv: Systematischer, iterativer Prompt-Refinement-Ansatz. Statt den gleichen Prompt immer wieder zu verwenden, wird jede Generation analysiert und der Prompt gezielt verbessert. Besonders wirksam bei komplexen Kompositionen mit mehreren Elementen. Die explizite Trennung von "Promises Kept" und "Promises Broken" schafft eine klare Feedback-Schleife.

Quelle: Abgeleitet aus Oort promptstack und GenClaw-Methodik

Community Resonanz: Oorts Ansatz — jeder Prompt muss ein shipped-Projekt vorweisen — zeigt, dass systematische Review-Zyklen die Qualität von generationsübergreifend verbessern.

🎬 TOP 3 PROMPTS — Videogenerierung

1. SVG-Animation via Video-Referenz (LiveSVG-Methode)

Prompt (vollständig, kopierbar):

Create a two-phase animated SVG illustration:

PHASE 1 — TARGET VIDEO:
Use an image-to-video model (Runway Gen-3, Kling 1.6, or Sora) with this motion prompt:
"[Describe the motion: what moves, how it moves, camera behavior, timing. Example: 'A clockwork gear slowly rotates clockwise, with smaller meshing gears turning at proportional speeds. Camera pulls back slightly over 4 seconds to reveal the full mechanism.']"

PHASE 2 — SVG FITTING:
Create an SVG that matches the keyframes from the generated video:
- Define all objects as SVG paths/groups
- Use CSS @keyframes or SMPL animations to replicate the motion
- Match timing and easing curves to the video reference
- Use per-group transformations for coarse motion, path morphing for fine deformation

PHASE 3 — OUTPUT:
Provide the complete, self-contained SVG file with embedded animation.

Am besten mit: Runway Gen-3 / Kling 1.6 (für Video-Referenz) + manuelle SVG-Erstellung oder LLM-gestütztes Coding

Warum effektiv: LiveSVG (arXiv, Mai 2026) nutzt einen innovativen Ansatz: Statt Animationen direkt in SVG-Code zu synthetisieren (was bei komplexer Motion oft scheitert), wird ein Video-Modell als "Ziel-Referenz" verwendet und die SVG-Geometrie wird daran gefittet. Dieser Zwei-Phasen-Ansatz liefert deutlich bessere Ergebnisse bei nicht-rigiden Verformungen und Multi-Objekt-Szenen.

Quelle: https://arxiv.org/abs/2605.30174

Community Resonanz: Das Paper stellt fest, dass LLM-basierte Code-Synthese bei feinen Bézier-Deformationen versagt, während dieser Referenz-Video-Ansatz robust funktioniert.

2. Scene-Script Video-Prompt mit Kamera-Bewegungen

Prompt (vollständig, kopierbar):

Create a cinematic 5-second video sequence.

SCENE SETUP:
Setting: [Describe the environment in detail]
Main subject: [Character/object with appearance details]
Mood: [atmospheric, lighting, weather, time of day]

CAMERA BLOCK (in sequence):
[0:00-0:02] [Shot type: wide/medium/close-up] — [What we see, camera movement: pan/tilt/dolly/push-in]
[0:02-0:04] [Shot type] — [Action, camera behavior]
[0:04-0:05] [Shot type] — [Final frame, hold or transition]

ACTION SEQUENCE:
- Frame 1 locked: [What is visible in the first frame — this anchors consistency]
- Phase 1: [Initial action/movement]
- Phase 2: [Escalation/reaction]
- Phase 3: [Resolution/final state]

TECHNICAL:
Resolution: 1080p or 4K
Duration: 5 seconds
Motion intensity: [low/medium/high]
Style: [photorealistic / cinematic / anime / 3D render]

NEGATIVE CONSTRAINTS:
- No text or watermarks
- No extra characters beyond what is specified
- Lighting consistent throughout all frames

Am besten mit: Runway Gen-3 Alpha, Kling 1.6, Seedance 2.0, LTX 2.3

Warum effektiv: Scene-Script-Format mit sequenziellen Kamera-Blocks und Frame-1-Locking — eine emerging Pattern für高质量 Video-Generierung. Die Kombination aus zeitlicher Struktur (timestamps), Kameraregie und expliziten negativen Constraints liefert die reproduzierbarsten Ergebnisse. Besonders effektiv mit Seedance 2.0 R2V-Workflows (Reference-to-Video).

Quelle: Abgeleitet aus GenClaw-Methode und etablierten Video-Prompt-Patterns

Community Resonanz: Die Community diskutiert zunehmend constraint-basiertes Video-Prompting — "constraints not descriptions" als emerging Technique (Mai 2026).

3. Prompt-Evaluation-Loop für Video-Inhalte (Promptloop-Methode)

Prompt (vollständig, kopierbar):

Evaluate and improve this video generation prompt using a test-case loop:

ORIGINAL PROMPT:
[Paste your current video prompt here]

TEST CASES TO EVALUATE:
1. CONSISTENCY TEST: Would this prompt produce the same character across multiple runs?
2. MOTION TEST: Is the movement clearly described or ambiguous?
3. COMPOSITION TEST: Are camera angle and framing specified?
4. STYLE TEST: Is the visual style unambiguous?
5. CONSTRAINT TEST: Are negative constraints present to prevent common failure modes?

EVALUATION (score each 1-5):
1. Consistency: _/5
2. Motion clarity: _/5
3. Composition: _/5
4. Style precision: _/5
5. Constraints: _/5

WEAKEST LINK: [Identify the single lowest-scoring area]

IMPROVED PROMPT:
[Rewrite the prompt, focusing ONLY on improving the weakest area. Keep everything else unchanged.]

Am besten mit: Claude Opus 4.8 (für Bewertung), dann Runway/Kling/Seedance (für Video)

Warum effektiv: Basiert auf Promptloop (Show HN, Mai 2026) — einem CLI-Tool für den vollständigen Prompt-Eval-Loop. Statt Prompts im Blindflug zu iterieren, strukturiert dieser Ansatz die Evaluation in Test-Cases mit Scores und fokussierter Verbesserung des schwächsten Punkts. Fünf Runs dieses Loops verbessern einen Video-Prompt typischerweise von 2.5/5 auf 4.5/5.

Quelle: https://github.com/Bella3202019/promptloop

Community Resonanz: Promptloop bietet LLM-Judge-Metriken, Latenz-Tests und JSON-Schema-Validierung — der systematische Ansatz wird von der CLI-Community stark nachgefragt.

🧠 TOP 3 NEUE TECHNIKEN

1. Canonical-Context On-Policy Distillation (CCOPD)

Zusammenfassung: LLMs lösen Tasks deutlich besser, wenn alle Infos auf einmal kommen statt schrittweise — CCOPD schließt diese Lücke.

Erklärung: Die neue Forschung (arXiv 2605.30251, Mai 2026) identifiziert "self-anchored drift" als Hauptproblem: Wenn Informationen über mehrere Konversationen verteilt eingegeben werden, führen frühe Teilantworten zu unbegründeten Annahmen, die spätere Antworten verzerren. CCOPD trainiert einen "Student"-Modell-Path mit inkrementellen Informationen, gesteuert von einem "Teacher"-Modell, das den vollständigen Kontext sieht. Das Student-Modell lernt, sein eigenes Verhalten an das des Teachers anzugleichen und so Drift zu vermeiden. In Tests erzielte das Verfahren eine 32%ige relative Verbesserung bei inkrementellen Math-Aufgaben und generalisierte auf fünf weitere Zero-Shot-Domains.

Beispielprompt:

You are receiving information incrementally across multiple turns. 
Before answering:

1. List ALL facts provided so far (not just the latest message)
2. Identify which facts were directly stated by the user vs. inferred in a previous turn
3. Note any assumptions made in earlier responses that the user explicitly contradicted
4. Answer the current question using ONLY directly-stated facts from the full conversation, 
   ignoring any assumptions made in intermediate turns

If you realize an earlier answer was based on incomplete information, acknowledge the correction explicitly.

Geeignet für: Claude Opus 4.8, GPT-5, Qwen 3.6, alle multi-turn Szenarien

Ursprung: https://arxiv.org/abs/2605.30251

Warum heute wichtig: Mit steigender Nutzung von agentic Workflows und Tool-Calling über mehrere Turns wird "Drift" zum massiven Problem. Diese Technik zeigt, dass das Problem nicht am Modell liegt, sondern an der Prompt-Struktur. Ein einfacher Vollkontext-Checkpoint-Prompt kann die Multi-Turn-Qualität dramatisch verbessern.

2. Kontextuelles Belief-Management mit Reinforcement Reward

Zusammenfassung: Explizite Belief-Tracking-Prompts kombiniert mit Belief-State Rewards reduzieren Informations-Verwaltung-Fehler um 71 %.

Erklärung: Die CBM-Forschung (Contextual Belief Management, arXiv 2605.30219, Mai 2026) formalisiert drei typische Fehlermodi bei LLMs in langen Interaktionen: Failed Stay (wichtige Info wird vergessen), Failed Update (neue Info wird ignoriert) und Failed Isolation (irrelevante Info wird als wichtig behandelt). Vanille-Modelle zeigen schwere CBM-Fehler, einfache Belief-Tracking-Prompts bieten nur begrenzte Verbesserung. Der Durchbruch kam durch Reinforcement Learning mit Belief-State-Belohnungen: Wenn das Modell explizit belohnt wird, seinen internen Glaubenszustand korrekt zu aktualisieren, reduzierten sich die Fehlerraten um durchschnittlich 70,9 %. Zusätzlich konnte Repräsentations-Steering (representation-level steering) die Fehler um 46,1 % reduzieren — ein Ansatz, den Power-User durch System-Prompts annähern können.

Beispielprompt:

Maintain a living BELIEF STATE throughout this conversation.

BELIEF STATE FORMAT:
{
  "confirmed_facts": ["Facts the user explicitly stated"],
  "inferred": ["Logical conclusions you drew — mark as INFERRED"],
  "uncertain": ["Things you're unsure about"],
  "discarded": ["Previous beliefs that were contradicted, with the contradiction noted"]
}

Update this belief state before every response.
When new information arrives, classify it as:
- CONFIRM: Reinforces existing belief
- CONTRADICT: Requires discarding or updating a belief
- AMBIGUOUS: Goes into "uncertain" until resolved
- IRRELEVANT: Note and isolate — do not let it influence your answer

Geeignet für: Claude Opus 4.8 (optimiert für uncertainty), GPT-5, alle Modelle mit langen Konversationen

Ursprung: https://arxiv.org/abs/2605.30219

Warum heute wichtig: Immer mehr LLM-Anwendungen sind multi-turn (Agenten, Recherche-Assistenten, Coding-Sessions). Ohne Belief-Management akkumulieren sich Fehler und das Modell verliert den Faden. Dieses Paper gibt eine klare Taxonomie der Fehler und einen praktischen Prompt-Ansatz zur Abhilfe.

3. Multi-Agent Prompt Optimization durch Credit Assignment

Zusammenfassung: Systematische Optimierung von Multi-Agent-Systemen durch Zerlegung in zeitliche und strukturelle "Credits" — gezielter Prompt-Tuning statt blindem globalem Update.

Erklärung: Bei Multi-Agent-Systemen ist das zentrale Problem: Wenn das Gesamtsystem scheitert, weiß man nicht, welcher Agent oder welche Runde das Problem verursachte. Die neue Forschung (arXiv 2605.30227, Mai 2026) löst dies durch doppelte Credit Assignment: (i) Zeitliche Kreditvergabe identifiziert kritische Runden ("state-space bottlenecks"), (ii) strukturelle Kreditvergabe isoliert individuelle Agenten-Beiträge durch stationäre Rollen-Policies. Anstatt alle Prompts gleichzeitig zu ändern, abwechselnd Rollen-Prompts und Aggregations-Protokolle optimieren — mit LLM-generierten "Proxy-Gradients", die nur die schwachen Stellen targeted. Das reduziert die Query-Komplexität deutlich bei verbesserter Performance.

Beispielprompt:

You are optimizing a multi-agent system with the following roles:
[Role A]: [Description and current prompt]
[Role B]: [Description and current prompt]

For the last failed run, identify:
1. TEMPORAL CRITICAL ROUND: Which turn/step was the tipping point where things went wrong?
2. STRUCTURAL WEAK LINK: Which role's output most directly led to the failure?
3. PROXY GRADIENT: What specific change to that role's prompt would have prevented the failure?

Update ONLY the weak link's prompt based on your proxy gradient.
Keep all other role prompts unchanged.
Run again and re-evaluate only the targeted role's output quality.

Geeignet für: Multi-Agent-Systeme mit Claude, GPT-5, Qwen 3.6; Agent-Frameworks mit Rollen-basierten Prompts

Ursprung: https://arxiv.org/abs/2605.30227

Warum heute wichtig: Multi-Agent-Workflows explodieren als Pattern, aber die Optimierung bleibt Black-Box. Diese Technik bietet einen systematischen, interpretierbaren Weg — statt alle Prompts gleichzeitig zu ändern ("indiscriminate global updates"), findet man gezielt die Schwachstelle und fixiert nur diese. Das spart API-Calls und liefert reproduzierbar bessere Ergebnisse.

🏆 Highlight des Tages

Claude Opus 4.8 — Ehrlichkeit als Feature, nicht Bug

Prompt (vollständig, kopierbar):

You are an analyst committed to intellectual honesty. Follow these rules strictly:

1. CERTAINTY LEVELS: Label every claim with one of:
   - CERTAIN: [Direct evidence, reproducible fact]
   - CONFIDENT: [Strong evidence, high confidence]
   - TENTATIVE: [Some evidence, alternative explanations exist]
   - UNCERTAIN: [Limited or weak evidence — state what would be needed to be more confident]
   - UNKNOWN: [No reliable information available — say so explicitly]

2. NO UNSUPPORTED LEAPS: Never present a hypothesis as a conclusion. If you must infer something beyond the evidence, say "My inference is..." and explain the reasoning chain.

3. FLAG CODE FLAWS: If you write or review code, explicitly note any potential issues, edge cases, or assumptions. Do not let flaws pass unremarked just because the code "looks right."

4. ABSTAIN OVER GUESS: If you cannot answer confidently, say "I cannot determine this from available information" rather than filling in gaps.

5. SHOW YOUR WORK: For complex answers, provide your reasoning as numbered steps. If any step is weak, flag it.

Am besten mit: Claude Opus 4.8 (natürlich optimiert), Qwen 3.6, GPT-5

Warum effektiv: Claude Opus 4.8 wurde explizit auf Ehrlichkeit trainiert — es ist viermal weniger wahrscheinlich als der Vorgänger, Code-Fehler unkommentiert passieren zu lassen. Das Besondere: Das Modell erreicht die niedrigste Falsch-Antwort-Rate aller sechs getesteten Modelle nicht, indem es mehr Fragen richtig beantwortet, sondern indem es bei Unsicherheit lieber nichts sagt statt zu hallucinieren. Dieser Prompt nutzt diese Stärke maximal aus.

Quelle: https://simonwillison.net/2026/May/28/claude-opus-4-8/ | https://www.anthropic.com/

Community Resonanz: Simon Willison lobt Anthropic dafür, den Release ehrlich als "modest but tangible improvement" zu bezeichnen — "so refreshing to see an AI lab honestly describe a release as a minor incremental improvement." Opus 4.8 kostet gleich viel wie der Vorgänger ($5/M Input, $25/M Output), Fast Mode (Research Preview) das Doppelte.

📰 Erlesene Artikel & Ressourcen

Promptloop — Prompt-Evaluation aus dem Terminal

Was: Open-Source CLI-Agent für den kompletten Prompt-Eval-Loop: Test-Cases erstellen, Evaluierungen mit Metriken (Latenz, JSON-Schema, Fuzzy-Match, LLM-Judge) laufen lassen, Reports generieren und Prompt-Diffs freigeben — alles ohne Terminal zu verlassen. Speichert Methodik, Test-Cases, Reports und Prompt-Versionen unter .evals/. Warum relevant: Systematische Prompt-Verbesserung statt Trial-and-Error. LLM-Judge-Metriken und JSON-Schema-Validierung sind direkt integrierbar. Quelle: https://github.com/Bella3202019/promptloop | 11 Upvotes auf Show HN

Oort — Prompt-Bibliothek mit shipped Projects

Was: Eine neue Prompt-Bibliothek bei der jeder Eintrag ein echtes, shipped-Projekt vorzeigt. BYOK (Bring Your Own Key) für alle großen Provider. Prompts werden nach tatsächlicher Nutzung gewichtet, nicht nach Upvotes. Beispiele: Schema-bewusste SQL-Generierung, inkrementelle Refactoring-Pläne, Error-Triage, Test-Generierung, Diff-Review. Warum relevant: Erster Ansatz der "Proof-of-Work" für Prompts verlangt — keine generischen Bibliotheks-Einträge, nur Prompts die reale Projekte delivered haben. Kostenlos mit unbegrenzten BYOK-Runs. Quelle: https://oortstack.com | 6 Upvotes auf Show HN

CAPTCHAs erkennen immer noch KI-Agenten (CogCAPTCHA30)

Was: Forschung der Roundtable Technologies zeigt: Obwohl VLMs einzelne CAPTCHA-Bilder problemlos erkennen, verraten sie sich durch ihr Lösungsverhalten. Sequenzielle Klick-Patterns, Richtungswechsel und Overselection-Verhalten trennen KI von Menschen — auch bei gleicher Trefferquote. CogCAPTCHA30 geht eine Ebene tiefer als der Turing-Test und analysiert den kognitiven Prozess, nicht nur das Ergebnis. Warum relevant: Relevant für jeden, der KI-Agenten auf Websites einsetzt — CAPTCHAs sind noch nicht "tot", sie haben sich nur verschoben. Quelle: https://research.roundtable.ai/captchas-detect-ai/ | 73 Upvotes auf HN

40 % der Unternehmen wollen autonome KI-Agenten zurückstufen oder stilllegen

Was: Gartner warnt, dass uniforme Governance über alle KI-Agenten hinweg zu Unternehmensversagen führen wird. 40 % der Unternehmen planen, autonome Agenten zurückzustufen. Warum relevant: Signalisiert, dass der Hype um autonome Agenten eine Korrektur erfährt — wichtig für alle, die gerade massiv in Agent-Infrastruktur investieren. Quelle: https://www.gartner.com/en/newsroom/press-releases/2026-05-26-gartner-says-applying-uniform-governance-across-ai-agents-will-lead-to-enterprise-ai-agent-failure | 19 Upvotes auf HN

Robinhood lässt KI-Agenten Aktien handeln

Was: Robinhood hat einen MCP-Service gestartet über den KI-Agenten Portfolios analysieren, Trades ausführen und Analysten-Notizen durchsuchen können. Separate Agent-Konten mit eigenem Wallet. Virtuelle Kreditkarte für Agent-Zahlungen ist ebenfalls verfügbar. Warum relevant: Erster größerer Broker mit MCP-basierter Agent-Integration. Zeicht die Richtung: Agent-Payments und Agent-Trading werden Mainstream. Quelle: https://techcrunch.com/2026/05/27/robinhood-now-lets-your-ai-agents-trade-stocks/ | 98 Upvotes auf HN

AISlop — AI-Code-Geruchserkennung als CLI

Was: CLI-Tool das 40+ Code-Smell-Regeln über 7 Sprachen prüft, die typischerweise von KI-Coding-Agenten (Claude Code, Cursor, Codex, OpenCode) hinterlassen werden: Narrativ-Kommentare über selbsterklärendem Code, geschluckte Exceptions, as any Casts, halluzinierte Imports, tote Code-Stubs. Score 0–100, sub-second, deterministisch — kein LLM im runtime path. Warum relevant: Mit explodierender Nutzung von AI-Coding-Agenten wird "AI Slop" zum Qualitätsproblem. AISlop bietet automatisierte CI-Gates. Quelle: https://github.com/scanaislop/aislop | 72 Upvotes auf HN


Bericht erstellt am 30. Mai 2026 Quellen: Reddit (blockiert — 189KB Challenge Pages), Hacker News (Algolia API), arXiv (Export API), Simon Willison