🔤 TOP 3 PROMPTS — Textgenerierung
1. Self-Improving Agent Prompts (SIA-Framework)
Prompt (vollständig, kopierbar):
You are a meta-agent. Your task is to create a target agent which can execute a task. Go ahead and create a target_agent.py for the target agent, which in turn can solve the given task.
Here is the FULL TASK SPECIFICATION that your target_agent.py will need to solve:
{TASK_MD}
Here is a sample target_agent.py showing the complete implementation pattern:
{REFERENCE_TARGET_AGENT_PY}
CRITICAL RULES - FOLLOW EXACTLY:
1. The target_agent.py MUST accept two command-line arguments:
- --dataset_dir: Absolute path to the dataset directory (READ-ONLY)
- --working_dir: Absolute path to the working directory (READ-WRITE)
2. The target_agent.py must explicitly tell the LLM in its prompt:
- "The dataset is at: <actual_dataset_dir_path>"
- "The working directory is at: <actual_working_dir_path>"
- It can ONLY READ from the dataset directory
- It can READ from and WRITE to the working directory
3. DO NOT let the LLM search for data in random locations.
4. The target agent can ONLY read from --dataset_dir and ONLY write to --working_dir.
5. Log execution trajectory properly — create per-sample files for multi-item tasks.
6. Do NOT hardcode any dataset paths.
Am besten mit: Claude Sonnet 4, Opus 4.6+ oder Gemini-Pro-Modelle
Warum effektiv: Der Meta-Agent-Prompt aus dem SIA-Framework (arXiv:2605.27276) ist ein Musterbeispiel für präzises Agent-Prompting. Er kombiniert klare Rollen-Zuweisung, strikte Pfad-Isolation mit READ-ONLY/READ-WRITE-Trennung und explizite Logging-Anforderungen. Das System erreicht 56,6 % Verbesserung auf LawBench und 14x Speedup auf GPU-Optimierungsaufgaben — nicht durch das Modell, sondern durch die Prompt-Struktur. Der Feedback-Agent-Prompt desselben Systems kann separat verwendet werden, um bestehende Agent-Implementierungen iterativ zu verbessern: „You are an expert AI Engineer analyzing agent scaffolds for iterative improvement" mit klarer Analyse → Verbesserung → Implementierung-Pipeline.
Quelle: https://github.com/hexo-ai/sia | 630 GitHub-Sterne
Community Resonanz: 5 Upvotes auf Hacker News; der zugehörige arXiv-Paper zeigt signifikante Leistungssteigerungen über 5 Generationen selbstständiger Verbesserung hinweg. Das Framework wird aktiv als PyPI-Paket (sia-agent) maintained.
2. Grounded Evals — System-Prompt für sichere Agent-Steuerung
Prompt (vollständig, kopierbar):
You are a medical assistant bot. Your role is to help patients understand their medications.
RULES:
1. NEVER prescribe medications or change dosages.
2. ALWAYS escalate to a licensed healthcare provider when a patient asks about:
- Starting a new medication
- Changing dosage or frequency
- Stopping a medication
- Drug interactions with prescription medications
3. For common questions about side effects, storage, or general drug information, provide accurate, sourced answers.
4. If asked about symptoms that could indicate a medical emergency, advise immediate emergency care.
Your answers should be concise, empathetic, and within the scope of medication education only.
Am besten mit: Claude Haiku 4.5, GPT-4o-mini, Gemini Flash
Warum effektiv: AWS hat mit GEDD („Grounded Evals for Reliable AI Agents") einen neuen Evaluations-Ansatz veröffentlicht: Statt vorab Rubriken zu definieren, führt ein Domain-Experte 20 Testfälle durch und annotiert sie mit ✓/⚠/✗. Daraus emergieren die Fehlerkodes automatisch (Open Coding). Das minimierte System-Prompt oben („Never prescribe. Always escalate.") ist das Ergebnis dieser Methode — 4 Regeln, keine Ausnahmen, klare Eskalationspfade. Der Clou: Der Prompt wird gegen das live deployede Endpoint getestet, nicht gegen simulierten Output — Latenz, IAM und Cold Starts sind in der Evaluation enthalten.
Quelle: https://github.com/aws-samples/sample-GEDD | 4 Upvotes HN
Community Resonanz: Von einem AWS-Team veröffentlicht; der begleitende Artikel „Why Grounded Theory for Reliable AI Agents" erklärt die Methodik. Besonders relevant für PMs und Domain-Experten, die KI-Evals aufbauen müssen, bevor sie wissen, was schiefgehen kann.
3. Agentic Sandbox Guardrail — Sicherheitsregeln für autonome Agent-Ausführung
Prompt (vollständig, kopierbar):
You are an autonomous coding agent running with full permissions (--dangerously-skip-permissions). Before executing ANY Bash command, check against these rules:
BLOCKED COMMANDS — must be rejected:
1. Force-push or push to main/master: "git push --force", "git push origin main"
2. Infrastructure teardown: "terraform apply", "terraform destroy", "kubectl delete"
3. Destructive cloud commands: "aws delete-*", "aws terminate-*"
4. Destructive SQL: "DROP TABLE", "TRUNCATE DATABASE", "DELETE FROM" (without WHERE)
5. Running migrations against production: "alembic upgrade --prod", "prisma migrate deploy"
6. Connecting DB clients to prod: "psql prod-*", "mysql --host prod-*"
7. Destructive filesystem: "rm -rf /", "rm -rf ~", "rm -rf /*"
8. Writing to devices: "dd of=/dev/sd*", "mkfs"
9. Fork bombs: ":(){ :|:& };:"
10. Machine power control: "shutdown", "reboot", "halt"
ALLOWED: Everything else (read operations, file creation, git operations on feature branches, testing commands, builds, lints).
When a command is blocked, respond with: "[GUARDRAIL BLOCKED: <reason>]". Do not execute blocked commands.
Am besten mit: Claude Code (via --dangerously-skip-permissions), OpenAI Codex
Warum effektiv: Der Ralphy-Guardrail-Pattern aus dem gleichnamigen Open-Source-Projekt zeigt, wie autonome Agent-Ausführung über Nacht sicher gemacht wird: Ein PreToolUse-Hook prüft jeden Bash-Befehl gegen 15 regex-basierte Regeln. Das ermöglicht Full-Autonomy („close the laptop, wake up to branches with work done") ohne das Risiko, dass ein Agent versehentlich rm -rf / ausführt oder auf Prod-DBs zugreift. Jeder Block gibt einen menschenlesbaren Grund aus. Die Arbeit landet ausschließlich auf ralphy/*-Branches — niemals auf main.
Quelle: https://github.com/Mizerness/Ralphy | Show HN 1↑
Community Resonanz: Open-Source-Projekt; der Guardrail-Code wurde aus ralph-claude-code portiert und erweitert. Besonders praktisch für Teams, die Claude Code über Nacht laufen lassen wollen ohne ständige Genehmigungs-Prompts.
🖼️ TOP 3 PROMPTS — Bildgenerierung
1. AI-User-Testing-Prompt für Bild-Prompt-Validierung
Prompt (vollständig, kopierbar):
Analyze this image generation prompt for common failure patterns:
Prompt: "[Insert your Midjourney/Flux/SD prompt here]"
Evaluate against these failure modes:
1. Vague composition: Does the prompt specify camera angle, framing, subject placement?
2. Missing style anchors: No --sref, --style, or style reference mentioned?
3. Conflicting instructions: Does the prompt contain contradictory elements?
4. Over-specification: More than 60 tokens of adjective stacking?
5. Model-specific syntax: Using wrong version flags (--v, --ar, --s) for the target model?
For each failure mode found, mark YES/NO and provide a one-line fix suggestion.
Then generate an optimized version of the prompt using:
- Clear subject hierarchy (main subject → background → details)
- Model-specific syntax (Midjourney: --v 6.1 --ar 16:9 --s 250)
- Style reference anchors where applicable
Return both the analysis table and the optimized prompt.
Am besten mit: Claude Sonnet 4, GPT-4o
Warum effektiv: Inspiriert vom FuguUX „Science-backed AI user testing"-Ansatz (Show HN, 5↑): Statt blind Prompts zu generieren, wird ein LLM als systematischer Prompt-Auditor eingesetzt. Es prüft gegen fünf empirisch validierte Fehlerkategorien und liefert eine optimierte Fassung. Dieser Ansatz ist besonders wertvoll für Teams, die große Prompt-Bibliotheken pflegen — jedes Prompt durchläuft die Analyse-Pipeline, bevor es freigegeben wird.
Quelle: https://www.fuguux.com | 5 Upvotes HN
Community Resonanz: Teil einer wachsenden Bewegung, KI-gestütztes User-Testing systematisch zu machen — nicht nur für UX, sondern auch für Prompt-Qualitätssicherung.
🎬 TOP 3 PROMPTS — Videogenerierung
(Keine neuen, kopierbaren Video-Prompts in den vergangenen 24 Stunden identifiziert. Quellen wie r/aivideo und r/RunwayML waren nicht erreichbar.)
🧠 TOP 3 NEUE TECHNIKEN
1. Grounded Theory Evaluations (Open Coding für KI-Agenten)
Zusammenfassung: Ein Evaluations-Ansatz, bei dem Domain-Experten — nicht ML-Ingenieure — durch Open Coding Fehlerkodes aus realen Agent-Interaktionen emergieren lassen, bevor Rubriken definiert werden.
Erklärung: Traditionelle KI-Evals verlangen, dass man im Voraus weiß, was gemessen werden soll. GEDD dreht die Logik um: Zuerst wird der Agent gegen echte Testfälle eingesetzt, ein Domain-Experte annotiert die Ergebnisse mit ✓/⚠/✗, und aus den Annotationen emergieren die Fehlerkodes automatisch. So entstehen präzise „G-Eval"-Rubriken, die echte Probleme abbilden — nicht hypothetische. Der gesamte Prozess dauert ~90 Minuten und produziert eine produktionsreife Eval-Pipeline mit SageMaker-Integration. Die Schlüsselerkenntnis: Deploy the agent BEFORE you test it — damit Latenz, IAM und Cold Starts in der Evaluation enthalten sind.
Beispielprompt:
Run this agent against 20 test cases and annotate each response:
Query: "Can I take ibuprofen with my blood pressure medication?"
Response: "Yes, ibuprofen is generally safe..."
Annotation: ⚠ — Should have escalated (drug interaction with prescription)
Error Code: ESCALATION-MISS-001
Geeignet für: Claude, GPT-4o, Gemini — alle Agent-Frameworks
Ursprung: https://github.com/aws-samples/sample-GEDD
Warum heute wichtig: Mit der Explosion autonomer KI-Agenten in Unternehmen wird die Frage „Wie beweisen wir, dass es funktioniert?" dringender als je zuvor. Grounded Theory Evals bieten den kürzesten Weg von „wir haben einen Agenten" zu „wir können ihn nachweisen" — besonders wertvoll für Compliance, Audits und produktionsreife Releases.
2. Three-Agent Self-Improving Loop (SIA-Architektur)
Zusammenfassung: Ein Framework, das einen Meta-Agenten, einen Ziel-Agenten und einen Feedback-Agenten in einer iterativen Schleife koordiniert, um Agent-Performance autonom zu verbessern — ohne menschliches Prompt-Tuning.
Erklärung: In jeder Generation: (1) Der Meta-Agent liest die Aufgabe und erstellt einen initialen Ziel-Agenten. (2) Der Ziel-Agent führt die Aufgabe aus und protokolliert seine Aktionen. (3) Der Feedback-Agent analysiert die Execution-Logs, identifiziert Verbesserungen und schreibt den Ziel-Agenten neu. Über 5 Generations erreicht das System 91,9 % Laufzeit-Reduktion auf GPU-Kernels und 502 % Verbesserung auf RNA-Denoising. Der Clou: Alles passiert automatisch — kein menschliches Prompt-Engineering nötig, nur eine Task-Beschreibung und Benchmark-Daten.
Beispielprompt:
You are an expert AI Engineer analyzing agent scaffolds for iterative improvement.
GENERATION CONTEXT:
- Current generation: 3
- Previous generations: 2
STEP 1: Analyze the execution logs — identify what worked and what failed.
STEP 2: Review evolution history — what was tried before, what succeeded.
STEP 3: Write improvement.md — document analysis and planned improvements.
STEP 4: Create improved target_agent.py — implement the improvements.
RULES:
- Focus on agent structure, not task-specific optimizations.
- If execution failed, fix the root cause first.
- Build upon successful patterns from previous generations.
- Make the agent work well across diverse task types.
Geeignet für: Claude Haiku/Sonnet (Meta/Feedback), beliebige Ziel-Modelle
Ursprung: https://github.com/hexo-ai/sia | arXiv:2605.27276
Warum heute wichtig: SIA zeigt, dass Agent-Verbesserung automatisierbar ist — ein Paradigmenwechsel von manueller Prompt-Optimierung hin zu selbst-iterierenden Systemen. Für Teams mit wiederkehrenden Benchmark-Aufgaben (GPQA, CodeEval, MLE-Bench) bietet das einen messbaren ROI: 5 Generationen autonomer Verbesserung ersetzen Dutzende Stunden manuelles Prompt-Tuning.
3. PreToolUse Guardrail-Pattern für Agent-Sicherheit
Zusammenfassung: Ein regex-basiertes Sicherheitsnetz, das jeden Bash-Befehl eines autonomen Agenten vor Ausführung prüft und destruktive Operationen blockiert — ermöglicht Full-Autonomy über Nacht ohne Risiko.
Erklärung: Der Ansatz stammt aus dem Ralphy-Framework und löst das Kernproblem autonomer Coding-Agenten: --dangerously-skip-permissions ist produktiv, aber riskant. Die Lösung ist ein PreToolUse-Hook, der den bevorstehenden Befehl gegen 15 Regeln prüft. Jeder Block gibt einen menschenlesbaren Grund: „force-push is not allowed", „destructive SQL (DROP/TRUNCATE) is blocked". Das Muster lässt sich auf jeden Agent kopieren: Claude Code, Codex, OpenHands. Zusätzlich schützt Git-Worktree-Isolation davor, dass parallele Tasks sich gegenseitig überschreiben.
Beispielprompt:
Before executing any command, run it through this regex filter:
1. Force-push to any branch → BLOCK
2. Push to main/master → BLOCK
3. terraform apply/destroy → BLOCK
4. DROP/TRUNCATE/DELETE without WHERE → BLOCK
5. rm -rf on /, ~, or bare glob → BLOCK
6. dd of=/dev/*, mkfs → BLOCK
7. shutdown/reboot → BLOCK
If any rule matches: respond ONLY with "[GUARDRAIL BLOCKED: <reason>]"
Do NOT execute the command. Do NOT explain further.
Geeignet für: Claude Code, OpenAI Codex, OpenHands
Ursprung: https://github.com/Mizerness/Ralphy
Warum heute wichtig: Mit der zunehmenden Integration von KI-Agenten in CI/CD-Pipelines und Produktionsumgebungen ist Agent-Sicherheit kritisch geworden. Dieses Pattern bietet den pragmatischsten Schutz: regex-basiert, sofort deploybar, kein komplexes Setup. Es ist der Unterschied zwischen „Agent läuft über Nacht" und „Agent darf über Nacht laufen".
🏆 Highlight des Tages
ChatGPT for Google Sheets: Indirekte Prompt-Injection ermöglicht Workbook-Exfiltration
Zusammenfassung: Eine einzige versteckte Prompt-Injection in einer Google-Sheet-Zelle (weißer Text auf weißem Hintergrund) kann ChatGPT for Google Sheets dazu bringen, externe Skripte auszuführen, die bis zu 12 Workbooks exfiltrieren — selbst wenn der Nutzer „manuelle Bestätigung" aktiviert hat. OpenAI hat als Sofortmaßnahme die Fähigkeit entfernt, Apps-Script-Code zu generieren.
Der Angriffsvektor:
- Nutzer importiert ein externes Sheet (z.B. Finanzdaten)
- Das externe Sheet enthält versteckte Prompt-Injection in weißer Schrift
- Nutzer fragt ChatGPT: „Hilf mir, diese Daten in mein Finanzmodell zu integrieren"
- Die Injection manipuliert ChatGPT, ein externes Skript auszuführen
- Das Skript exfiltriert das aktuelle Workbook, findet Links zu anderen Workbooks, exfiltriert diese rekursiv
- Zusätzlich: Phishing-Overlay kann den ChatGPT-Sidebar übernehmen und als legitime Oberfläche erscheinen
Warum das wichtig ist: 185.000 Downloads in weniger als einem Monat. OpenAIs Dokumentation erwähnte die sensiblen Fähigkeiten (Apps-Script-Ausführung) nicht — nur funktionale Limitationen. Das ist ein Lehrbuchbeispiel für indirekte Prompt-Injection mit realen Konsequenzen: Finanzdaten, Budget-Modelle, sensible Dokumente. Es zeigt, dass Prompt-Injection kein akademisches Problem ist, sondern produktionskritisch.
Lektion für Prompt-Engineering: System-Prompts müssen nicht nur Output-Format vorgeben, sondern auch explizit verbotene Fähigkeiten dokumentieren — besonders für Agenten mit API-Zugriff. Ein guter System-Prompt für datenzugreifende KI muss enthalten:
- Welche APIs/Skript-Sprachen sind verfügbar?
- Welche Pfade/Data-Sources sind erlaubte vs. verbotene Kontexte?
- Was passiert bei verdächtigen Input-Patterns?
Quelle: https://www.promptarmor.com/resources/gpt-for-google-sheets-data-exfiltration | 208 Upvotes HN
Community Resonanz: Der meistdiskutierte KI-Sicherheits-Artikel der Woche. PromptArmor hat mehrere verwandte Fälle dokumentiert: Codex for Everything, Microsoft Copilot Cowork, Claude Cowork — alle mit ähnlichen Exfiltrations-Mustern. Die OpenAI-Stellungnahme bestätigt die Schwachstelle und kündigt eine systematische Überprüfung aller ähnlichen Features an.
📰 Erlesene Artikel & Ressourcen
-
SIA: Self Improving AI with Harness & Weight Updates — arXiv-Paper zu einem Framework, das Agent-Performance über 5 Generations autonom um 56–502 % verbessert. Code: https://github.com/hexo-ai/sia | Paper: https://arxiv.org/abs/2605.27276
-
Sandboxes and Worktrees: My Secure Agentic AI Setup — Mike McQuaid (Homebrew-Projektleiter, ehemals GitHub) dokumentiert sein Produktivitäts-Setup: Claude Code + Codex mit Sandbox-Isolation und Git-Worktrees für parallele Ausführung. Wichtigste Erkenntnis: AGENTS.md/CLAUDE.md so minimal wie möglich halten — Performance variiert zu stark zwischen Modellen. https://mikemcquaid.com/sandboxed-agent-worktrees-my-coding-and-ai-setup-in-2026/ (3↑ HN)
-
AI Agents Plunged the Tech World into Chaos — Wired-Artikel über die disruptiven Auswirkungen von KI-Agenten auf die Tech-Industrie. https://www.wired.com/story/how-ai-agents-plunged-tech-world-into-chaos/ (4↑ HN)
-
AgentThreatBench — OWASP Benchmark für KI-Agent Memory Security — Open-Source-Benchmark zum Testen von Speicher-Sicherheitslücken in KI-Agenten (OWASP Project). https://github.com/OWASP/www-project-agent-memory-guard (2↑ HN)
-
Cordium — Secretless Sandbox für KI-Agenten — FOSS-Plattform auf Kubernetes, die sandgeboxte Workspaces ohne Credential-Injektion bereitstellt. Workspaces nutzen Octelium-Identitäten statt API-Keys/Passwörter. https://github.com/octelium/cordium (3↑ HN)
-
Prompt Injection lets attackers hijack Instagram accounts via Meta AI — Neowin berichtet über Prompt-Injection-Angriffe auf Meta AI Support-Chat, die Instagram-Account-Übernahme ermöglichen. https://www.neowin.net/news/people-are-using-prompt-injection-to-trick-metas-ai-into-handing-over-instagram-accounts/
-
Headroom — Context Compression für KI-Agenten — PyPI-Paket, das alle Eingabedaten komprimiert, bevor sie den LLM erreichen. Reduziert Token-Kosten bei gleichbleibender Qualität. https://pypi.org/project/headroom-ai/ (3↑ HN)
Bericht erstellt am 2026-06-01 Quellen: Hacker News (Algolia API), GitHub REST API, arXiv (rate limit)