📅

Prompt Intelligence Bericht

🏆 Highlight

### Tool-Call Degradation: Der wichtigste Fund der Woche Der "Car Wash Mystery"-Post auf r/LocalLLaMA (20 Upvotes) hat eine fundamentale Schwäche moderner AI-Agenten aufgedeckt: Je mehr Tools ein LLM zur Verfügung hat, desto schlechter wird seine eigentliche Denkleistung. Getestet an Kimi K2.5 und Qwen 3.5: | Modus | Car Wash korrekt | Chemie-Frage korrekt | |-------|-------------------...

🔤 TOP 3 PROMPTS — Textgenerierung

1. Claude Plugins für Vertragsanalyse — System-Prompt-Setup

Prompt (vollständig, kopierbar):

Set up your standard positions once: indemnification language, liability caps, data protection terms.

Then use:
/brief vendor renewals due in the next 90 days
→ Durchsucht die gesamte Vertragsbibliothek und listet alle Deadlines, Kündigungsfristen und Handlungspflichten auf.

/review-contract [Datei]
→ Prüft Klauseln gegen eigene Standards mit Ampel-System (grün/gelb/rot) und zitiert exakte Vertragssprache.

Am besten mit: Claude (Sonnet 4.6 / Opus 4.7) mit Legal-Plugin

Warum effektiv: Nutzt Claude Plugins als wiederholbare Workflow-Tools statt Einmal-Prompts. Der Clou: Standard-Positionen werden einmal definiert, dann per Slash-Command auf beliebige Dokumente angewendet. Reduziert Vertragsreviews von Stunden auf Minuten.

Quelle: https://www.reddit.com/r/ClaudeAI/comments/1swvfep/ | 14 Upvotes (r/ClaudeAI) | Spiegelung: https://www.reddit.com/r/PromptEngineering/comments/1swgacu/ | 257 Upvotes

Community Resonanz: Starke Diskussion über Validierung der Ergebnisse — mehrere Nutzer betonen, dass KI-generierte Vertragsanalysen stets gegengeprüft werden müssen. Ein Anwalt bestätigt den Ansatz als prinzipiell solide.

2. WP-Übersetzung per MCP — Token-Spar-Prompt

Prompt (vollständig, kopierbar):

Workflow: WordPress-Posts mit Claude übersetzen — aber ohne Token-Verschwendung.

1. Extrahiere den Post-Inhalt als Markdown (nicht HTML!) via MCP Server
2. Nutze Lara Translate MCP für den strukturellen Teil
3. Claude Sonnet 4.6 erhält NUR den reinen Text zur Übersetzung
4. MCP übernimmt das Zurückspielen ins WP mit intakter Struktur

Vorteil: Keine HTML-Tags im Prompt = massiv weniger Tokens. 
Modell muss sich nicht um Layout-Struktur kümmern, nur um Sprache.

Am besten mit: Claude Sonnet 4.6 + Lara Translate MCP + WP MCP Adapter

Warum effektiv: Der Trick ist die Entkopplung: MCP-Server übernehmen die strukturelle Arbeit (HTML-Handling, WP-API), Claude konzentriert sich rein auf die Übersetzung. Sonnet 4.6 ist hier der Sweet Spot — schnell genug für Tool-Calls, aber ohne den Overhead der Reasoning-Modelle.

Quelle: https://www.reddit.com/r/ClaudeAI/ | 5 Upvotes

Community Resonanz: Positive Aufnahme, besonders der Markdown- statt HTML-Ansatz wird als Game-Changer für WP-Workflows bezeichnet.

3. Agent Eval: Trajectory-basierte Evaluierung statt LLM-as-Judge

Prompt (vollständig, kopierbar):

System-Prompt für Agent-Evaluierung:

"Evaluiere diesen Agent-Lauf nicht am End-Output, sondern am Trajectory:
1. Snapshot die Sequenz aller (Tool, Args)-Aufrufe
2. Vergleiche mit der Referenz-Trajectory
3. Identifiziere Abweichungen im Tool-Call-Pattern, nicht in der Wortwahl

Step-level Replay:
- Pinne jeden Tool-Response auf den aufgenommenen Wert
- Lass den Agent ab jedem Schritt neu reasoning
- 'Was macht mein Agent bei diesem exakten Zustand?'

Trajectory-Clustering:
- Gruppiere Produktions-Traces nach Trajectory-Shape
- Erkenne behavioral drift: Agent nimmt plötzlich anderen Pfad"

Am besten mit: Beliebige Agent-Frameworks (LangGraph, CrewAI, Claude Projects)

Warum effektiv: Löst das fundamentale Problem von LLM-as-Judge: probabilische Bewertung auf einem probabilistischen System = Münzwurf. Trajectory-basierte Evaluierung ist deterministisch und erkennt Regressionen, die am Output nicht sichtbar sind.

Quelle: https://www.reddit.com/r/AI_Agents/comments/1swsqgt/ | 11 Upvotes

Community Resonanz: Entwickler bestätigen das Problem — Pass-Raten schwanken 5-10 Punkte zwischen identischen Durchläufen. Der Trajectory-Ansatz wird als "einzige saubere Lösung" für CI-Gates bezeichnet.

🖼️ TOP 3 PROMPTS — Bildgenerierung

1. Sumo-Biking Poster — Vintage-Werbungsstil (Midjourney v8.1)

Prompt (vollständig, kopierbar):

1960s japanese advertising photo poster of a motocycle race with sumo wrestlers pilots riding the bikes in full gear, vintage look, kodachrome, colourful intricate detailed, kanji --ar 4:5 --raw --stylize 150 --hd --v 8.1

Am besten mit: Midjourney v8.1

Warum effektiv: Die Kombination aus absurdem Sujet (Sumo-Ringer auf Motorrädern) mit strengem Vintage-Stil erzeugt visuell überzeugende Ergebnisse. Die Parameter --stylize 150 und --raw halten den Output nah am Prompt ohne Über-Interpretation.

Quelle: https://www.reddit.com/r/midjourney/comments/1sw79p3/sumo_biking_japans_forgotten_motor_sport/ | 72 Upvotes

Community Resonanz: Der Prompt wird als Beispiel dafür gelobt, wie gezielte Parameter-Nutzung (--raw, low stylize) bessere Kontrolle als hohe Stylize-Werte liefert. Kanji-Zeichen werden als dekoratives (inhaltlich sinnloses) Element hinzugefügt.

2. LTX2.3 Video-LoRA Training — Optimale Einstellungen

Prompt / Workflow (vollständig, kopierbar):

LTX2.3 LoRA-Training — Phase 1 (600 Schritte, RTX 5090):

Training Panel:
- LoRA Rank: 48
- Steps: 700 (speichert bei Schritt 600)
- Gradient Accumulation: 2
- Cache Text Embeddings: ON
- Differential Guidance (Advanced Panel): 3

Dataset Panel:
- Number of Frames: 25 (1 Sekunde × 25 Frames)
- Number of Repeats: 4 bei 25 Clips / 2 bei 50 Clips
- Resolution: 512x512 nur
- Normalise Audio: ON

Sample Settings (nach Phase 1):
- 2 Samples: Close-up + Medium Shot
- 512x512, 49 Frames
- Guidance Scale: 10 (verhindert schlechte Ergebnisse)

Trigger-Wort verwenden für bessere Kontrolle.

Am besten mit: LTX2.3 in Ostris AI Toolkit, RTX 5090 (24GB VRAM)

Warum effektiv: Der Autor hat die Default-Einstellungen reverse-engineered und systematisch optimiert. Das Ergebnis: LoRA-Training in 3,5 Stunden statt 12+ Stunden mit deutlich höherer Likeness-Genauigkeit. Der Knackpunkt: Differential Guidance = 3 in Phase 1, Guidance Scale = 10 beim Sampling.

Quelle: https://www.reddit.com/r/StableDiffusion/comments/1swrs76/ltx23_in_ostris_ai_toolkit_on_a_5090_training/ | 187 Upvotes, 35 Kommentare

Community Resonanz: Massive Nachfrage nach dem Workflow. Community-Mitglieder bestätigen die Einstellungen und ergänzen: Bei weniger als 24GB VRAM "low VRAM"-Dial einschalten, Audio-Training überspringen halbiert VRAM-Bedarf.

3. Z-Image Workflow — Fotorealistische Portrait-Pipeline

Prompt / Konfiguration (vollständig, kopierbar):

ComfyUI Z-Image Diffusers Workflow:

Modell: Z-Image-Deturbo-Returbo-Base
Text Encoder: Qwen3-4b-Z-Image-Engineer-V4 (safetensors)

VAE: ae + Z-Image_half_natural_vae

Upscaler (stilabhängig):
  4x: Nomos2_realplksr_dysample + 4xPurePhoto-RealPLSKR
  1x: DeNoise_realplksr_otf + SkinContrast-High-SuperUltraCompact

Loader: Z-Image Diffusers Loader (ComfyUI-Zlycoris Custom Node)
Dateien verfügbar auf Hugging Face.

Am besten mit: Z-Image-Deturbo-Returbo-Base in ComfyUI, GPU mit 12GB+ VRAM

Warum effektiv: Der Deturbo-Returbo-Ansatz (Entschleunigung + Re-Schärfung) produziert außergewöhnlich fotorealistische Porträts. Die Kombination aus Qwen3-4b als Text Encoder und spezialisierten Upscalern je nach Stil liefert konsistente Ergebnisse ohne die bei Flux bekannten Body-Horror-Probleme.

Quelle: https://www.reddit.com/r/StableDiffusion/comments/1swr1h8/im_still_in_love_with_zimage/ | 39 Upvotes

Community Resonanz: Diskussion über Upscaler-Kombinationen — mehrere Nutzer fragen nach der genauen Zuordnung welcher Upscaler für welchen Stil verwendet wird.

🎬 TOP 3 PROMPTS — Videogenerierung

1. UniGeo — Kamera-kontrollierbare Bildbearbeitung via Wan2.2

Prompt (vollständig, kopierbar):

UniGeo Pipeline für kamera-kontrollierte Bildbearbeitung:

Schritt 1 — Prompt to Physics:
Quellbild + natürlichsprachiger Kamerabefehl:
"Camera pans left by 15 degrees; Camera moves left by 0.27"
→ System parst natürliche Sprache in explizite Kamera-Parameter

Schritt 2 — Point Cloud Preview:
VGGT generiert eine Guiding-Point-Cloud aus den Parametern
→ Iteriere und justiere Kamera-Parameter VOR dem schweren Rendering

Schritt 3 — Video Model Rendering:
Point-Cloud + Quellbild → feingetuntes Wan2.2-5B Modell
→ Fluides End-Video mit physikalisch korrekter Kamerabewegung

Ketten mehrere Bewegungen möglich.
Einheiten: Drehungen in Grad, Bewegungen als relative Fraktionen (0.XX).

Am besten mit: Wan2.2-5B, VGGT für Geometrie, Open Source

Warum effektiv: Löst das "Black-Box Prompting"-Problem: Man sieht die geometrische Trajectory als Point Cloud, bevor das teure Rendering startet. Continuous Motion statt diskreter Winkel — im Gegensatz zu Qwen-Image-Edit-Multiple-Angles-LoRA ermöglicht UniGeo flüssige, physikalisch korrekte Kamerapfade.

Quelle: https://www.reddit.com/r/StableDiffusion/comments/1swriv3/ | 23 Upvotes | GitHub: https://github.com/mo230761/UniGeo

Community Resonanz: Nachfrage nach dem GitHub-Repo wurde schnell beantwortet. Diskussion über Einheiten (Grad vs. Fraktionen) und 180°-Drehungen mit begrenzter Information.

2. Seedance 2 — 3D-to-Video Anime-Pipeline

Workflow (vollständig, kopierbar):

Seedance 2 für 3D-to-Video Anime-Pipeline:

Eingabe: 3D-Graubebox-Animatics (Grayboxing) → Input für Seedance 2
Output: Fertige Anime-Shots mit Charakter-Konsistenz

Pro Shot:
1. 3D-Blockout erstellen (Kamera, Charakter-Positionen)
2. Seedance 2 mit Referenz-Bildern füttern  
3. Erste-Bild / Letztes-Bild-Methode mit Charakter-Referenz
4. Prompt-Tuning für Detailreichtum der Welt

Hinweis: Seedance 2 erfordert gezieltes Prompt-Tuning —
"leere" Welten entstehen durch zu sparse Prompts.

Am besten mit: Seedance 2 (ByteDance)

Warum effektiv: Kombiniert klassische 3D-Vorvisualisierung (Grayboxing) mit AI-Rendering für professionelle Ergebnisse. Die 309 Upvotes zeigen enormes Interesse an dieser Pipeline als Alternative zu teuren Video-AI-Diensten wie Sora 2.

Quelle: https://www.reddit.com/r/aivideo/comments/1swmmnd/3dtoai_anime_using_seedance_2_for_crazy_rari/ | 309 Upvotes

Community Resonanz: Viele Fragen nach Tutorial-Details — "Was war der Input?", "Wie viele Generationen pro Shot?". Die Community fordert konkret nach Workflow-Beschreibungen. Der Autor erwähnt, dass vorher Sora 2 im Einsatz war.

3. SeedVR2 Upscaling für Seedance-Workflows

Workflow (kopierbar):

SeedVR2 Upscaling-Pipeline für AI-Video:

SeedVR2 4x-Upscaler-Kombinationen:
- 4x Nomos2_realplksr_dysample (für allgemeine Szenen)
- 4x PurePhoto-RealPLSKR (für fotorealistische Details)

1x Denoising:
- DeNoise_realplksr_otf (Rauschreduktion)
- SkinContrast-High-SuperUltraCompact (Hautverfeinerung)

Einsatz: Nach Seedance/ComfyUI-Generation als Post-Processing.
Ergebnis: Signifikant schärfere 4K-Ausgabe ohne Qualitätsverlust.

Am besten mit: SeedVR2 in ComfyUI, nach Seedance/Wan2.2 Generierung

Warum effektiv: SeedVR2 wurde als Upscaler für Seedance-Workflows identifiziert und liefert in Kombination mit spezialisierten RealPLSKR-Modellen deutlich bessere Ergebnisse als Standard-Upscaling.

Quelle: https://www.reddit.com/r/StableDiffusion/comments/1swr1h8/ | 39 Upvotes (Z-Image Thread, SeedVR2 erwähnt)

Community Resonanz: Upscaler-Kombinationen werden aktiv diskutiert, besonders die Zuordnung welcher Upscaler für welchen visuellen Stil optimal ist.

🧠 TOP 3 NEUE TECHNIKEN

1. Tool-Induced Intelligence Degradation ("Car Wash Effect")

Zusammenfassung: Der Einsatz von Tools (Web Search, Python Sandbox) bei LLMs kann die eigentliche Intelligenz des Modells degradieren — das Modell wechselt in einen "Delegationsmodus" statt selbst zu reasoning.

Erklärung: Ein Nutzer testete Kimi K2.5 und Qwen 3.5 mit drei Modi: ohne Tools, mit XML-Pseudo-Tools und mit JSON-Schema-Tools. Die simple Car-Wash-Frage ("Auto-Waschstraße ist 10m entfernt — laufen oder fahren?") wurde ohne Tools consistently korrekt beantwortet (3/3), aber mit JSON-Tools nur 1/3. Das gleiche Muster bei einer Chemie-Frage: Ohne Tools identifizierte das Modell korrekt die gesamte Sauerstoff-Familie als paramagnetisch — mit Tools scheiterte es. Die Tools scheinen das Modell in einen "Such-Modus" zu verschieben, wo es nach externen Antworten sucht statt internes Wissen zu nutzen.

Beispielprompt:

Für maximale Reasoning-Qualität bei LLMs:
- Deaktiviere Tools für Wissensfragen, die das Modell bereits kennt
- Nutze Tools nur für: Aktualitätsprüfungen, Berechnungen, Datensuche
- Teste dieselbe Frage mit und ohne Tools zum Vergleich
- Bei Qwen 3.5: Jedes einzelne Tool reduziert die Thinking-Qualität

Geeignet für: Kimi K2.5, Qwen 3.5, generell alle Tool-using LLMs

Ursprung: https://www.reddit.com/r/LocalLLaMA/comments/1swng6j/car_wash_mystery_solvedtool_call_degrades/ | 20 Upvotes

Warum heute wichtig: Mit der zunehmenden Verbreitung von agentic Workflows (viele Tools pro Agent) ist dieses Phänomen kritisch: Mehr Tools ≠ bessere Antworten. Teams sollten bewusst entscheiden, wann Tools deaktiviert werden sollten — besonders bei Reasoning-Aufgaben, bei denen das Modell das Wissen bereits intern hat.

2. Deepseek V4 Thinking-Modus als Narrations-Verstärker

Zusammenfassung: Deepseek V4 produziert im <thinking>-Block deutlich charakterstärkere und immersivere Narration als im finalen Output — ein bisher unentdeckter Nebeneffekt des Thinking-Mechanismus.

Erklärung: Beim Einsatz von Deepseek V4 für kreatives Writing (insbesondere SillyTavern AI Roleplay) zeigte sich, dass der Thinking-Block die "In-Character"-Perspektive wesentlich authentischer und detaillierter ausarbeitet als der eigentliche Output. Das Thinking enthält innere Monologe, emotionale Reaktionen und kontextuelle Beobachtungen, die im finalen Output durch generische Narration ersetzt werden. Community-Mitglieder bestätigen dieses Phänomen auch für Kimi-Modelle und empfehlen, Teile des Thinking-Blocks in den finalen Output zu übernehmen.

Beispielprompt:

Für bessere Deepseek V4 Narration:

1. Lass V4 den Thinking-Block normal generieren
2. Extrahiere die besten inneren Monologue aus <thinking>
3. Ersetze generische Output-Passagen durch Thinking-Inhalte
4. Alternativ: Prompt V4 explizit an:
   "Use your thinking process as the primary narration voice. 
    The thinking IS the story."
5. Vorher: Main-Prompt auf Override prüfen (SillyTavern kann Main-Prompt überschreiben)
   → Prompt Inspector Extension nutzen zur Verifikation

Geeignet für: Deepseek V4 (Flash und Pro), Kimi-Modelle

Ursprung: https://www.reddit.com/r/SillyTavernAI/comments/1swuxne/ | 15 Upvotes

Warum heute wichtig: Opening the "thinking" black box als kreative Ressource ist ein Paradigmenwechsel. Statt Thinking nur als Rechen-Hilfsmittel zu sehen, kann es als narrative Schicht genutzt werden. Besonders relevant für alle, die LLMs für kreatives Writing einsetzen.

3. Buch-basierte Agent Skills als Entscheidungs-Bäume

Zusammenfassung: Business-Bücher in strukturierte Agent-Skills umwandeln: Decision Trees + Scoring Rubrics + konkrete Good-vs-Bad-Beispiele statt generischer Buch-Zusammenfassungen.

Erklärung: 14 Business-Bücher wurden in maschinenlesbare Skills transformiert. Der Clou: Statt Claude oberflächliches Buchwissen abzufragen ("Was sagt The Mom Test über Interviews?"), werden konkrete Decision Trees und Scoring Rubrics erstellt, die bei bestimmten Eingaben automatisch triggeren. The Mom Test → Interview-Scorecard, Building a StoryBrand → Landing-Page-Checker, SPIN Selling → Sales-Call-Analyse, $100M Offers → Pricing-Validator. Das Ergebnis ist konsistente, reproduzierbare Beratung statt variabler generischer Ratschläge.

Beispielprompt:

Struktur für Buch-basierte Agent-Skills:

1. DECISION TREE (Soll ich das überhaupt tun?):
   "Ist das Problem ein Kundenproblem oder deins?" 
   → Nein → STOP
   → Ja → Weiter zu Schritt 2

2. SCORING RUBRIC (immer gleiche Kriterien):
   - Frage nach konkretem Erlebnis (nicht Meinung): 0-3 Punkte
   - Frage nach Vergangenem (nicht Zukünftigem): 0-3 Punkte  
   - Frage nach Tatsachen (nicht Spekulation): 0-3 Punkte

3. KONKRETE BEISPIELE:
   Gut: "Wann hast du das letzte Mal versucht, das zu lösen?"
   Schlecht: "Würdest du ein Tool dafür bezahlen?"

Geeignet für: Claude Code, Claude Desktop, alle Agent-Frameworks mit Skill/CLAUDE.md Support

Ursprung: https://www.reddit.com/r/AI_Agents/ | 7 Upvotes (r/generativeAI)

Warum heute wichtig: Mit der wachsenden Anzahl an AI-Agenten im Unternehmen wird konsistente, regel-basierte Beratung wichtiger als generische LLM-Antworten. Diese Methode überbrückt die Lücke zwischen theoretischem Buchwissen und praktischer, reproduzierbarer AI-Beratung.

🏆 Highlight des Tages

Tool-Call Degradation: Der wichtigste Fund der Woche

Der "Car Wash Mystery"-Post auf r/LocalLLaMA (20 Upvotes) hat eine fundamentale Schwäche moderner AI-Agenten aufgedeckt: Je mehr Tools ein LLM zur Verfügung hat, desto schlechter wird seine eigentliche Denkleistung.

Getestet an Kimi K2.5 und Qwen 3.5: | Modus | Car Wash korrekt | Chemie-Frage korrekt | |-------|-------------------|---------------------| | Keine Tools | 3/3 ✅ | ✅ | | XML-Tools | 2/3 | ❌ | | JSON-Tools | 1/3 | ❌ |

Für prompta.ch-Leser bedeutet das: Wenn du eine Wissensfrage hast, schalte Tools AUS. Das Modell weiß die Antwort bereits — die Tools "lenken" es nur ab. Besonders relevant für alle, die Claude Code, Cursor oder andere AI-Agenten nutzen, die standardmäßig Dutzende Tools geladen haben.

Die Community bestätigte das Phänomen unabhängig für Qwen 3.5 in Open WebUI: "If there is any single tool available, it will think very little and lead to lower quality answers."

Quelle: https://www.reddit.com/r/LocalLLaMA/comments/1swng6j/

📰 Erlesene Artikel & Ressourcen

  • Voicebox — Open-Source Voice-Cloning-Tool (22K GitHub Stars in 3 Monaten), lokal-first DAW für Voice-Cloning mit Tauri/Rust-Frontend und Python-FastAPI-Backend. Unterstützt MLX (Apple Silicon), CUDA/ROCm/DirectML. REST API unter localhost:17493. GitHub-Quelle

  • Glitchframe — Open-Source Musikvideo-Generator, kombiniert SDXL Keyframes mit AnimateDiff und GLSL-Shadern, reagiert auf Beat/Onset/Spectrum-Daten in Echtzeit. Stack: WhisperX für Lyrics-Sync, FFmpeg NVENC für Encoding, Gradio-UI lokal. GitHub

  • UniGeo (Open Source) — Kamera-kontrollierbare Bildbearbeitung mit Wan2.2 und geometrischer Guidance via VGGT. Eliminiert "Black-Box Prompting" durch Point-Cloud-Vorschau vor dem Rendering. GitHub

  • arXiv HiLight Paper — "Learning Evidence Highlighting for Frozen LLMs" (24.04.2026): Neues Framework, das Evidence-Suche von Reasoning entkoppelt — hilft LLMs, entscheidende Beweise in langen, verrauschten Kontexten zu finden. Relevant für Prompt Engineering bei RAG-Systemen. arXiv:2604.22565

  • Anthropic Claude Remote nutzt GLM-4.7 — Bericht auf r/LocalLLaMA (61 Upvotes) dass Anthropic's Claude Remote intern GLM-4.7 als Reasoning-Modell einsetzt. Diskussion über die Implikationen für Modell-Auswahl bei agentic Workflows. Quelle

  • Agentic Sprawl als Ops-Problem — "Six months ago we had 3 agents. Now we have 17." — Diskussion über Governance von AI-Agenten im Unternehmen. Kernfrage: Wie definiert man erlaubte/nicht-erlaubte Aktionen human-readable statt in 2000-Token System Prompts? Quelle


Bericht erstellt am 27.04.2026 Quellen: Reddit, Hacker News, arXiv