📅

Prompt Intelligence Daily — 20. Juni 2026

🏆 Highlight

### LTX-2: Erstes DiT-basiertes Audio-Video-Foundation-Modell mit Produktions-Pipeline Der größte Fortschritt heute ist kein einzelner Prompt, sondern ein Paradigmenwechsel. LTX-2 von Lightricks ist das erste Modell, das synchrones Audio und Video in einem Foundation-Model vereint — mit 12 spezialisierten Pipelines, IC-LoRA-Unterstützung für ControlNet-artige Präzision, HDR-Output (...

Prompt Intelligence Daily — 20. Juni 2026

🔤 TOP 3 PROMPTS — Textgenerierung

1. Headroom Token-Komprimierung für Agent-Prompts

Prompt (vollständig, kopierbar):

You are acting as a compressed context. I may need to retrieve original content. If you encounter compressed sections (marked with [COMPRESSED:...]), use the headroom_retrieve tool to fetch originals when precision matters. Be terse — don't restate context I just showed you.

--- BEGIN COMPRESSED SECTION ---
{{compressed_output}}
--- END COMPRESSED SECTION ---

If you need the full, uncropped content of any compressed section, call headroom_retrieve with the section ID. Otherwise respond concisely to my query.

Am besten mit: Claude Code, Cursor, Aider (alle via headroom wrap)

Warum effektiv: Headroom komprimiert Tool-Outputs, Logs, Dateien und RAG-Chunks um 60–95 % der Tokens — mit garantierter Reversibilität via CCR-Speicher. Auf realen Agent-Workloads: 10.144 → 1.260 Tokens bei gleicher Fehlerfindung. Benchmarks zeigen 0 % Genauigkeitsverlust auf GSM8K, +3 % auf TruthfulQA.

Quelle: https://github.com/chopratejas/headroom | 4 Upvotes

Community Resonanz: Auf Hacker News als nützlich für Agent-Kostenoptimierung diskutiert — besonders relevant, da Opus-Klassen-Modelle Ausgabe-Tokens 5× teurer laden als Input-Tokens. Der HEADROOM_OUTPUT_SHAPER-Modus trimmed zusätzlich Ceremonie-Texte ("Great, let me…") und drosselt Thinking-Effort bei Routineaufgaben.

2. GLM-5.2 Master-Skill Struktur für spezialisierte Agenten

Prompt (vollständig, kopierbar):

You are GLM-OCR assistant. Your task is to extract text from the provided image or document.

Rules:
1. Extract ALL visible text faithfully - do not summarize, omit, or rephrase
2. Preserve formatting indicators: [TABLE], [HEADING], [CODE_BLOCK]
3. For handwritten text: mark uncertain characters with [?]
4. For tables: output as pipe-formatted markdown with aligned columns
5. Return ONLY the extracted text, no preamble or explanation

Input: {{image_or_document}}
Output format: Pure extracted text with structural markers

Am besten mit: GLM-5-Reihe (GLM-OCR Skill via npx clawhub@latest install glmocr)

Warum effektiv: GLM-5.2 liefert erstmals solides 1M-Kontextfenster mit stabilen Long-Horizon-Tasks. Der GLM Master Skill (6,5 KB SKILL.md) enthält eine komplette Katalog-Struktur: OCR, Image-Generation, VLM-Prompt-Gen, Resume-Screening, PDF-to-PPT, PRD-to-App. Jede Spezialisierung als installierbarer Skill — modular und review-sicher (reines Markdown, keine Subprocess-Ausführung).

Quelle: https://github.com/zai-org/GLM-5/blob/main/skills/glm-master-skill/SKILL.md | GitHub Trending

Community Resonanz: GLM-5-Serie auf GitHub Trending (19. Juni 2026) — GLM-5.2 mit 81.0 auf Terminal-Bench 2.1, stärkstes Open-Source-Modell für Coding. Skills-Katalog umfasst 15+ spezialisierte Fähigkeiten von OCR bis Web-Replication.

3. BuilderIO Agent-Native Framework Prompt-Struktur

Prompt (vollständig, kopierbar):

You are an agent-native application builder. Given a natural language description of a desired application workflow:

1. Parse the user's intent into component actions (read, write, compute, display)
2. For each action, determine if it requires:
   - A tool call (external API, file operation, database query)
   - A reasoning step (classification, extraction, summarization)
   - A UI render (template, component, visualization)
3. Construct a directed acyclic graph of these steps
4. Generate the agent-native application spec as JSON:
   {
     "name": "workflow_name",
     "steps": [{"id": "1", "type": "tool|reason|render", "description": "..."}],
     "edges": [{"from": "1", "to": "2"}]
   }

Describe the application you want to build:

Am besten mit: Claude Code, OpenClaw (mit agent-native Framework)

Warum effektiv: BuilderIO hat agent-native veröffentlicht — ein Framework speziell für den Bau von Agent-basierten Applications. Statt dass Agenten als Chat-Interface laufen, definiert dieses Framework sie als strukturierte Workflows mit Tool-Calls, Reasoning-Steps und UI-Rendern. Ideal für Produktionseinsatz.

Quelle: https://github.com/BuilderIO/agent-native | GitHub Trending

Community Resonanz: Auf GitHub Trending gelistet — spiegelt den wachsenden Trend von "filesystem-first agents" (vgl. Vercel Eve) wider. Agenten-Workflows werden zu konfigurierbaren Strukturen statt zu Chat-Konversationen.

🖼️ TOP 3 PROMPTS — Bildgenerierung

1. LTX-2.3 Prompt-Struktur für Audio-Video-Generierung

Prompt (vollständig, kopierbar):

A woman in a cream wool coat walks through a warmly lit Parisian bookstore, fingers trailing along leather-bound spines. Morning light slants through tall windows, catching suspended dust motes in golden beams. She pauses at a wooden desk where an open leather journal lies beside a steaming porcelain cup of tea. Her dark wavy hair catches amber highlights. The camera tracks a gentle 2-meter dolly forward as she lifts the journal and reads silently, a faint smile appearing. Bookshelves tower on both sides, creating a corridor of rich mahogany and aged paper. Warm color palette with amber, cream, and deep brown tones.

Am besten mit: Lightricks LTX-2.3 (22B, Distilled LoRA)

Warum effektiv: LTX-2 ist das erste DiT-basierte Audio-Video-Foundation-Model mit allen Kernfähigkeiten: synchrones Audio+Video, hohe Fidelität, multiple Performance-Modes. Die Prompt-Struktur ist klar: Hauptaktion zuerst, dann Bewegungs-/Gestendetails,然后是Erscheinung/BG/Kamera/Lichtung — in einem fließenden Absatz unter 200 Wörtern.

Quelle: https://github.com/Lightricks/LTX-2 | Official release

Community Resonanz: Neureleased auf GitHub mit 12 Pipelines (TI2Vid, IC-LoRA, LipDub, HDR, Retake, Audio-to-Video), 500+ Agent-Skills. Distilled-Modus: nur 8 Steps bei brauchbarer Qualität.

2. GLM-Image Text-to-Image Prompt-Template

Prompt (vollständig, kopierbar):

Ein professionelles Produktfoto: Eine moderne drahtlose Kopfhörer in mattem Schwarz schwebt vor einem weichen, hellgrauen Gradientenhintergrund. Sanftes Seitenlicht von links erzeugt subtile Glanzlichter auf der Oberfläche. Die Kopfhörer ist im 45-Grad-Winkel positioniert, sodass both ear cup und headband sichtbar sind. Leichter Bokeh-Effekt im Hintergrund, minimalistisch und clean. 4K-Auflösung, Studioqualität.

Am besten mit: GLM-Image (via GLM-5 Master Skill: npx clawhub@latest install glm-image-gen)

Warum effektiv: GLM-Image ist Teil des GLM-Master-Skill-Ökosystems mit über 15 spezialisierten Fähigkeiten. Die Integration in den GLM-5-Agenten ermöglicht prompt-gesteuerte Bildgenerierung als Teil größerer Agent-Workflows (z.B. PRD-to-App generiert automatisch UI-Bilder, PDF-to-PPT eingebettete Visualisierungen).

Quelle: https://github.com/zai-org/GLM-Image/tree/main/skills/glm-image-gen | GitHub

Community Resonanz: GLM-5 Ökosystem etabliert sich auf GitHub Trending als ernstzunehmendes Open-Source-Alternative zu proprietären Modellen, besonders für Produktions-Workflows in Agent-Umgebungen.

3. OpenMontage Agentic Video-Production System

Prompt (vollständig, kopierbar):

Create a 30-second promotional video with the following structure:
- Scene 1 (0-5s): Establishing shot of a modern cityscape at dawn, slow pan from left to right, warm golden hour lighting
- Scene 2 (5-15s): Close-up of hands typing on a mechanical keyboard, workspace with monitors showing code, shallow depth of field
- Scene 3 (15-25s): Product reveal - a sleek laptop on a wooden desk, camera slowly zooms in, soft backlight rim lighting
- Scene 4 (25-30s): Text overlay fades in: "Build the Future" with a subtle glow effect, then fade to black

Style: Cinematic, professional, clean aesthetic. Color grade: teal and orange. Transitions: smooth cross-dissolve.

Am besten mit: OpenMontage (52 Tools, 500+ Agent-Skills, arbeitet mit jedem AI Coding Assistant)

Warum effektiv: OpenMontage ist das erste Open-Source agentic Video-Production-System mit 12 Pipelines und 500+ Agent-Skills. Statt monolithischer Prompt-Eingabe zerlegt es Videos in Agent-gesteuerte Szenen, jede mit eigenen Tools (Kamera, Licht, Schnitt). Der AI Coding Assistant wird zum Video-Produktionsstudio.

Quelle: https://github.com/calesthio/OpenMontage | GitHub Trending

Community Resonanz: Auf GitHub Trending gelistet — repräsentiert den Shift von "prompt-only" Video-Generierung hin zu agent-gesteuerter, mehrstufiger Video-Produktion mit präziser Kontrolle über jeden Aspekt.

🎬 TOP 3 PROMPTS — Videogenerierung

1. LTX-2 R2V (Reference-to-Video) Workflow mit IC-LoRA

Prompt (vollständig, kopierbar):

Maintain the character's appearance consistent with the first frame: a woman in her 30s with shoulder-length dark hair, wearing a navy blazer and white blouse. Phase 1: She sits at a conference table reviewing documents, glancing up thoughtfully. Phase 2: She stands and walks to a whiteboard, picking up a marker to draw a flowchart. Phase 3: Camera slowly pushes in as she turns to address the group, marker in hand, confident expression. Lighting: cool fluorescent office lighting with warm accent from a desk lamp. Background: modern glass-walled meeting room with city skyline visible through windows. Avoid: extra limbs, distorted faces, inconsistent hair length throughout the sequence.

Am besten mit: LTX-2.3 + ICLoraPipeline + Distilled LoRA

Warum effektiv: LTX-2.3 unterstützt IC-LoRA (Image-Conditioned LoRA) für Video-to-Video und Image-to-Video Transformationen mit spezifischen Control-LoRAs: Pose, Motion Track, Detailer, HDR, LipDub. Die R2V-Strategie lockt Referenz-Frame-Konsistenz, dann beschreibt Aktionen in Phasen mit Kamera- und Negativ-Constraints.

Quelle: https://github.com/Lightricks/LTX-2 | Released June 2026

Community Resonanz: LTX-2 ist der erste DiT-basierte Foundation-Model für Audio+Video in einem Modell. Mit 5 spezifischen Kamera-Control-LoRAs (Dolly In/Out/Left/Right, Jib Up/Down, Static) bietet es filmische Präzision, die vorher nur mit manuellem Storyboarding möglich war.

2. OpenMontage Szenen-Skript Format für Agent-Gestützte Video-Produktion

Prompt (vollständig, kopierbar):

[SCENE_START]
SHOT 1: Wide establishing shot
SUBJECT: Empty train station platform at twilight
CAMERA: Static wide-angle, 24mm equivalent
LIGHTING: Cool blue ambient with warm sodium vapor highlights
DURATION: 4 seconds
ACTION: Platform is empty, a single LED departures board flickers and updates
ATMOSPHERE: Quiet, melancholic, slight fog on the ground
[SCENE_END]

[SCENE_START]
SHOT 2: Medium tracking shot
SUBJECT: A young man in a grey coat enters from left, pulling a suitcase
CAMERA: Track left-to-right at walking pace, eye level
LIGHTING: Subject walks through pools of warm light from platform lamps
DURATION: 6 seconds
ACTION: He walks across the frame, checking his watch, then looks up at the departures board
ATMOSPHERE: Same mood, subtle sound of distant train rumble
[SCENE_END]

Am besten mit: OpenMontage (52 Tools, agentische Video-Pipelines)

Warum effektiv: OpenMontage verwendet ein strukturiertes Szenen-Skript-Format, das jeden Shot als konfigurierbaren Block mit Kamera, Licht, Dauer und Atmosphäre definiert. Agenten zerlegen das Skript und rendern pro Shot optimal — deutlich präziser als reine Text-Prompts. Unterstützt 12 Pipeline-Typen von T2V bis LipDub.

Quelle: https://github.com/calesthio/OpenMontage | GitHub Trending

Community Resonanz: Auf GitHub Trending — signalisiert Paradigmenwechsel von "ein Prompt = ein Video" zu "agentische Pipeline mit Shot-level Kontrolle". Besonders wertvoll für professionelle Video-Produktion.

3. LTX-2 HDR Video-to-Video Transformation

Prompt (vollständig, kopierbar):

Transform this source video into an HDR cinematic sequence. Apply LogC3 inverse decoding for linear float frames, then tonemap to Rec.2020 color space with 10-bit depth. Enhance highlights in the 75-95% luminance range, preserve shadow detail below 10%. Maintain original motion and timing. Target output: OpenEXR sequence suitable for post-production grading. Use the HDR IC-LoRA with strength 0.7.

Am besten mit: LTX-2.3 + HDRICLoraPipeline + HDR IC-LoRA

Warum effektiv: LTX-2.3 bietet mit der HDRICLoraPipeline professionelles HDR-Output — LogC3-Decoding, Rec.2020-Farbraum, 10-Bit-Tiefe, EXR-Export. Das ist kein Consumer-HDR sondern Produktions-Qualität für Post-Production-Workflows. Vorher nur mit dedizierter Color-Grading-Software möglich.

Quelle: https://github.com/Lightricks/LTX-2 | HDRICLoraPipeline docs

Community Resonanz: HDR-Modus in LTX-2.3 ist ein Game-Changer für AI-Video — erster Foundation-Model der Lineare Float-Frames (EXR-kompatibel) ausgibt, nicht nur 8-bit Compressed-Video. Für Filmemacher, die AI-Generierung in professionelle Post-Pipelines einbinden wollen, essentiell.

🧠 TOP 3 NEUE TECHNIKEN

1. Verstellbarer Denkaufwand (Adjustable Thinking Effort)

Zusammenfassung: GLM-5.2 führt den reasoning_effort-Parameter mit zwei Stufen (max, high) ein, um die Denkzeit des Modells pro Task zu steuern.

Erklärung: GLM-5.2 unterstützt die Kontrolle des Thinking-Budgets über den reasoning_effort-Parameter. Stufe max (Standard) liefert volle Reasoning-Tiefe für komplexe Tasks. Stufe high reduziert die Denkzeit spürbar — ideal für Routineaufgaben oder wenn Latenz wichtiger ist als maximale Genauigkeit. Wenn reasoning_effort nicht gesetzt ist, läuft das Modell automatisch auf max. Diese differenzierte Abstufung ermöglicht es, Agent-Kosten und Antwortqualität situationsabhängig zu optimieren — teures Deep-Thinking nur dort einsetzen, wo es wirklich gebraucht wird.

Beispielprompt:

{
  "model": "glm-5.2",
  "messages": [{"role": "user", "content": "Design a microservices architecture for a payment system"}],
  "reasoning_effort": "max"
}

Für einfache Tasks: "reasoning_effort": "high" → schnellere Antwort bei akzeptabler Qualität für bekannte Probleme.

Geeignet für: GLM-5.2 (SGLang, vLLM, Transformers, KTransformers, Unsloth)

Ursprung: https://github.com/zai-org/GLM-5 | GitHub Trending, Juni 2026

Warum heute wichtig: Mit GLM-5.2s solidem 1M-Kontextfenster und 81.0 auf Terminal-Bench 2.1 ist der Denkaufwand-Parameter ein entscheidendes Kostenkontroll-Instrument. Der Trend geht weg von "immer maximal denken" hin zu kontextabhängiger Ressourcenverteilung — exakt das Prinzip, das auch Headroom mit HEADROOM_OUTPUT_SHAPER und Effort-Routing verfolgt.

2. Kontextgraph-Speicher für Agent-Selbstverbesserung

Zusammenfassung: Perplexity's "Brain" baut einen Kontextgraphen der Agent-Arbeit und lernt über Nacht — erinnert sich nicht an den User, sondern an was der Agent getan hat.

Erklärung: Brain ist ein selbstverbesserndes Speichersystem für Perplexity's Computer-Agent. Anders als konventionelle AI-Memory-Systeme, die User-Präferenzen speichern, fokussiert Brain auf Agent-Handlungen: Welche Tools wurden genutzt, welche Entscheidungen getroffen, welche Pfade erfolgreich. Der Kontextgraph wird in festen Intervallen gebaut und "über Nacht" konsolidiert — daher der Name. Agent-Workflows werden dadurch iterativ besser, ohne dass der User Feedback geben muss.

Beispielprompt:

Du bist ein KI-Agent mit persistenter Arbeitsspeicher-Struktur. Nach jeder Task-Session:
1. Protokolliere: welche Tools genutzt, welche Entscheidungen getroffen, welche Pfade erfolgreich
2. Erstelle einen Kontextgraphen mit Knoten (Actions, Tools, Outcomes) und Kanten (Erfolg/Fehlschlag, Dauer)
3. Bei der nächsten Session: lade den Graphen und priorisiere erfolgreiche Pfade
4. Nach X Sessions: konsolidiere den Graphen — entferne selten genutzte Knoten, verstärke Kanten mit hoher Erfolgsrate

Session-Start: Lade Kontextgraphen und zeige Top-3 erfolgreiche Pfade für den aktuellen Task-Typ.

Geeignet für: Agent-Frameworks (Eve, OpenMontage, Agent-Native), Claude Opus, GPT-4o

Ursprung: https://www.marktechpost.com/2026/06/18/perplexity-launches-brain/ | MarkTechPost, 18. Juni 2026

Warum heute wichtig: Dieser Ansatz repräsentiert eine fundamentale Verschiebung im Agent-Design: Memory nicht für Personalisierung, sondern für Performanz-Optimierung. Agenten lernen aus ihrer eigenen Historie — genau wie Headroom mit headroom learn --verbosity Agent-Sessions analysiert und Korrekturen automatisch in CLAUDE.md/AGENTS.md schreibt.

3. Reversible Prompt-Komprimierung (Compress-Cache-Retrieve)

Zusammenfassung: Headroom's CCR-System komprimiert alles vor dem LLM — Tool-Outputs, Logs, RAG — mit garantiertem Rückgriff auf Original bei Bedarf durch das Modell selbst.

Erklärung: Der CCR-Ansatz (Compress-Cache-Retrieve) revolutioniert, wie Agenten mit großen Kontextfenstern umgehen. Statt alles ungefiltert an das LLM zu senden, wird Content typ-spezifisch komprimiert: JSON via SmartCrusher, Code via AST-basiertem CodeCompressor, Text via Kompress-v2-base (HF-Modell). Kritischer Punkt: Die Kompression ist reversibel. Das LLM erhält ein headroom_retrieve-Tool und kann bei Bedarf das Original nachladen — autonom, ohne User-Intervention. Cross-Agent-Speicher ermöglicht Shared-Cache zwischen Claude, Codex, Gemini mit Auto-Deduplizierung.

Beispielprompt:

[COMPRESSED:tool_output_1 - 92% reduction] <compressed_data>
[COMPRESSED:rag_results_2 - 87% reduction] <compressed_data>
[COMPRESSED:log_file_3 - 73% reduction] <compressed_data>

Available retrieval tools: headroom_retrieve(section_id)
Instructions: Process my query using the compressed context above. If any compressed section contains information critical to answering accurately, call headroom_retrieve with that section's ID first. Otherwise respond directly.

Geeignet für: Claude Code, Codex, Cursor, Aider, Copilot CLI (via headroom wrap)

Ursprung: https://github.com/chopratejas/headroom | HN, 4 Upvotes, Juni 2026

Warum heute wichtig: Mit Agent-Threads von 40+ Steps und RAG-Ergebnissen in den Tausenden von Tokens ist CCR nicht nur Kosteneinsparung — es verhindert aktiv Kontext-Window-Overflow und verbessert Antwortqualität durch Fokussierung auf relevante Information. Der Output-Token-Shaper reduziert zusätzlich Antwort-Ceremonie um ~32 % — kritisch bei Opus-Klassen-Modellen wo Output 5× teurer ist.

🏆 Highlight des Tages

LTX-2: Erstes DiT-basiertes Audio-Video-Foundation-Modell mit Produktions-Pipeline

Der größte Fortschritt heute ist kein einzelner Prompt, sondern ein Paradigmenwechsel. LTX-2 von Lightricks ist das erste Modell, das synchrones Audio und Video in einem Foundation-Model vereint — mit 12 spezialisierten Pipelines, IC-LoRA-Unterstützung für ControlNet-artige Präzision, HDR-Output (EXR-kompatibel), LipDub, Retake-Funktionen und ComfyUI-Integration.

Warum das Highlight: Bislang mussten Video-Erzeuger mit separaten Modellen für Generation, Upscaling, LipSync und Post-Production arbeiten. LTX-2.3 konsolidiert alles in einem 22B-Modell mit LoRA-Trainer (ltx-trainer Package), FP8-Quantisierung und Distilled-Modus (8 Steps). DiePrompt-Struktur ist dokumentiert: detaillierte, chronologische Beschreibung in einem Absatz unter 200 Wörtern, Kameraparameter via dedizierte LoRAs.

Prompt-Struktur für LTX-2:

Haupthandlung in einem Satz. Spezifische Bewegungs- und Gestendetails. 
Erscheinung von Charakter/Objekten präzise. Hintergrund und Umgebung. 
Kamerawinkel und -bewegung (nutze dedizierte Camera-Control-LoRA). 
Beleuchtung und Farben. Plötzliche Veränderungen oder Events.
Maximal 200 Wörter. Wörtlich und präzise — denke wie eine Kamerafrau.

Quelle: https://github.com/Lightricks/LTX-2 | Released Juni 2026 Konsole: https://console.ltx.video/playground

📰 Erlesene Artikel & Ressourcen


Bericht erstellt am 20. Juni 2026 Quellen: Hacker News, AI News Portals, arXiv, GitHub, Personal Blogs