🎬

Kostenlose Video-Prompts: KI-Videos generieren

Kostenlose Video-Prompts für Sora, Runway, Veo & Pika. Erklärvideos, Social Clips, Storytelling & Werbung sofort kopieren.

Video-Prompts für jeden Anwendungsfall

Die richtigen Video-Prompts machen den Unterschied zwischen mittelmäßigen und herausragenden KI-Ergebnissen. Ob du Blogartikel, SEO-Content, E-Mail-Kampagnen oder Produktbeschreibungen erstellst — mit unseren kuratierten KI-Video generieren für ChatGPT, Claude und Gemini sparst du Zeit und erzielst bessere Resultate. Jede Vorlage ist auf Deutsch formuliert und sofort kopierbar.

Unsere Video-Prompts decken die häufigsten Anwendungsfälle ab. Die Prompts enthalten Platzhalter-Variablen, die du einfach an deine Anforderungen anpasst. So bekommst du bei jedem KI-Tool maßgeschneiderte Ergebnisse.

Alle Video-Prompts auf Prompta.ch sind kostenlos, ohne Anmeldung nutzbar und für die jeweils besten KI-Tools optimiert.

Alle Video-Prompts

Wähle einen Prompt und kopiere ihn mit einem Klick.

Erklärvideo erstellen

🟢 Einsteiger

Simple Animation für komplexe Erklärung

Create an animated explainer video about [TOPIC]. Style: Clean 2D animation with flat design characters. Duration: [DURATION] seconds. Include: Clear voiceover explaining the concept step by step, Simple metaphors to make complex ideas understandable, Friendly, approachable character animations, Smooth transitions between scenes, Lower third text labels for key terms, Subtle background music. Target audience: [AUDIENCE]. Language: German.
Variablen: [TOPIC] [DURATION] [AUDIENCE]

Social Media Clip

🟢 Einsteiger

Kurzvideo für TikTok/Reels

Create a [DURATION]-second vertical video (9:16) for [PLATFORM]. Topic: [TOPIC]. Style: Fast-paced, attention-grabbing first 2 seconds. Include: Bold text overlays in German, Dynamic transitions, Trending visual style, Call-to-action at the end, Engaging hook in first frame. Mood: energetic and [MOOD]. Target: [AUDIENCE].
Variablen: [DURATION] [PLATFORM] [TOPIC] [MOOD] [AUDIENCE]

Storytelling / Film

🔴 Profi

Narrative Szene mit Kamera-Anweisungen

Generate a cinematic narrative scene: [SCENE DESCRIPTION]. Camera: [CAMERA MOVEMENT] shot, [LENS]mm lens, [LIGHTING] lighting, [COLOR GRADE] color grading, [ASPECT RATIO] aspect ratio. Duration: [DURATION] seconds. Mood: [MOOD]. Include subtle [SOUND/AMBIANCE]. Style: Cinematic realism, shallow depth of field, film grain. Reference: [REFERENCE FILM/STYLE].
Variablen: [SCENE DESCRIPTION] [CAMERA MOVEMENT] [LENS] [LIGHTING] [COLOR GRADE] [ASPECT RATIO] [DURATION] [MOOD] [SOUND/AMBIANCE] [REFERENCE FILM/STYLE]

Produktpräsentation

🟡 Fortgeschritten

Produkt in Bewegung, 360-Grad

Create a product showcase video for [PRODUCT]. Smooth 360-degree rotation reveal, [BACKGROUND] background, dramatic [LIGHTING TYPE] lighting, close-up detail shots, [SPECIAL EFFECTS] particles/effects, professional commercial quality, [DURATION] seconds, [ASPECT RATIO] format. Include text callouts for key features. Style: Premium, modern, sleek.
Variablen: [PRODUCT] [BACKGROUND] [LIGHTING TYPE] [SPECIAL EFFECTS] [DURATION] [ASPECT RATIO]

Musikvideo

🟡 Fortgeschritten

Visuelle Begleitung für Musik

Create a music video visual for a [GENRE] track. Mood: [MOOD]. Visual style: [STYLE]. Duration: [DURATION]. Include: Synchronized visual beats, [COLOR PALETTE] color palette, Abstract and literal imagery mix, Rhythmic cuts matching tempo, [SPECIFIC ELEMENTS]. Aspect ratio: 16:9. Cinematic quality with creative transitions.
Variablen: [GENRE] [MOOD] [STYLE] [DURATION] [COLOR PALETTE] [SPECIFIC ELEMENTS]

Werbung / Commercial

🔴 Profi

Professionelle Werbevideosequenz

Create a [DURATION]-second commercial advertisement for [PRODUCT/SERVICE]. Target: [AUDIENCE]. Style: [STYLE], premium production quality. Structure: Hook (0-3s) - Problem statement, Build (3-[X]s) - Solution demonstration, Climax ([X]-[Y]s) - Emotional peak resolution, CTA (last 3s) - Call to action. Lighting: [LIGHTING]. Color grade: [GRADE]. Deliver in [FORMAT]. Budget-tier: premium.
Variablen: [DURATION] [PRODUCT/SERVICE] [AUDIENCE] [STYLE] [LIGHTING] [GRADE] [FORMAT]

Animation / Cartoon

🟢 Einsteiger

2D-Animation, Charakter-Erstellung

Create a fun 2D animated cartoon: [CHARACTER] in [SCENARIO]. Style: [STYLE] inspired, bright colors, smooth 30fps animation. Duration: [DURATION] seconds. Include: Expressive character animations, Bouncy movements, Simple backgrounds with depth, Humorous timing, Sound effect cues. Target audience: [AUDIENCE]. German text overlays where appropriate.
Variablen: [CHARACTER] [SCENARIO] [STYLE] [DURATION] [AUDIENCE]

Tutorial-Video

🟢 Einsteiger

Schritt-für-Schritt Videoanleitung

Create a step-by-step tutorial video for [TOPIC]. Style: Screen recording combined with animated explanations. Duration: [DURATION] minutes. Include: Clear chapter markers, Zoom-ins on important details, Step numbers and progress indicator, Animated highlights and arrows, Before/after comparisons, Summary recap at the end. Language: German. Difficulty level: [LEVEL].
Variablen: [TOPIC] [DURATION] [LEVEL]

Constraint-basiertes Video-Prompting

🟡 Fortgeschritten

9 Upvotes in r/PromptEngineering. Der Autor hat entdeckt, dass AI-Video-Modelle bei dichten, poetischen Prompts zu viele Freiheiten interpretieren — jede zusätzliche Beschreibung wird zu einer potenziellen unerwünschten Bewegung. Der Wechsel von „Beschreibung" zu „Constraint-Dokument" produziert deutlich editierbarere Clips. Das Beispiel: Statt „cinematic shot, dramatic reflections, neon lights, smooth camera movement" → „Locked product shot. Camera pushes in 5 percent. Only faint reflection shimmer. No rotation, no scene cut." Das zweite Prompt klingt langweiliger, aber das Ergebnis ist präziser. Am besten mit: Kling, Runway Gen-3, Sora, PixVerse, Seedance 2

Locked product shot. The subject stays in the same position and keeps the same shape.
Camera slowly pushes in 5 percent.
Only a faint reflection shimmer on the wet ground.
No rotation, no scene cut, no new objects, no logo deformation.

Vidu StoryGrid-to-Video Workflow

🟡 Fortgeschritten

StoryGrid-Struktur ersetzt das „ein Prompt = ein Video"-Modell durch sequenzielle Frame-Prompts mit spezifischen Kameraanweisungen. Ermöglicht konsistente Charaktere und kontrollierte Schnittstellen zwischen Szenen — die zentrale Herausforderung bei AI-Video. Am besten mit: Vidu 2.0, Seedance 2.0, Kling 1.6

# StoryGrid-basierter Videoprompt für Vidu / Seedance / Kling:

STRUKTUR:
[Scene 1] Establishing Shot, 3s — Weiteinstellung, statische Kamera
[Scene 2] Medium Shot, 4s — Subjekt in Aktion, langsame Schwenkbewegung
[Scene 3] Close-Up, 2s — Detailaufnahme, Fokus auf Emotion/Objekt
[Scene 4] Action Shot, 3s — Dynamische Bewegung mit Kameraverfolgung

Jeder Frame erhält einen eigenen Text-to-Video-Prompt:
Frame-Prompt: "[Subjektbeschreibung], [Umgebung], [Kamera: wide establishing shot / slow pan left / handheld close-up],
[Licht: golden hour / overcast / practical neon], [Bewegung: subtle zoom in / static / smooth dolly],
[Bewegungsqualität: smooth, controlled, cinematic], --camera stable, --character consistent"

Gemini Omni Video — Editor/Director-System

🟡 Fortgeschritten

2 Upvotes in r/PromptEngineering. Gemini Omni verhält sich nicht wie ein normales Text-zu-Video-Modell, sondern wie ein natives Editor/Director-System. Das bedeutet: Multi-turn-Editing, Kamera-Direktion und Physics-Interaktion funktionieren deutlich besser als bei herkömmlichen Video-Modellen. Vollständige Prompt-Sammlung auf GitHub. Am besten mit: Gemini Omni Flash API

Für Gemini Omni Video:
- Iterative Edits statt gigantischer Prompts
- Motion/Identity zwischen Generationen bewahren
- Kamera-Verhalten explizit dirigieren
- Strukturierte Editing-Chains aufbauen
- Reference-guided Prompting verwenden

Full Anime Movie mit Seedance — Workflow-Erkenntnisse

🟡 Fortgeschritten

Ein Community-Mitglied hat in einem Monat mit über 150 Seedance-Videos einen kompletten Anime-Film erstellt. Der Schlüssel: R2V (Reference-to-Video) Workflow mit strikter Referenzrahmen-Konstanz und phasenbasierten Action-Descriptions. Am besten mit: Seedance 2.0

Seedance R2V Workflow:
1. Lock reference frame: "Keep [character appearance] consistent with the first frame"
2. Describe action in phases: "Phase 1: [walks forward], Phase 2: [turns around], Phase 3: [speaks]"
3. Camera direction: "Camera follows from behind, slow push in"
4. Negative constraints: "Do not change hair color, do not morph face during motion"
5. Duration: 5s clips, stitch in post

Editability-Frame statt Realismus — Neuer Bewertungsfokus

🟡 Fortgeschritten

Paradigmenwechsel von „sieht es realistisch aus?" zu „kann ich es in einer echten Edit-Workflow verwenden?" Praktisch orientiert an Social-Content-Produktion: stabile Subjekte, vorhersehbare Kamera, sauberer Schnitt, Platz für Text. Am besten mit: Runway Gen-4, Kling 1.6, Hailuo, Dreamina

# Video-Generierungs-Prompt optimiert für Editability statt Realismus:

Generiere ein 3-Sekunden-Clip mit folgenden Editability-Eigenschaften:

1. Hook: Erste 2 Sekunden enthalten eine visuell ansprechende, neugier-weckende Bewegung
2. Subjekt-Stabilität: Hauptobjekt bleibt während des Clips klar erkennbar (kein Morphing)
3. Schnitt-Tauglichkeit: Saubere Bewegung, die an definierten Stellen geschnitten werden kann
4. Freiraum: Negative Space oben/unten für Captions ohne Überdeckung des Subjekts
5. Sequenz-Fähigkeit: Clip passt in eine Abfolge von 3–5 ähnlichen Clips
6. Stabile Kamera: Vorhersagbare Kamerabewegung (keine dramatischen, unerwarteten Schwenks)
7. 3-5-Sekunden-Tauglichkeit: Clip macht Sinn auch wenn auf 3 Sekunden gekürzt

Beispiel: "A hand placing a ceramic coffee mug on a wooden table, slow push-in camera,
warm morning light from window right, shallow depth of field, clean negative space above
the hands, minimal background movement, smooth motion --camera steady --subject stable"

Omni-Channel Content Repurposer für Video-Skripte

🟡 Fortgeschritten

Ein einziger Prompt generiert drei plattformspezifische Content-Versionen. Besonders wertvoll für Video-Creator, die aus einem langen Skript oder Artikel schnell Shorts-Skripte, LinkedIn-Posts und Twitter-Threads extrahieren wollen. Am besten mit: Claude, GPT-4o

Act as a social media strategist. I have a long-form article/transcript about [INSERT TOPIC]. Here is the text: [INSERT SOURCE TEXT].

I need you to repurpose this content for three specific platforms, adhering to the best practices of each:

LinkedIn: Write a professional post (approx. 150 words) that highlights the business value/insight. Use a hook, bullet points for readability, and a clear Call to Action (CTA) for comments.

Twitter/X: Create a thread of 5 tweets summarizing the key takeaways. Use a strong opening hook, numbered points, and end with an engagement question.

Short-form Video Script: Write a 30-second script for TikTok/Reels/YouTube Shorts. Include hook (first 3 seconds), 3 key points with visual cues, and a closing CTA.

For each version, maintain the core message but adapt the language, pacing, and format for the platform's audience expectations.

Seedance 2 R2V Konsistenz-Script

🟡 Fortgeschritten

Das R2V-Pattern (Reference-to-Video) löst das größte Problem der KI-Videogenerierung: Inkonsistenz über Frames hinweg. Der Prompt trennt strikt Referenz-Lock, Action-Phasen und negative Constraints. Community-Tests zeigen, dass explizite Kamerawerte (35mm, 24fps) und Phasen-Trennung die „Morphing"-Artefakte um >60 % reduzieren. Am besten mit: Seedance 2 / Kling 2.0, Referenz-zu-Video (R2V) Modus

[Referenzframe 1: Charakter steht vor einer verfallenen Tür, Regen läuft herab, kaltes Neonlicht]
Action-Phase 1: Die Hand greift langsam nach dem Türgriff. Nahaufnahme der Finger, Wassertropfen gleiten vom Ärmel.
Action-Phase 2: Die Tür öffnet sich mit einem leisen Quietschen. Kamera schwenkt leicht nach innen, Fokus wechselt auf den dunklen Flur.
Constraints: Behalte Kleidung, Frisur und Lichtstimmung aus Frame 1 durchgängig bei. Keine morphing-artigen Übergänge. Realistische Physik bei Regen und Stoffsimulation.
Kamera: 35mm Objektiv, leichte Handkamera-Bewegung, cinematic 24fps look.

Brad Pitt AI Acting Performance — Realitätsansätze

🟡 Fortgeschritten

Zeigt den aktuellen Stand von «AI acting» — der Autor fokussiert auf natural voices und Gesichtsanimation statt auf optische Effekte. Ein realistischer Ansatz für narrative KI-Videos. Am besten mit: Stable Diffusion + Audio-Pipeline, ComfyUI

Ziel: «more realistic AI acting with natural audio voices and video»
Werkzeug: Stable Diffusion Pipeline für Video
Schlüssel: Realistische Audio-Video-Synchronisation, natürliche Gesichtsanimation

Suno Lyria 3 Pro vs Suno — AI-Musik Prompt-Pickiness

🟡 Fortgeschritten

Basierend auf direktem Vergleich: Suno ist kreativer und „brute-forces" sich auch durch schlechte Prompts zu brauchbaren Ergebnissen. Lyria 3 ist mischtechnisch sauberer (bessere Vocals im Mix, breiteres Stereo-Bild) aber deutlich promp-sensitiver — schlechter Prompt = schlechtes Output. Die Wahl hängt vom Use Case ab: Suno für Exploration, Lyria für finale Tracks. Am besten mit: Suno v4 (kreativer, toleranter mit Prompts), Lyria 3 Pro (sauberer Mix, aber prompt-pickier)

# Suno Musik-Prompt-Formel für konsistente Ergebnisse:

[Genre] [Sub-Genre], [Vocal Style] voice, [Tempo] BPM, [Mood]
Key: [Key signature], Time: [time signature]

[Verse:]
[Lyrics]

[Chorus:]
[Lyrics]

Bridge: [Bridge description]

Beispiel:
Indie Rock, warm male vocals, 120 BPM, nostalgic summer evening
Key: G Major, Time: 4/4

[Verse:]
Wir sind die Jungs, die um sechs gegangen sind
Die Tore hinter uns zugemacht, kein Wiedersehen in Sicht

[Chorus:]
Oh, die Jungs von gestern Abend
Sie gingen früh und ließen uns hier

LongCat-Video-Avatar 1.5 — Expressiver Talking-Head Avatar

🟡 Fortgeschritten

Die Version 1.5 bringt signifikante Verbesserungen für offene Avatar-Generierung: extrem schnelle Inferenz, starke Expressivität und verbesserte Lip-Sync-Qualität. Das Modell generiert natürliche Kopfbewegungen, Lidschlag und Mikroexpressionen ohne manuelle Animation. Besonders praktisch: der Text-to-Video-Pipe, der TTS direkt in die Avatar-Pipeline einspeist — kein separates Audio-Recording nötig. Am besten mit: LongCat-Video-Avatar 1.5 (Meituan/LongCat, open source auf Hugging Face)

[LongCat Video Avatar 1.5 — ComfyUI Workflow]

Eingabe: Referenzbild (Portrait) + Audio oder Text
Modell: meituan-longcat/LongCat-Video-Avatar-1.5

Prompt-Struktur für ComfyUI:
1. Load checkpoint: LongCat-Video-Avatar-1.5 (HF)
2. Load reference image → encode zu latent
3. Audio input → aligner network für Lip-Sync
4. Generation steps:
- Expression intensity: 0.7 (default, skalierbar 0.3-1.0)
- Head motion amplitude: 0.5 (subtile Kopfbewegungen)
- Blink frequency: automatisch (modell-interner Timer)
- Resolution: 512x512 → 1024x1024 mit Upscaler
5. Sampler: Euler a, 25 Steps
6. Video Output: 24fps, ~5 Sekunden pro Generation

Audio-Alternative (Text-to-Video):
"Use TTS engine for audio generation, then feed audio to LongCat Avatar pipeline.
The model generates natural head movements, lip-sync, and micro-expressions."

Grok Imagine Horror-Szene — 1-Minuten-Draft

🟡 Fortgeschritten

Demonstriert Groks neue Videofähigkeiten mit einer vollständigen 1-Minuten-Horrorszene. Interessant als Benchmark für den aktuellen Stand von Grok im Video-Bereich. Am besten mit: Grok Imagine (Video-Generation)

«The Forest» — 1 min draft horror scene generated via Grok Imagine
Kamera: Dunkler Wald, neblig, langsame Bewegung
Stimmung: Horror, bedrohlich

LTX 2.3 Camera Controls LoRA

🟡 Fortgeschritten

Eines der größten aktuellen Frustrationsthemen im AI-Video-Bereich ist, dass LTX 2.3 Kamerabefehle (Zoom In/Out, Pan) falsch interpretiert. Dieses LoRA löst das Problem direkt — der User meldet: „You can achieve excellent results when used with the LTX Director." Besonders nützlich für narrative Kurzfilme. Am besten mit: LTX Video 2.3 + LTX Director Workflow + Camera Controls LoRA

# Camera Controls LoRA für LTX Video 2.3:
# https://civitai.com/models/2622189/camera-controls-ltx-23

# Empfohlener Workflow mit LTX Director:
# Im Prompt klare Kamerabefehle verwenden:

"Camera zooms in slowly on the man's face as he speaks, shallow depth of field"
"Slow pan left to reveal the cityscape behind, cinematic lighting"
"Static camera, two-shot dialogue scene, focus shifts between speakers"

# Wichtige Parameter:
# - LoRA Strength: 0.7-0.8 (zu hoch = Overfitting)
# - CFG: leicht erhöhen für bessere Prompt-Adherence
# - Sampler: _cfg_pp Sampler verwenden
# - Test: immer zuerst 2 Sekunden mit Fixed Seed testen

SEGA — Spectral-Energy Guided Attention für höhere Auflösungen

🟡 Fortgeschritten

SEGA (Spectral-Energy Guided Attention) ermöglicht Training-freie Skalierung auf höhere Auflösungen in Diffusion Transformers. Die Technik nutzt spektrale Energie-Führung, um die Attention-Mechanismen über Auflösungen hinweg zu stabilisieren. Kein erneutes Training nötig — die Integration erfolgt als ComfyUI-Nodes. Praktisch: wer hochwertige Bilder in 2K oder 4K braucht, ohne das Modell neu zu trainieren. Am besten mit: DiT-basierte Modelle (SD3, Flux) mit ComfyUI

[SEGA: Spectral-Energy Guided Attention für Resolution Extrapolation in DiTs]

Workflow für ComfyUI / DiT-basierte Modelle (z.B. SD3, Flux):

1. Aktiviere SEGA im Custom-Nodes-Loader
2. Setze Spectral-Energy Threshold: 0.45
3. Guidance Scale: 3.5 (standard für hohe Auflösungen)
4. Resolution Extrapolation:
- Base: 1024x1024
- Target: 2048x2048 (oder höher)
- SEGA interpoliert Attention-Spektren zwischen Base und Target

Paper: https://arxiv.org/abs/2605.22668
Demo: https://rajabi2001.github.io/sega/

Dies ist ein training-free Ansatz — kein Fine-Tuning nötig, nur ComfyUI-Integration.

🧙 Synth Wizards — AI-Video Showcase

🟡 Fortgeschritten

Demonstriert die aktuell erfolgreichste R2V-Struktur für KI-Video: Referenzbild-Konsistenz → Phasen-Aktion → Kamera-Regie → Negative Constraints. Besonders relevant für Seedance 2 Users. Am besten mit: Seedance 2 / Kling / LTX Video 2.3

SYNTH WIZARDS! Video-Prompt Struktur:

1. Charakter-Design: Konsistente Referenzbilder für Hauptfiguren
2. Szenen-Beschreibung: Kamera-Perspektive, Lichtstimmung, Bewegung
3. Übergänge: Explizite Anweisungen für Schnitt und Motion-Flow
4. Stil-Vorgabe: Farbpalette, Render-Qualität, Ästhetik
5. Negative Constraints: Unerwünschte Elemente explizit ausschließen

Workflow für KI-Video (Seedance 2 / Kling / Runway):
- R2V (Reference-to-Video): "Keep [character appearance] consistent with the first frame"
- Phasenweise Aktionsbeschreibung mit Kamera-Regie
- Explizite negative Constraints für bessere Kontrolle

Seedance 2.0 Free Prompt Library (1000+ Prompts)

🟡 Fortgeschritten

Eine freie Prompt-Library mit über 1000 geprüften Prompts und Video-Previews für Seedance 2.0. Besonders wertvoll: Die Prompts folgen dem R2V-Strukturmuster (Reference-to-Video) mit First-Frame-Locking, Phasen-beschriebenen Aktionen, Kameraregie und expliziten Negativ-Constraints. Keine trial-and-error-Phase nötig — einfach kopieren und einsetzen. Am besten mit: Seedance 2.0 / Seedance 2.0 Turbo

# Seedance 2.0 Prompt-Beispiele (aus der 1000+ Prompt-Library):

# Action-Szene:
"First frame: astronaut in a white spacesuit floating near a damaged ISS module.
Camera slowly pulls back as the astronaut reaches for a floating wrench.
Slow-motion, dramatic lighting from the sun hitting the gold foil, debris drifting.
Style: photorealistic, IMAX quality, 24fps cinematic look."

# Natur-Dokumentation:
"A time-lapse of a redwood forest from dawn to midnight.
Morning mist clearing, golden hour light through canopy, then stars appearing
above the treetops, Milky Way visible. Slow upward tilt, 4K nature documentary."

# Free Library mit Video-Vorschauen — 10 Kategorien verfügbar

Prompt Relay in Wan2GP — Mehrsprachige Video-Generierung

🟡 Fortgeschritten

Prompt Relay in Wan2GP ermöglicht temporale Prompt-Segmentierung — verschiedene Prompt-Texte können verschiedenen Zeitabschnitten des generierten Videos zugeordnet werden. Das erlaubt dramaturgische Kontrolle: Dialoge können genau platziert werden, Kamera-Bewegungen können phasenweise gesteuert werden. Die `[0%:30%]` Syntax teilt die Generierungszeit in Segmente, die jeweils eigene Prompts erhalten. Ideal für narrative Kurzvideos und animierte Dialog-Szenen. Am besten mit: Wan2GP (Wan-basierte Video-Generierung)

[Prompt Relay in Wan2GP — mehrsprachiger Workflow]

3d pixar style, a female rabbit and a male koala sit, in a restaurant.

[0%:30%] the male koala says "Some people say that the pizza here is great!"
[30%:60%] the female rabbit replies "Yeah, but they're also terrible at sharing."
[60%:100%] they both look at the massive pizza on the table,
then burst into laughter. The camera slowly zooms out.

Settings:
- Model: Wan2GP
- Frames: 81 (5s @ 16fps)
- CFG: 7.0
- Prompt Relay: ENABLED

LTX 2.3 Foley — Audio zu beliebigem Video hinzufügen

🟡 Fortgeschritten

Löst ein häufiges Problem: AI-generierte Videos haben kein Audio. Dieser Workflow fügt automatisch passende Soundeffekte hinzu, funktioniert mit Videos von WAN und anderen Modellen, und läuft bereits auf einer RTX 3060. Die Community bestätigt die Funktionalität mit konkreten Hardware-Angaben. Am besten mit: LTX 2.3, RTX 3060 12GB (oder besser), ComfyUI

# LTX 2.3 V2V Foley Workflow — Audio zu jedem Video hinzufügen

# Workflow herunterladen:
# hf.co/RuneXX/LTX-2.3-Workflows/blob/main/Video-2-Video/LTX-2.3_-_V2V_Foley_Add_Sound_To_Any_Video.json

# Hardware-Voraussetzungen:
# Bestätigt funktionierend auf: RTX 3060 12GB + 64GB RAM

# Anwendung:
# 1. Lade dein bestehendes Video (egal welches Modell: WAN, LTX, etc.)
# 2. Verwende den V2V Foley Workflow
# 3. LTX 2.3 generiert automatisch passende Soundeffekte

# Wichtige Hinweise aus der Community:
# - Funktioniert auch mit WAN-videos (nicht nur LTX)
# - Audio-Qualität ist "hit or miss" — mehrere Seeds probieren
# - Alternative: Civitai WAN-Modell mit Audio-Generierung
# civitai.com/models/2516432/wan-22-all-in-wan (Mode 4 aktivieren)

🎥 Postapokalyptische KI-Video mit METRO-Setting

🟡 Fortgeschritten

Zeigt das Potenzial von KI-Video für atmosphärische, narrative Szenen mit spezifischer Welt-Stimmung. Die METRO-Ästhetik (unterirdisch, düster, improvisiert) ist ein beliebtes Genre in der AI-Video-Community. Am besten mit: Seedance 2 / Kling / LTX 2.3 Distill

METRO-inspired Post-Apocalyptic Video-Prompt:

Setting: Underground metro station, last bastion of humanity
Atmosphäre: Düstere Beleuchtung, feuchte Wände, improvisierte Lager
Kamera: Langsame Schwenks durch enge Korridore, gelegentliche Nahaufnahmen
Bevölkerung: Überlebende in improvisierter Kleidung, bewaffnet
Stil: Cinematic, desaturated Farben, Film-Grain, anamorphic lens
Bewegung: Langsame Kamerafahrt durch Station, Menschen im Hintergrund

Technische Parameter:
- Dauer: 4 Sekunden pro Shot
- Auflösung: 1080p oder höher
- Seedance 2 / Kling / LTX 2.3 Distill

Sci-Fi Animated Series: Trailer-Workflow

🟡 Fortgeschritten

Der r/aivideo-Showcase beweist: Ganze narrative KI-Serien sind möglich. Der Schlüssel: Character-Konsistenz durch Referenzbilder (nicht reine Prompts), getrennte Lip-Sync-Generierung (ElevenLabs + Animation), und narrative Struktur über mehrere Episoden hinweg. Kein „set it and forget it" — aber mit diesem Workflow reproduzierbar. Am besten mit: Kling + Veo + Runway (Kombination), ElevenLabs für Audio

# Workflow für KI-animierte Sci-Fi-Serie (aus dem r/aivideo Showcase):

# Schritt 1: Character Design & Consistency
"Character sheet front/back/side: [describe character], consistent outfit, flat background"

# Schritt 2: Scene Generation (pro Szene)
"[Scene description] with [character reference], [camera movement], [lighting mood],
cinematic composition, color graded"

# Schritt 3: Lip Sync separat
# ElevenLabs Audio → Separate Animation (nicht All-in-One)

# Schritt 4: Post-Production
# Einzelne Clips zusammenschneiden, Color Matching, Sound Design

# Tools: Kling / Veo / Runway für Generierung
# ElevenLabs + separate Animation für Lip Sync

EntityBench: Entity-konsistente Multi-Shot-Videogenerierung (Forschung)

🟡 Fortgeschritten

Basierend auf dem neuen arXiv-Paper „EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation" (2026-05-19). Adressiert das Kernproblem der Multi-Shot-Generierung: Konsistenz von Charakteren, Objekten und Locations über mehrere Szenen. Der Referenz-Frame-Ansatz mit expliziten „Consistency Locks" ist state-of-the-art für narrative Video-Kreation. Am besten mit: Seedance 2 (R2V-Modus), LTX Video

Generate a coherent multi-shot video narrative maintaining entity consistency across scenes.

Scene 1: [Describe the opening shot, including all character appearances, objects, and location details that must stay consistent]
Scene 2: [Describe action continuation, maintaining the same character appearances, clothing, objects]
Scene 3: [Describe resolution scene]

Key Consistency Constraints:
- Keep [character name] appearance (hair, face, clothing) consistent across all shots
- Maintain object properties and spatial relationships
- Preserve location details and environmental continuity
- Camera: [Describe camera movements per scene]

Output: A single continuous prompt for Seedance 2 / LTX Video with R2V (Reference-to-Video) structure. Include explicit consistency locks for each entity.

LTX Tiled Sampler — 2. Pass nach Upscaler

🟡 Fortgeschritten

Dieser spezifische Workflow-Tipp stammt vom Autor des meist-upgevoteten Postings des Tages (235↑). Der Tiled Sampler als separater, zweiter Pass nach dem Upscaler verbessert die Videoqualität signifikant — besser als ein einzelner Durchlauf mit höherer Auflösung. Am besten mit: ComfyUI, LTX 2.3, 10S-Comfy-nodes

# LTX Tiled Sampler für bessere Videoqualität
# Nodes installieren: github.com/TenStrip/10S-Comfy-nodes

# Einsatz im Workflow:
# 1. Generiere Video mit LTX 2.3
# 2. Upscale das Video
# 3. Verwende LTX Tiled Sampler als 2. Sampler NACH dem Upscaler

# Warum der 2. Pass wichtig ist:
# - Deutlich bessere Detailtreue nach dem Upscaling
# - Vermeidet Tiling-Artefakte bei der Vergrößerung
# - Verbessert Texturkonsistenz über das gesamte Frame
# - "Sollte eigentlich nativ in ComfyUI sein" (Community-Empfehlung)

# Kombination empfohlen mit:
# - OmniNFT RL LoRA für LTX 2.3
# - Nvidia DeBlur als zusätzlicher Pass

📸 364-Upvote AI-Video Trend: Fotorealistische Porträts

🟡 Fortgeschritten

Das meist-upgevotete Post zeigt, dass fotorealistische Porträts mit korrekter Licht- und Kamerabeschreibung der aktuelle Hotspot in der Video-Community sind. Das Template strukturiert alle relevanten Dimensionen. Am besten mit: Seedance 2 / Kling / Runway Gen-4

Fotorealistisches AI-Video Prompt-Template:

Person: [BESCHREIBUNG, z.B. "young woman, natural skin texture, freckles"]
Setting: [UMGEBUNG, z.B. "soft window light, minimalist room"]
Kamera: [PERSPEKTIVE, z.B. "medium close-up, 85mm lens, shallow DOF"]
Licht: [LICHTSTIMMUNG, z.B. "golden hour, warm rim light, natural shadows"]
Bewegung: [AKTION, z.B. "slow head turn, subtle smile, hair movement"]
Stil: [ÄSTHETIK, z.B. "editorial photography style, film grain"]
Negative: "no plastic skin, no over-smoothing, no AI artifacts"

Parameter: --ar 16:9 --quality high --motion medium

Seedance R2V (Reference-to-Video) Workflow

🟡 Fortgeschritten

Das R2V-Pattern von Seedance 2.0: Referenz-Frame zuerst, dann Aktion in Phasen beschreiben, Kamera-Richtung explizit angeben, negative Constraints am Ende. „Keep [appearance] consistent with the first frame" ist der Schlüssel-Lock für Gesichts-/Kleidungskonsistenz über die gesamte Sequenz. Am besten mit: Seedance 2.0

Keep the appearance consistent with the first frame. [Subject description with clothing, hairstyle, accessories]. The subject [action: walks/turns/speaks] while [environmental action]. Camera: locked tripod, [specific camera movement]. Light: [physics-based light source and direction]. Do not add any text, watermarks, or additional characters.

DriveCtrl: Konditionierte Sim-to-Real Driving-Video-Generierung

🟡 Fortgeschritten

Sim-to-Real-Transfer für Driving-Video ist ein praktisches Anwendungsgebiet für KI-Videogenerierung. Das Paper beschreibt, wie synthetische Daten als Input dienen und das KI-Modell den Domain-Gap überbrückt. Für Content-Creator und Simulationsfirmen gleichermaßen interessant. Am besten mit: Seedance 2, Kling, Runway Gen-3

Generate realistic driving footage from simulation data.

Input: Simulator-generated driving scene (synthetic)
Domain Gap Constraints:
- Convert synthetic lighting to real-world lighting patterns
- Add realistic sensor noise and compression artifacts
- Preserve semantic annotations (lane markings, traffic signs)
- Maintain temporal consistency across frames

Prompt for Video Model:
"Convert this simulated driving scene to photorealistic footage. Maintain exact geometry and object positions. Apply real-world camera characteristics: slight motion blur, natural exposure variations, realistic reflections. Keep all traffic signs, lane markings, and vehicle positions identical to the input."

WAN-to-Audio via Civitai All-in-WAN Modell

🟡 Fortgeschritten

All-in-One Lösung von Civitai, die Video- und Audio-Generierung in einem Modell kombiniert. Besonders Mode 4 oder die parallele Audio-Aktivierung während der Video-Generierung liefert integrierte Ergebnisse ohne separaten Workflow. Am besten mit: ComfyUI, WAN 2.2, Civitai All-in-WAN Modell

# WAN 2.2 All-in-ONE mit integrierter Audio-Generierung
# Modell: civitai.com/models/2516432/wan-22-all-in-wan

# Features:
# - I2V, V2V, F2LF (Face-to-Lip-Face), SVI
# - Optional: LTX F2LF Nag für V2A (Video-to-Audio)
# - "Pulse of Motion" LoRA Optimizer
# - CFG Ctrl mit 4 Modi

# Audio-Generierung aktivieren:
# Mode 4 aktivieren ODER
# Während der Video-Generierung Audio-Generierung parallel aktivieren

# Alternativ: Separater LTX 2.3 Foley Workflow
# (siehe Eintrag 1 dieser Kategorie)

Charakter-Konsistenz-Workflow für Videogenerierung

🟡 Fortgeschritten

Das Kernproblem bei AI-Videos ist Charakter-Konsistenz über mehrere Shots hinweg. Dieser Workflow löst es durch generierte Referenzframes, die als Anker für alle folgenden Generationen dienen — der gleiche Ansatz, den professionelle Seedance-Nutzer empfehlen. Am besten mit: Seedance 2.0, LTX 2.3, Kling

Generate the main character before starting the video generation.

Step 1: Generate a high-quality character image in [describe character appearance, clothing, pose].
Step 2: Use the generated image as a reference frame for all subsequent video generations.
Step 3: In each video prompt, include: "Keep [character appearance] consistent with the first frame."
Step 4: Describe action sequences in phases with camera directions.
Step 5: Include explicit negative constraints: "No morphing, no identity shift, no costume changes."

Kling: Realistisches Produktvideo mit Kamera-Controls

🟡 Fortgeschritten

Produkt-Shots sind die produktivste kommerzielle Anwendung für KI-Video. Dieses Template gibt explizite Kamera-Parameter (360° Rotation, shallow DOF) und physikalische Lichtbeschreibung — die Kombination eliminiert das typische „KI-Filmchen"-Feeling. Am besten mit: Kling 1.6, Seedance 2.0

A product shot of [product description] rotating slowly on a marble surface. Studio lighting with a large soft key from above-left, dark gradient background. Slow 360-degree rotation, shallow depth of field keeping the product in focus. 4K resolution, photorealistic, commercial quality --ar 16:9 --duration 10s

Surreale Natur-Video-Kreation (Community-Beitrag)

🟡 Fortgeschritten

Strukturiertes Template für surreale Natur-Szenen. Alle für Video-KI relevanten Parameter sind abgedeckt: Kamerabewegung, Farben, Atmosphäre, Dauer, Looping, Bewegung. Ideal für Background-Video-Content und kreative Shorts. Am besten mit: Kling 2.0, Runway Gen-3 Alpha, Luma Dream Machine

Create a surreal nature scene for AI video generation:

Subject: [e.g., Giant glowing mushrooms in an ancient forest]
Camera Movement: Slow push-in from above, descending to ground level
Style: Photorealistic with subtle surreal elements
Color Palette: Bioluminescent blues and purples against earthy browns
Atmosphere: Mist, floating particles, volumetric lighting
Duration: 5-8 seconds, looping
Motion: Gentle swaying of vegetation, pulsing bioluminescence

Seedance 2.0 — Ballerina-Szene (R2V-Methode)

🟡 Fortgeschritten

Seedance 2.0 nutzt das R2V-Pattern (Reference-to-Video): Das erste Frame definiert die Referenz, dann wird Konsistenz explizit gesichert („Keep appearance consistent with first frame"). Klare Kameradirektiven (Zoom von Medium zu Close-Up) und Phasen-beschriebene Aktion geben der KI strukturierte Anweisungen. Am besten mit: Seedance 2.0, Kling 1.6

A ballerina in a white tutu faces the crowd at a grand theater. She takes a deep breath, then gracefully steps forward into a spotlight. The camera slowly zooms in from a medium shot to a close-up as she raises her arms into first position. The audience is a soft blur of faces in the background. Warm stage lights cast golden highlights on her face. Keep the ballerina's appearance and tutu consistent with the first frame. Cinematic lighting, 4K quality, smooth motion. Duration: 5 seconds.

LTX 2.3 Acting-Verbesserung: Distill LoRA Mixing Hack

🟡 Fortgeschritten

Zwei praktische Techniken aus der Community: (1) Distill LoRA auf 0.80 statt 1.0 setzen um „eingefrorene" Bilder zu vermeiden, (2) den distillierten LoRA zusätzlich zum Modell mischen für intensivere Bewegungen — ein inoffizieller „Hack" der Charaktere zum Leben bringt. Längere, skript-artige Prompts mit physischen Details funktionieren deutlich besser als kurze Beschreibungen. Am besten mit: LTX 2.3, ComfyUI

[Video-Prompt als Szenenskript schreiben]

A scene script format for LTX 2.3:
"Flying saucers fly briskly towards earth as the man speaks. [describe micro-movements]: His eyes shift to the sky, mouth opens slightly, he raises his left hand. Camera slowly zooms in. Background: cityscape at dusk."

Settings:
- Distill LoRA Strength: 0.80 (not 1.0 — prevents frozen imagery)
- Mix distilled model + distilled LoRA at 0.3-0.5 weight for increased expressiveness
- Increase total steps to compensate for lower LoRA strength
- Write longer, step-by-step prompts describing physics, micro-movements, and kinetic actions

LTX/Stable Video: Entity-Konsistenz über mehrere Shots

🟡 Fortgeschritten

Entity-Konsistenz über mehrere Shots ist das größte Problem der aktuellen Video-Generierung. Das Pattern erzwingt explizite Wiederholung aller Attribute in jedem Shot, plus negative Constraints gegen Morphing und Extra-Limbs. Am besten mit: LTX Video, Kling, Seedance 2.0

Shot 1: [Character] standing in [location], [appearance details locked].
Shot 2: Same character in [different pose], same clothing (red coat, black boots), same hairstyle (long blonde hair tied back).
Shot 3: Character walking toward camera, environment changes but appearance remains identical.

Maintain entity consistency across all shots: same face, same outfit colors, same proportions. No morphing, no extra limbs. Smooth transitions between shots.

Wan 2.2 — FLUX.2 Klein Workflow mit Wan-Video

🟡 Fortgeschritten

Kombination aus FLUX.2 Klein 9B für die Bildbasis und Wan 2.2 für die Video-Animation. Der First/Last-Frame-Stitching-Ansatz ohne Background/Collage-Overhead ist ein praxisnaher Workflow für lokale KI-Video-Generierung. Am besten mit: FLUX.2 Klein 9B + Wan 2.2

# Bild-Generierung mit FLUX.2 Klein 9B:
A cinematic scene of a gothic cathedral interior with light rays streaming through stained glass windows. Dust particles visible in the air. Stone architecture with intricate carvings. Dark, moody atmosphere. --ar 16:9

# Video-Generierung mit Wan 2.2 (First/Last Frame Stitching):
Use the generated image as the first frame. Create a 5-second video with slow camera pan from left to right. Add subtle light movement through the stained glass. No lightning effects. Maintain architectural details throughout the motion.

Explainer Video unter $1 mit Claude Design

🟡 Fortgeschritten

Ein kompletter Produktions-Workflow, der Audio-Video-Synchronisation löst — das Hauptproblem bei AI-Erklärvideos. Durch STT-Rückkopplung werden die visuellen Elemente präzise mit der Tonspur synchronisiert, was manuell extrem aufwendig wäre. Am besten mit: Claude Design + ElevenLabs TTS + beliebiges STT-Modell

Step 1: Write a compelling explainer video script:
"Write a 90-second explainer video script about [TOPIC]. Include clear section markers and natural pause points for TTS alignment."

Step 2: Feed script to TTS model (e.g., ElevenLabs, OpenAI TTS)
Step 3: Run STT on the audio to get precise timestamps per sentence
Step 4: Prompt Claude Design: "Create animated slides matching the script. Each slide should align with these timestamps: [STT output]. Use consistent visual style with [COLOR SCHEME]."
Step 5: Export final video with audio overlay via Claude Video export

Seedance 2 R2V — „Oma trifft den Freistoß"

🟡 Fortgeschritten

Das Prompt demonstriert bewährte Seedance-2-Praktiken: Referenzbild-Konsistenz durch klare visuelle Anker (roter Pullover, schwarze Hose), Broadcast-Kamera-Stil mit „handheld motion" für Realismus, und explizite Negativ-Konstraints („no character deformation, no flickering, no identity change") gegen typische KI-Video-Artefakte. Am besten mit: Seedance 2 R2V (via AIReel oder ähnliche Plattformen)

Keep the grandma's appearance, red sweater, black pants, stadium seats, crowd, and World Cup broadcast look consistent with the first frame. The grandma is sitting in the audience eating a hot dog and drinking soda, like a normal spectator watching a football match. Then she shows a confident expression, stands up, walks down the stadium steps, passes through the crowd and tunnel, and enters the football pitch.

Use a realistic sports TV broadcast tracking camera style, with slight handheld motion, continuous camera movement, and strong character consistency.

The grandma walks to the free kick position near the penalty area. Brazil and France players stare at her in shock, while the goalkeeper prepares in front of the goal. The grandma takes a short run-up and kicks the football. The ball flies with realistic physics into the top corner of the goal. The goalkeeper fails to save it and the ball goes into the net.

The whole stadium erupts, and the players are shocked. After scoring, the grandma smiles happily, runs toward the camera, and finally reaches out her hand to cover the lens, ending the shot naturally.

Hyper-realistic, World Cup live broadcast style, real stadium lighting, natural crowd reactions, cinematic sports camera movement, absurd but believable, 4K, high detail. No cartoon style, no character deformation, no flickering, no identity change.

Full Music Video mit Lip-Sync (AI-generiert)

🟡 Fortgeschritten

Repräsentiert den aktuellen Stand von AI-Musikvideos mit synchronisiertem Lip-Sync — ein aktives Entwicklungsgebiet. Die Kombination aus Multi-Camera-Editing und exakter Lip-Sync-Anforderung an eine Audio-Referenz zeigt den Workflow für komplette Musikvideos. Am besten mit: Kling 1.6, Seedance 2.0 mit Audio-Input

Create a full music video with synchronized lip-sync. The character is a young female singer on stage. She performs the song with natural mouth movements matching the audio track lyrics. Camera switches between close-up (face/mouth), medium shot (upper body), and wide shot (full stage). Stage lighting changes with the mood of each verse. Smooth transitions between camera angles. The lip-sync should match the vocal track precisely, including breaths and vocal dynamics. Duration: 30 seconds per section. Use audio file as lip-sync reference.

LTX 2.3 INT8 — 2x schneller auf Ampere-GPUs

🟡 Fortgeschritten

Die INT8-Quantisierung halbiert die Generierungszeit auf Ampere-Architekturen ohne signifikanten Qualitätsverlust. Praktisch für Nutzer, die häufig Videos generieren. Gleichzeitig dokumentiert die Community bekannte Schwächen (Untertitel-Bug, Text-Darstellung), die durch Prompt-Anpassungen kompensiert werden können. Am besten mit: LTX 2.3, Ampere GPUs (RTX 3090/4090)

# LTX 2.3 INT8 Benchmarks: 2x schneller auf Ampere-Architektur
# Quelle: https://www.reddit.com/r/StableDiffusion/comments/1tbqxb5/ltx_23_int8_benchmarks_2x_faster_on_ampere/

# Wichtige Einstellungen:
# - INT8 Quantisierung für Ampere GPUs (RTX 30xx/40xx)
# - LTX 2.3 unterstützt nun negative Prompts nativ
# - NegPip auch mit LTX-2.3 kompatibel (wenn OmniNFT nicht portiert wurde)

# Problem: LTX 2.3 fügt manchmal unerwünschte Untertitel hinzu
# Workaround: Explizit "no subtitles, no text" im Prompt angeben

# I2V Text-Darstellung: LTX-2.3 hat noch Probleme mit Text-Details in generierten Videos

LTX 2.3 10_EROS Workflow — FP8 Inference mit Upscaling

🟡 Fortgeschritten

Der kombinierte VFI-Interpolation- und Upscaling-Pipeline verdoppelt die Framerate und vervierfacht die Auflösung in einem ComfyUI-Workflow. Die Community-Diskussion liefert praktische Optimierungstipps: Q6_K statt FP8 für bessere Qualität, Cleanup-Nodes zwischen Upscaling-Schritten für Speichereffizienz. Am besten mit: ComfyUI, LTX 2.3 10_EROS FP8, NVIDIA GPU (16GB+ VRAM)

Basis: LTX 2.3 10_EROS Workflow (FP8, keine LoRAs geladen)
Interpolation: VFI x2 Node (Frame Interpolation)
Upscaling: RTX VSR Node mit 3x Upscaling
GPU: RTX 5060 Ti (16GB VRAM), empfohlen: 96GB+ System-RAM

FACS-gesteuerte Gesichtsausdrücke in Seedance 2.0 mit Beat-Sync

🟡 Fortgeschritten

Dies ist der fortschrittlichste Video-Prompt, der heute in der Community diskutiert wird. Er kombiniert das Facial Action Coding System (FACS) mit Beat-synchronisierten Gesichtsausdrücken und Dialog-Timing. Jeder Beat definiert präzise, welche Muskelaktionen (AU-Codes) in welchem Zeitfenster aktiv sein sollen. Das Resultat ist ein Video, in dem die Mikroexpressionen des Charakters die emotionale Komplexität des Dialogs widerspiegeln — der Kontrast zwischen gespielter Sicherheit und sichtbarem Terror wird auf Gesichtsebene lesbar, ohne dass der Zuschauer explizit darauf hingewiesen wird. Am besten mit: Seedance 2.0

Use the provided character @[image1] as the fixed identity reference.

15s, 16:9, dim interior, single warm lamp, slight low angle, handheld micro-sway, shallow depth of field. Dialogue: "Hey, hey — everything's fine, okay? We're just gonna play a game where we stay really quiet. Can you do that for me?"

Beat 1 (0–1s): AU5+AU38 (upper lid raiser + nostril dilator — genuine fear, pre-dialogue)
Beat 2 (1–2s): AU45 (blink — forcing reset, composing the mask)
Beat 3 (2–4s): AU12+AU6 (Duchenne smile — forced but committed, parental warmth overriding terror) — delivers "Hey, hey — everything's fine"
Beat 4 (4–5s): AU1 (inner brow raiser — pleading sincerity leaking through) — delivers "okay?"
Beat 5 (5–6s): AU7 (lid tightener — eyes betraying the fear the smile is hiding)
Beat 6 (6–8s): AU12+AU2 (smile + outer brow raise — brightening, performing fun) — delivers "We're just gonna play a game"
Beat 7 (8–10s): AU4+AU24 (brow lowerer + lip presser — seriousness cracking through for a flash) — delivers "where we stay really quiet"
Beat 8 (10–11s): AU45 (blink — catching the slip, resetting to warmth)
Beat 9 (11–13s): AU12+AU1 (smile + inner brow raise — tenderness and desperation fused) — delivers "Can you do that"
Beat 10 (13–15s): AU6+AU17 (cheek raiser + chin raiser — eyes smiling while chin trembles) — delivers "for me?"

Devastating contrast between performed safety and visible terror. The face should never fully commit to either — the audience reads both simultaneously. No action sequences, no visible threat, no sound effects, no text overlay, no watermark.

Cinematic AI Ad Production — Kompletter Workflow

🟡 Fortgeschritten

Zeigt den kompletten Produktionsworkflow für einen AI-Werbespot mit Multi-Tool-Pipeline. Das Community-Feedback liefert wertvolle, konkret anwendbare Tipps (Hook-Timing, Branding-Platzierung, Schnitt-Prinzipien). Am besten mit: Runway Gen-4, Seedance, Imagen 2, Suno

# Workflow für einen cinematischen AI-Werbespot (Fictional Airline):
# Tools: Runway Gen-4, Seedance, Imagen 2, Suno

# Schritt 1: Concept & Storyboard — Claude/GPT für Drehbuch
# Schritt 2: Bildgenerierung — Imagen 2 für Standbilder
# Schritt 3: Videogenerierung — Runway/Seedance für Bewegung
# Schritt 4: Audio/Soundtrack — Suno

# Wichtige Erkenntnisse aus Community-Feedback:
# - Hook in den ersten 3-5 Sekunden (schneller Einstieg, Gesicht/Aktion)
# - Marken-Logo früh zeigen
# - Mittlere Sequenzen kürzen
# - Sound-Design nachproduzieren
# - YouTube ABCD-Prinzip: Attention (Hook), Branding (Logo early), Connection (Humanize), Direction (CTA)

Letzte Woche in Generative Image & Video — Die wichtigsten neuen Modelle

🟡 Fortgeschritten

Eine einzige Quelle für die wichtigsten Paper und Code-Releases der Woche. Besonders CausalCine (löst „motion stagnation" in langen Video-Rollouts) und CDM (schnelle Diffusion-Destillation) sind vielversprechende Durchbrüche. Am besten mit: Entwickler/Researcher, die Open-Source-Modelle verfolgen

CausalCine — Autoregressives Multi-Shot-Video mit Content-Aware Memory Routing
Paper: https://arxiv.org/abs/2605.12496
GitHub: https://github.com/yihao-meng/CausalCine

SwiftI2V — Effiziente 2K Image-to-Video Generation
Paper: https://arxiv.org/abs/2605.06356

OmniGen2 — Unified Image Generation (T2I, Editing, Subject-driven)
Paper: https://arxiv.org/abs/2605.07254

HiDream-O1-Image — Unified Foundation Model, 8B, Open Weights
GitHub: https://github.com/HiDream-ai/HiDream-O1-Image

CDM — Few-step Diffusion Distillation für SD3 Medium & Longcat
Paper: https://arxiv.org/abs/2605.06376

Seedance 2.0 — Gesichtsausdrücke exakt steuern mit FACS-Codes

🟡 Fortgeschritten

Revoltionärer Ansatz — FACS (Facial Action Coding System) erlaubt die präzise Steuerung einzelner Gesichtsmuskeln über AU-Codes (Action Units). Statt vage "mache einen traurigen Blick" → "AU1 + AU4 + AU15" für exakte Gesichtsausdrücke. Besonders kraftvoll für Beat-synchrone Video-Animationen. Am besten mit: Seedance 2.0 (ByteDance), Referenzbild via GPT Image 2 oder Midjourney generiert

Create a clean educational FACS Action Unit expression grid featuring a realistic adult female character. Use minimal studio lighting, neutral white background, high readability, professional facial anatomy reference sheet aesthetic, realistic skin texture, consistent identity across all panels. COLOR SYSTEM: Use soft pastel color coding for categories while keeping the overall sheet minimal and elegant.

Include these Action Units:
FOREHEAD & BROW: AU1 Inner Brow Raiser, AU2 Outer Brow Raiser, AU4 Brow Lowerer
EYE & EYELID: AU5 Upper Lid Raiser, AU7 Lid Tightener, AU43 Eyes Closed
NOSE & CHEEK: AU6 Cheek Raiser, AU9 Nose Wrinkler
LIP & MOUTH: AU10 Upper Lip Raiser, AU12 Lip Corner Puller, AU15 Lip Corner Depressor, AU17 Chin Raiser, AU25 Lips Part, AU27 Mouth Stretch
HEAD MOVEMENT: AU51 Head Turn Left, AU52 Head Turn Right, AU53 Head Up
EYE DIRECTION: AU61 Eyes Turn Left, AU62 Eyes Turn Right, AU63 Eyes Up
SPECIAL: AU46 Wink, AU85 Tongue Out

Apply color subtly as panel background tints and thin borders. Keep colors soft, muted and professional.

Seedance 2.0 Timeline-Prompt für emotionale Sequenzen

🟡 Fortgeschritten

Dieser Prompt demonstriert die Timeline-basierte Steuerung von Seedance 2.0 mit expliziten FACS-Codes für jeden Zeitabschnitt. Besonders wertvoll: die Kombination von emotionalen Übergängen (neutral → glücklich → traurig) mit reinen Blickrichtungs-Manövern (AU61, AU62) und ungewöhnlichen Aktionen (Zungenbewegungen via AU85). Die Sekunden-genau definierte Timeline ermöglicht präzise Kontrolle über den gesamten 15-Sekunden-Clip. Am besten mit: Seedance 2.0

Photorealistic 15-second video. 50-year-old Creole woman, face and shoulders only, bare skin no makeup, natural soft diffused light, plain white background, 4K, shallow depth of field.

Timeline:
0–2s: Neutral resting face, eyes forward, relaxed brow and lips.
2–4s: Happy — AU6 (cheek raiser, crow's feet appear) + AU12 (lip corners up), Duchenne smile, slight natural eye squint.
4–6s: Sad — AU1 (inner brow raise) + AU4 (corrugator knits brow) + AU15 (lip corners down), eyes slightly glassy.
6–7s: AU61 — eyes turn left, head stays still, gaze shifts left.
7–8s: AU62 — eyes turn right, head stays still, gaze shifts right.
8–9.5s: AU46 left eye — left eye closes with slight compression, right eye stays open, subtle smirk.
9.5–11s: AU46 right eye — right eye closes with slight compression, left eye stays open.
11–12.5s: AU85 — tongue protrudes straight out from mouth, jaw drops slightly via AU26.
12.5–13.5s: Tongue moves to the left side of the mouth.
13.5–14.5s: Tongue moves to the right side of the mouth.
14.5–15s: Returns to neutral, tongue retracts, lips close, relaxed expression.

Midjourney als Werkzeug für visuelles Vokabular

🟡 Fortgeschritten

Kein klassischer Prompt, sondern eine systematische Methode, wie Midjourney als Lehrwerkzeug für visuelles Vokabular genutzt werden kann. Wer die Begriffe kennt, kann wesentlich präzisere Prompts schreiben — für alle Bildgenerierungsmodelle, nicht nur Midjourney. Am besten mit: Midjourney V8.1

# Midjourney nicht nur für Bilder — sondern als Werkzeug zum Erlernen visueller Sprache

# Methode:
# 1. Beschreibe eine vage Vorstellung: "cinematic, expensive looking, moody"
# 2. Iteriere mit spezifischeren Begriffen: "Rembrandt lighting, shallow depth of field, Kodak Portra 400"
# 3. Lerne die Begriffe aus den Ergebnissen kennen

# Konkret für Prompt-Verfeinerung:
# Lens: 35mm portrait lens, 85mm telephoto, macro 100mm
# Light: Rembrandt lighting, golden hour, ring light, hard rim light
# Texture: film grain, velvet texture, weathered patina, iridescent sheen
# Mood: melancholic, triumphant, ethereal, oppressive

# Der Schlüssel: MJ lehrt die Namen der Dinge, auf die du bereits reagierst.
# Sobald du Linse, Licht, Textur, Farbe und Stimmung trennen kannst,
# werden deine Prompts systematisch besser.

Hi-Dream-O1: Kompletter ComfyUI-Workflow für 2K-Bilder

🟡 Fortgeschritten

Erstmals ein FP8-Model mit echtem 2K-Output, das auf Consumer-Hardware läuft. Die Community diskutiert bereits Verbesserungen. Der mitgelieferte Workflow macht den Einstieg einfach. Am besten mit: ComfyUI + RTX 4070 oder besser, Hi-Dream-O1-FP8

1. Hi-Dream-O1-Image-FP8 von Hugging Face laden:
https://huggingface.co/drbaph/HiDream-O1-Image-FP8

2. ComfyUI-Workflow: Erster Screenshot auf der Modelling-Seite enthält den kompletten Workflow

3. Performance-Werte (RTX 4070):
- 2048x2048, 50 Steps: ~2:55
- FP8 distilled Version empfohlen

4. Bekannte Issues: Out-of-the-Box results zeigen vertikale Banding-Effekte und wirken teilweise „zu weich", Fine-Tuning der Sampler-Einstellungen empfohlen.

Seedance 2.0 — Fünf-Schichten-Promptstruktur für stabile Ergebnisse

🟡 Fortgeschritten

Die explizite Unterteilung in fünf Schichten (Subjekt → Aktion → Kamera → Stil → Constraints) reduziert physische Inkonsistenzen und "broken physics"-Generationen drastisch. Seedance verarbeitet einzelnen Beats besser als zusammengesetzte Sequenzen. Die Constraints-Schicht ist am wichtigsten — sie eliminiert die häufigsten Fehlerquellen. Am besten mit: Seedance 2.0 (ByteDance)

[Schicht 1: Subjekt] 25-jährige asiatische Frau, langes schwarzes Haar, weißes lockeres Shirt und Jeans, fokussierter ruhiger Gesichtsausdruck, Hände ruhig an den Seiten

[Schicht 2: Aktion] Sie dreht sich langsam um und blickt aus dem Fenster

[Schicht 3: Kamera] Start von einer mittleren Schulter-aufnahme, langsam reinzoomen auf eine Gesichts-Nahaufnahme

[Schicht 4: Stil] Weiches warmes Gelb einer Pendelleuchte, leichter Filmkorn, gemütliche Wohnzimmerstimmung

[Schicht 5: Constraints] Keinerlei Text im Bild. Kein Wasserzeichen. Hände vollständig sichtbar. Augen die ganze Zeit offen.

LTX 2.3 I2V-LoRA Trainings-Settings

🟡 Fortgeschritten

Nach intensiver Community-Diskussion mit widersprüchlichen AI-Antworten hat sich eine klare Baseline-Konfiguration für LTX 2.3 I2V-LoRA-Training etabliert. Die entscheidende Erkenntnis: Motion-fokussierte LoRAs benötigen deutlich weniger Trainingsdaten als Charakter-/Style-LoRAs, da sie Bewegungsmuster und nicht visuelle Identität lernen. Der kritische Tipp: Ostris AI Toolkit ist für img2vid-Training nicht geeignet — Nutzer berichten von 70$ verschwendetem Runpod-Guthaben ohne Ergebnis. Musubi oder der offizielle LTX 2.3 Trainer sind die einzig funktionierenden Alternativen. Am besten mit: LTX 2.3 + Musubi Trainer, ComfyUI

LTX 2.3 I2V LoRA Training — Empfohlene Baseline-Settings:

Dataset: 10-20 Video-Clips
Auflösung: 512x512 (square Ratio)
Frame-Anzahl: 49 Frames pro Clip
Framerate: 24fps
Clip-Länge: 2-5 Sekunden
Still Images: NICHT zum Dataset hinzufügen
Trainer: Musubi (NICHT Ostris AI Toolkit — bekanntermaßen inkompatibel mit img2vid)
Hardware: Runpod H100 empfohlen

WAN22 — Cinematography Intent Prompting

🟡 Fortgeschritten

Nach 3 Jahren praktischer Arbeit hat die Community entdeckt, dass WAN auf „Cinematography Intent" besser reagiert als auf reine Beschreibungen. Statt „a girl walking in a forest" → „slow handheld dolly-in, low-angle tracking shot, cinematic lighting." Die Kamerabewegungs-Sprache verändert die Ausgabe massiv — WAN versteht Block-Transitions, Crash Zooms, Dolly-Ins und sogar Camera Rolls präzise. Am besten mit: WAN22 (FFLF Workflow in ComfyUI)

[Subject beschreiben], slow handheld dolly-in, cinematic lighting, [weitere Kamerabewegung]

# Kamerabewegungen die WAN22 exzellent versteht:
- slow handheld dolly-in
- sudden crash zoom
- wide cinematic pan
- low-angle tracking shot
- block transition
- tilt up/down
- orbital arc
- crane up
- pull back
- whip pan
- camera roll

Flux Identity Adjustor Node — Konsistente Charakteridentität

🟡 Fortgeschritten

Identitätskonsistenz ist das größte Problem bei Flux-basierten Workflows. Dieser Node löst es durch einen regelbaren Balancer — mehr Identität oder mehr Kreativität, je nach Bedarf. Am besten mit: ComfyUI + Flux 2 Klein 9B FP8

- Balanciert Input-Referenzbild und Text-Prompt
- Justiert die Stärke der Identitätsübertragung vs. Kreativität
- Getestet mit Flux 2 Klein 9B FP8 distilled
- Benötigt normalen k-Sampler (keine Custom-Sampler)
- Ergebnis: Konsistente Charaktere über verschiedene Szenen hinweg

LTX 2.3 Distilled — Ultra-realistische I2V-Szene

🟡 Fortgeschritten

Der Prompt kombiniert subtile Mikro-Bewegungen (Blinzeln, Atmen, Haarsträhnen) mit Kamera-Bewegung (Push-in, Handheld) und atmosphärischer Beleuchtung — drei Dimensionen, die LTX 2.3 besonders gut umsetzt. Der Trick: "single beat, not compound sequence."

A young man with messy black hair and a sharp jawline wearing a dark hoodie slowly turns his head toward the camera while maintaining an intense stare, subtle blinking and natural breathing motion adding realism as strands of hair move slightly from nearby motion, set in a crowded urban night environment filled with blurred pedestrians and distant neon lights, close-up framing keeps his face dominant in the shot while passing silhouettes partially obscure the foreground and soft bokeh city lights fill the background, the camera performs a slow cinematic push-in with slight handheld movement and shallow depth of field locked on his eyes, illuminated by moody blue lighting mixed with warm orange city highlights creating realistic skin shading and subtle eye reflections, the atmosphere feels mysterious, calm and emotionally tense, ultra realistic

LTX-Video 2.3 ID-LoRA mit First-Last-Frame Steuerung

🟡 Fortgeschritten

Der offizielle ComfyUI ID-LoRA Workflow unterstützt nur First-Frame-Conditioning. Diese Erweiterung ermöglicht es, Start- UND Endframe gleichzeitig zu konditionieren — was präzise Kontrolle über Charakterbewegung und Pose über die gesamte Videosequenz gibt. Nur 2 Node-Swaps und minimaler Aufwand. Am besten mit: LTX-Video 2.3, ComfyUI

# LTX-Video 2.3 ID-LoRA Workflow — First + Last Frame Conditioning
# Basis: Offizielles ComfyUI ID-LoRA Workflow, erweitert um Last-Frame-Support

# Schritt 1: Last-Frame-Preprocessing hinzufügen
ResizeImagesByLongerEdge → 1536px
LTXVPreprocess → letzte Frame in beide Sampling-Passes

# Schritt 2: Low-Res Pass (KJNodes Swap)
LTXVImgToVideoInplaceKJ mit 2 Bildern:
- First Frame: position 0, strength 0.7
- Last Frame: position -1, strength 0.7

# Schritt 3: High-Res Upscale Pass
Nach LTXVLatentUpsampler, gleiche Konfiguration:
- First Frame: position 0, strength 1.0
- Last Frame: position -1, strength 1.0

# Empfehlung: 1536px lange Kante, CFG 4.0, 30 Steps, Euler Sampler
# Workflow: https://huggingface.co/ussaaron/workflows/blob/main/ltx2_3_id_lora_flfv.json

Wan SCAIL Pose Control Workflow

🟡 Fortgeschritten

SCAIL Pose Control ermöglicht präzise Posen-Übertragung in WAN-Generierungen — ideal für konsistente Charakter-Posen über mehrere Video-Shots hinweg. Besonders bei Hand- und Körperinteraktionen ist WAN dem LTX-Modell überlegen. Der Workflow ist clean, gut organisiert und auf Civitai verfügbar. Am besten mit: WAN (besser bei Händen und Körper-Interaktionen als LTX, aber langsamer)

# Wan SCAIL Pose Control — ComfyUI Workflow
# Download: https://civitai.red/models/2609234/wan-scail-pose-control

# Nutzung:
1. Referenzbild für Pose laden (Pose Conditioning)
2. Text-Prompt: [Szene beschreiben]
3. SCAIL Pose Control Node verbinden
4. Generieren — WAN übernimmt die Pose exakt

„Mister Fluffy" — Virales AI-Video Phänomen

🟡 Fortgeschritten

Zeigt, dass einfache, emotionale Konzepte („niedliches Tier") die höchste virale Reichweite erzeugen — ein Muster das sich auch bei anderen viralen AI-Videos zeigt. Die Community-Reaktion war überwältigend. Am besten mit: Kling 3.0, LTX 2.3, oder Runway Gen-3

cute fluffy creature, soft fur texture, cinematic lighting, gentle expression, photorealistic animal portrait style —v 6.1 —ar 16:9

Seedance 2 — Charakter-Animation mit komischen Twist

🟡 Fortgeschritten

Seedance 2 zeigt starke narrative Fähigkeiten — der im Post gezeigte Clip demonstriert, dass das Model nicht nur einzelne Aktionen, sondern komplette emotionale Bögen mit Twist-Endings generieren kann. Besonders geeignet für kurze, virale Clips. Am besten mit: Seedance 2 (ByteDance/Doubao)

# Seedance 2 Video-Generation Pattern
# Seedance 2 ist ByteDances neuestes Video-Generierungsmodell

Text-Prompt für Seedance 2:
"hero character standing dramatically, then suddenly comical twist ending"
--duration 5s --model seedance-2 --fps 24

Settings:
- Model: Seedance 2
- Duration: 5 Sekunden
- FPS: 24
- Aspect Ratio: 16:9

Tipp: Seedance 2 reagiert besonders gut auf narrative Prompts mit
überraschendem Ende. Kurze, emotionale Bogen funktionieren besser als
detaillierte technische Beschreibungen.

LTX 2.3 — Sulphur vs. 10Eros Modellauswahl

🟡 Fortgeschritten

Die Community-Tests zeigen klare Trennung: Sulphur ist besser für Text-to-Video, 10Eros dominiert bei Image-to-Video. Der neue Tiled-Upscale-Sampler löst zwei häufige Probleme gleichzeitig — vertikale Aspect-Ratio-Verzerrungen und schlechte Bewegungsqualität beim Upscaling. Beide Modelle basieren auf der gleichen Basis, aber die Workflows und Nodes unterscheiden sich deutlich. Am besten mit: LTX 2.3 Sulphur (T2V) oder 10Eros (I2V)

# Für Text-to-Video:
Prompt: [Szene beschreiben]
Model: LTX 2.3 Sulphur
Workflow: Standard T2V Pipeline

# Für Image-to-Video:
Prompt: [Bildbeschreibungen]
Model: LTX 2.3 10Eros
Workflow: https://huggingface.co/TenStrip/LTX2.3-10Eros

# Tiled Upscale Sampler (neu, verbessert Bewegung bei Upscales):
- Fixiert vertikale Aspect-Ratio-Probleme
- Verbessert Bewegungsqualität beim Upscale

AniMatrix — Tencent's Anime-Video-Modell

🟡 Fortgeschritten

Erstes Video-Modell, das gezielt kuenstlerische statt physikalische Korrektheit priorisiert. AniCaption inferiert Produktionsvariablen aus Pixeln als Regieanweisungen. Auf der Anime-Evaluation schlaegt es Seedance-Pro 1.0 bei Prompt Understanding (plus 22,4 Prozent) und Artistic Motion (plus 16,9 Prozent). Am besten mit: AniMatrix (Release geplant, basiert auf Wan 2.2)

# AniMatrix Prompt-Format (basierend auf dem Production Knowledge System):

[Style] anime, {konkreter Anime-Stil z.B. "90s cel-shaded", "modern Kyoto Animation"}
[Motion] {Bewegungsstil z.B. "exaggerated impact frames", "slow motion hair flutter"}
[Camera] {Kamera z.B. "low angle tracking shot", "dutch angle close-up"}
[VFX] {Effekte z.B. "speed lines", "particle bloom", "screen shake"}

Narrative Prompt: "A lone warrior stands atop a ruined tower, wind whipping their cloak as mechanical soldiers approach from the horizon below"

-- Model: AniMatrix (Tencent HY Team)
-- Technik: Dual-Channel Conditioning (tags + narrative)
-- Open-Weight-Release geplant

LTX 2.3 Audio-Reaktion in ComfyUI — Musik-Sync Videos

🟡 Fortgeschritten

Ein Nutzer zeigte, wie LTX 2.3 mit ControlNet und Audio-Input Videos erzeugt, die synchron zum Beat reagieren. Der gezeigte „Geordi La Forge tanzt zu Haddaway — What is Love" war ein Hit in der Community. Deutlich einfacher als bisherige AnimateDiff-Workflows. Am besten mit: LTX 2.3 lokal via ComfyUI + Audio-Control-Node

[Beliebiger Charakter], dancing to a funky disco song, rhythmic movement, head bobbing, hands in the air, club atmosphere, neon lighting, smooth motion, 4 second clip

Draft → Image → Video Workflow — Anfänger-freundliche Pipeline

🟡 Fortgeschritten

Eine niederschwellige Pipeline, die mit simplen Skizzen beginnt und über Bild-zu-Video generierung endet. Besonders wertvoll: „Tell the AI thats my ARM not my..." — auch schlechte Skizzen funktionieren, solange die Komposition klar ist. Am besten mit: Flux.1 Dev (Image) + Kling 2.0 / Seedance 2 (Video)

# 3-Step Pipeline: Skizze → Bild → Video
# Tools: beliebige Skizze → Flux/Midjourney → Kling/Runway/Seedance

Schritt 1 — Skizze (Draft):
Erstelle eine grobe Strichskizze oder Stick-Figure-Skizze der gewünschten Szene.
Die Komposition ist hier entscheidend.

Schritt 2 — Bild (Image):
Prompt für Flux.1 Dev:
"based on the provided sketch, create a cinematic still with [described scene],
dramatic lighting, photorealistic, detailed textures"
--img2img denoise: 0.65

Schritt 3 — Video (Motion):
Prompt für Kling 2.0 / Seedance 2:
"Framing: [camera movement, z.B. slow push-in, handheld tracking shot],
subject performs [action], natural lighting, cinematic motion blur"
Duration: 4-5 Sekunden, FPS: 24

Empfehlung: Der erste Schritt (Skizze) gibt maximale Kontrolle über die Komposition,
bevor der AI-Generierungsprozess beginnt.

Causal Forcing — Echtzeit-Video mit Wan 2.1 & RTX 4090

🟡 Fortgeschritten

Von den Machern von SageAttention. Causal Forcing ermöglicht echtzeitnahe Video-Generierung — bisher war nur einzelbild-basierte Generierung möglich. 81 Frames in 15 Sekunden auf einer 4090 ist revolutionär für lokale Video-Pipelines. Am besten mit: ComfyUI + Wan 2.1 1.3B + Causal Forcing (RTX 4090 oder besser)

# Causal Forcing mit Wan 2.1 1.3B — ComfyUI Workflow

# Prompt für Video-Generierung:
"A dramatic scene with [describe your scene in detail, e.g., a lone figure walking through a foggy alley, neon signs reflecting on wet pavement]"

# Model: Wan 2.1 1.3B mit Causal-Forcing Framewise
# Repo: https://github.com/thu-ml/Causal-Forcing
# ComfyUI PR: https://github.com/Comfy-Org/ComfyUI/pull/13082
# Repackaged Safetensors: https://huggingface.co/TalmajM/causal_forcing_framewise_ComfyUI_repackaged

# Performance (RTX 4090): ≈15 Sekunden für 81 frames bei 480x832

Made Men — KI-generierter Serien-Trailer

🟡 Fortgeschritten

Zeigt eine komplette Pipeline von Bild zu Video zu Ton zu Schnitt fuer narrative KI-Produktion im Serienformat. 25 Upvotes in r/aivideo belegen die Qualitaet. Am besten mit: Midjourney v7 + Runway Gen-4 / Kling 1.5 + ElevenLabs

# Multi-Tool Pipeline fuer narrativen KI-Trailer:

Step 1 (Bilder): Midjourney v7
"cinematic film still, 1960s mafia family portrait, golden hour lighting, Kodak Portra 400 aesthetic --v 7 --ar 16:9"

Step 2 (Video): Runway Gen-4 / Luma Dream Machine / Kling 1.5
[Upload von Midjourney-Bildern, animiert mit "slow zoom in" Camera Control]

Step 3 (Ton): Suno AI oder ElevenLabs
"dark cinematic orchestral underscore, tense building atmosphere, low strings and percussion"

Step 4 (Schnitt): CapCut / Premiere

„Cursed The Office" — The Office Parodie

🟡 Fortgeschritten

Zeigt AI-Video-Fähigkeiten bei bestehenden IP-Parodien — Gesichter, Mimik und typische Mockumentary-Kamerawinkel werden überzeugend reproduziert. Am besten mit: Kling 3.0, Runway Gen-3

mockumentary scene, office environment, awkward camera angles, fluorescent lighting, deadpan expressions, Jim Halpert looking at camera, documentary style footage —ar 16:9

Harry Potter in The Matrix — Seedance 2.0 Showcase

🟡 Fortgeschritten

Der mit 536 Upvotes meistbewertete AI-Video-Post der letzten 24 Stunden zeigt, was Seedance 2.0 heute leisten kann: Konsistente Charaktere über mehrere Shots, filmische Beleuchtung und nahtlose Übergänge zwischen Stilen. Das Video beweist, dass Cross-over-Konzepte mit aktueller KI-Video-Technologie bereits professionell umsetzbar sind. Am besten mit: Seedance 2.0

Harry Potter crossover with The Matrix aesthetic. Cinematic style, dramatic lighting, green code rain overlay, dark coat and sunglasses on wizard character. Film-quality compositing, consistent character rendering, smooth camera movement.

Cinematic Video Scene — LTX / Kling / Runway Vorlage

🟡 Fortgeschritten

Strukturiert den Video-Prompt chronologisch (Anfang → Mitte → Ende) und definiert explizit Kamerabewegungen — Video-Modelle reagieren deutlich besser auf zeitliche Beschreibungen als statische Bild-Prompts. Am besten mit: Kling 1.5, Runway Gen-4 Alpha, LTX Video

A cinematic scene with [subject] in [location], camera slowly panning from [starting angle] to [ending angle], during [lighting condition]. The scene begins with [opening shot description], transitions to [mid-shot action], and ends with [closing image]. Mood: [emotion]. Color grading: [style e.g., warm golden tones, desaturated blue]. Motion: smooth and deliberate with [camera technique: e.g., dolly zoom / crane shot / handheld shake for tension]. Duration: 5 seconds.

ChiPin Drives a Folklift (Sora)

🟡 Fortgeschritten

Demonstriert Soras Faehigkeit, spezifische Charakterkonsistenz ueber einen kurzen Clip aufrechtzuerhalten — jenseits der typischen Tech-Demos. Am besten mit: OpenAI Sora

# Sora Prompt mit Charakterkonsistenz:

"ChiPin driving a yellow forklift through an industrial warehouse, realistic lighting, smooth camera tracking, natural physics, 10 seconds, 1080p"

-- Plattform: OpenAI Sora
-- Dauer: ca. 10 Sekunden
-- Staerke: Charakterkonsistenz ueber den Clip

Sulphur 2 & LTX 2.3 10Eros — Neues Video-Modell-Duo

🟡 Fortgeschritten

Die entscheidende Innovation: LTX 2.3 hat wenig eigene „Fantasie" — es folgt dem Prompt sehr direkt. Deshalb muss der Prompt vorher mit einem LLM angereichert werden, das aus einem Einzelbild ein vollständiges Video-Skript generiert mit allen Bewegungen, Sounds und Dialogen im zeitlichen Ablauf. 10Eros ist optimiert für Image-to-Video, Sulphur 2 für Text-to-Video. Am besten mit: LTX 2.3 10Eros (I2V) + Sulphur 2 (T2V), ComfyUI

Prompt Enhancement für LTX 2.3 (Vorverarbeitung in Grok oder Uncensored LLM):

Generate a video scene script with a description based on the attached image for an LLM that has a tokenizer that uses interleaved attention to support long-context understanding that is fed into a multimodal video model. Strict specification, follow up to the word:
No timestamps. No unnecessary embellishment. Output only plain text.

First, describe the image initial scene in detail, then describe every moving body part, composition change, and manipulation from the uploaded initial frame that would be reflected in the video models post-latent evolution output. Describe only notable audio and audio queues: background noise as well as foley and natural sounds. In a temporal sequence paired with coinciding motions. In the case of characters speaking, include dialogue between or during motions. Dialogue should be concise and non-rambling as it will take away from video quality.

„A Warm Place" — Seedance-Kurzfilm mit hoher Konsistenz

🟡 Fortgeschritten

Ein 50-Upvote-Video, das durch seine außergewöhnliche Bildkonsistenz auffällt — mehrere User verglichen es mit handgezeichnetem Anime. Zeigt, dass Seedance für narrative Kurzprojekte mit emotionaler Tiefe geeignet ist. Am besten mit: Seedance (oder Seedance 2.0), Kling als Alternative

A cozy, warm animated short scene. Soft lighting, hand-drawn feel. Consistent character design across shots. Wholesome atmosphere, gentle camera pans. Studio Ghibli-inspired aesthetic.

Musikvideo mit Lip-Sync — Pruna Model

🟡 Fortgeschritten

Das neue Lip-Sync Model von Pruna ist bemerkenswert schnell bei guter Qualität. Kombiniert mit KI-generierten Begleit-Szenen lassen sich komplette Musikvideos in Minuten erstellen.

# Workflow für AI Musikvideo mit Lip-Sync (Pruna-Modell):

# 1. Audio-Input: Deine Audiospur (.wav oder .mp3)
# 2. Source Image: Portrait oder Charakter-Bild des Sängers
# 3. Pruna Lip-Sync Model: Schneller Lip-Sync, direkt im Browser oder lokal

# Prompt für Begleit-Video-Generierung (Kling/Runway):
"A music video scene: [character] performing with intense emotion, [lighting style: e.g., neon stage lights / warm spotlight / strobe effects], dynamic camera movement, [visual effects: e.g., lens flares / particle effects / light leaks], cinematic color grading in [color palette], style of [reference: e.g., a high-budget MTV production / indie underground concert / futuristic hologram performance]"

# Pruna Model: https://github.com/prunaai (lip sync — super fast and quality)

Prompt-Engineering-Aufwärtstrategie für LTX-Video

🟡 Fortgeschritten

Der Autor von 10Eros betont: LTX-Modelle haben wenig Eigenkreativität — jeder Bewegung, jeder Klang muss explizit im Prompt genannt werden. Die Anreicherungs-Strategie per LLM liefert deutlich bessere Ergebnisse als einfache Beschreibungen. Am besten mit: LTX 2.3 10Eros, Sulphur 2

Vorgehensweise für erstklassige LTX 2.3 Videos:
1. Start-Bild erstellen (FLUX/Midjourney oder Foto)
2. Bild an LLM (Grok/Uncensored) mit folgender Anweisung geben:
→ Generiere ein Video-Szenen-Skript mit allen bewegten Körperteilen, Kompositionswechseln und Manipulationen
→ Alle Sounds, Foley und natürliche Geräusche beschreiben
→ Dialoge zwischen Bewegungen einbetten, aber kurz halten
3. Angereicherten Text als Input für LTX 2.3 verwenden
4. 10Eros für Bild-zu-Video, Sulphur 2 für Text-zu-Video

Kern-Erkenntnis: „LTX has very little self reasoning — first frame and all following motions, evolutions, and audio must be commanded — you get nothing if you don't ask."

Underhill Trailer — Runway Big Pitch Entry

🟡 Fortgeschritten

Ein Beitrag zum Runway „Big Pitch"-Wettbewerb, der zeigt, wie narrative Trailer mit Runway-Modellen funktionieren. Demonstriert Sequenz-konsistente Videogenerierung für Filmprojekte. Am besten mit: Runway Gen-4 / Gen-3 Alpha

[Atmospheric trailer sequence] Cinematic establishing shots, moody landscape photography, dramatic lighting transitions, film-grade color grading. Sequential scene composition with consistent mood and aesthetic continuity throughout.

Sulphur 2: Uncensored Open-Source Video-Generierung

🟡 Fortgeschritten

Ein Community-Team trainiert ein vollständig uncensoredes Video-Generierungsmodell auf Basis von LTX-2.3 mit 125k Videos (jeweils 10 Sekunden, 24fps). Natural-Language-Prompts funktionieren direkt — kein kompliziertes Parameter-Tuning nötig. Das Modell filtert nur illegale Inhalte und 2D-Material heraus. Veröffentlichung auf HuggingFace geplant. Am besten mit: Sulphur 2 (LTX-2.3 Finetune), lokale GPU mit ausreichendem VRAM

[10 seconds at 24 fps, natural language prompting]
A cinematic scene with [describe subject, action, environment]
Model: Sulphur 2 (finetuned LTX-2.3, 125k Videos)
Release: Open Source via HuggingFace

Bloody Roar 2 — Live-Action AI Video mit Kling/Runway

🟡 Fortgeschritten

Zeigt die beeindruckende Fähigkeit moderner Video-Modelle, Videospiel-Charaktere in fotorealistische Live-Action-Szenen zu transformieren. Besonders bemerkenswert: das Model erkennt selbst den „Mole" ( Maulwurf) korrekt. Am besten mit: Kling, Runway Gen-3, Veo

[Original-Videospiel-Charakter aus Bloody Roar 2] in photoreal live-action style.
Key details: [spezifisches Character Design aus dem Original-Spiel]
Camera: cinematic fight scene framing, dynamic angles
Style: live-action movie adaptation, photorealistic CGI
Duration: 10-15 seconds, slow motion for dramatic moments

Phosphene: Lokale Video- und Audio-Generierung für Apple Silicon

🟡 Fortgeschritten

Phosphene ist ein freies Desktop-Panel, das LTX 2.3 nativ auf Apple Silicon laufen lässt. Das Besondere: Video UND Audio werden in einem einzigen Forward-Pass generiert — Timing der Lippenbewegung und Sound ist frame-synchron verknüpft durch den gemeinsamen Diffusionsprozess. Keine Cloud-API nötig, alles lokal.

[LTX 2.3 Video+Audio Generation, Apple Silicon MLX]
Generate a scene: [describe visual content and audio ambiance]
Duration: variable
Audio: synchronized via shared diffusion process
Installation: Pinokio one-click install

Futurama Live-Action Cast: Charakter-Konsistenz in AI-Video

🟡 Fortgeschritten

Ein Post mit 890 Upvotes zeigt, wie KI-generierte Futurama-Live-Action-Stills überraschend konsistente Charakter-Darstellungen liefern. Der Schlüssel ist die Kombination aus klarer Charakter-Beschreibung + „consistent character appearance" + „TV series still" als Style-Anchor. Die Community nutzt dies als Proof-of-Concept für Character-Konsistenz in Video-Generierung. Am besten mit: LTX-Video, Kling, Runway Gen-3

Futurama live action cast, Philip J. Fry as a real person, [character description],
cinematic lighting, photorealistic, TV series still,
consistent character appearance across scenes --ar 16:9

Z-Image Turbo Workflow für schnellen Hintergrund-Generation

🟡 Fortgeschritten

Mit nur 9 Schritten und CFG 1.0 generiert dieser Workflow qualitativ hochwertige Bilder in Sekunden — ideal als Storyboard-Grundlage für Video-Produktionen. Die Kombination aus res_multistep-Sampler und dem Shift-Wert 3.0 bei AuraFlow liefert stabile Ergebnisse auch bei minimaler Denoise. Die kurzen Prompts funktionieren, weil das LoRA den gesamten Stil vorextrainiert hat. Als Vorstufe für AI-Video (Runway, Kling, Luma) bestens geeignet. Am besten mit: Z-Image Turbo + ComfyUI

a wizard's tower, looneytunes background, cartoon

Old Movie Remastering mit LTX 2.3 IC LoRAs (3-Schritt-Workflow)

🟡 Fortgeschritten

Drei-Generationen-Prozess, der komplette Filme theoretisch auf Low-VRAM-Hardware ermöglicht. Colorizer LoRA koloriert Schwarz-Weiß-Material, Outpaint LoRA erweitert auf 16:9, Detailer LoRA schärft das Endergebnis. 720p Output funktioniert quasi als Upscaler. Gesamtdauer: ~90 Minuten für einen kurzen Clip. Am besten mit: LTX 2.3 + IC LoRAs (Colorizer, Outpaint, Detailer)

Schritt 1 — Colorizing (DoctorDiffusions Colorizer IC LoRA):
Colorize this black-and-white footage while preserving original details. Use subtle, natural colors. Output at 720p.

Schritt 2 — Outpainting to 16:9 (Official IC-LoRA-Outpaint):
Outpaint this video to 16:9 aspect ratio, extending the frame naturally on both sides without distorting the original content.

Schritt 3 — Detail Enhancement (Official IC-LoRA-Detailer):
Enhance details and sharpness of this video while preserving the colorized colors and outpainted composition.

Anthropics neue Claude-Konnektoren für Adobe, Blender und Ableton

🟡 Fortgeschritten

Anthropic hat am 28. April 2026 neun neue Claude-Konnektoren veröffentlicht. Der Ableton-Connector ist besonders interessant für Audio- und Video-Produktion: Claude hat direkten Zugriff auf offizielle Ableton Live- und Push-Dokumentation und kann so fundierte Antworten zu Komposition, Arrangement und Sounddesign geben. Ähnlich für Blender (3D/Video) und Adobe CC. Am besten mit: Claude (über Mistral Vibe / Le Chat Konnektoren)

Claude ist jetzt direkt in Adobe Creative Cloud, Blender und Ableton Live integriert.
Die Konnektoren gründen Clauses Antworten in offizielle Produktdokumentation.

Verwendung: Installiere den entsprechenden Claude Connector und stelle Fragen
zu Projekten innerhalb dieser Tools direkt über Claude.

WAN SCAIL mit Animate-Modus und MPS-LoRA

🟡 Fortgeschritten

Drei konkrete Tipps aus der Praxis: (1) Der Animate-Modus liefert bessere Konsistenz als der Standard-Modus. (2) MPS-LoRA bei negativem Wert (-0.3 bis -0.5) verbessert Qualität ohne Konsistenz zu ruinieren. (3) FlashVSR-Upscaling nach der Generierung behebt viele der verbleibenden Artefakte. Am besten mit: WAN SCAIL, FlashVSR (Upscaling), MPS LoRA

A lone trucker sits in the cockpit of a weathered space freighter,
stars streaming past the cracked windshield, holographic dashboard
flickering with navigation warnings. Cinematic sci-fi atmosphere,
volumetric lighting, film grain, 8mm film aesthetic.

[Settings: WAN SCAIL, Animate mode, MPS negative LoRA -0.3,
FlashVSR upscaling afterwards, negative strength for MPS only]

Storyboard-to-Video: GPT Image 2 + Seedance 2.0

🟡 Fortgeschritten

GPT Image 2 liefert klare, justierbare Storyboard-Bilder. Seedance 2.0 übernimmt die Referenz und generiert passende Video-Clips, die exakt zum Storyboard passen. Diese Kombination ermöglicht auch Nutzern ohne Film- oder Animations-Skills narrative, story-driven Videos. Am besten mit: GPT Image 2 (für Storyboards) + Seedance 2.0 (für Video)

1. Erstelle ein Storyboard mit GPT Image 2:
"Generate a storyboard frame showing [Szene-Beschreibung] with a virtual dancing character, clear composition, consistent character design, storyboard-style with clean lines and readable poses."

2. Upload das Storyboard-Bild zu Seedance 2.0 als Referenz

3. Seedance 2.0 Prompt:
"Animate this character dancing in the style shown in the reference image, smooth motion, consistent character, [Musik/Stil-Angabe]"

4. Iteriere mit angepassten Storyboard-Frames für jede Szene

ComfyUI Video Combine Plus — Custom Node für bessere Video-Kombination

🟡 Fortgeschritten

Ein Community-Entwickler hat den Standard Video-Combine-Node erweitert, um fehlende Features nachzurüsten, die für AI-Video-Workflows essentiell sind. Praktisch für Nutzer, die mehrere generierte Clips zu einem längeren Video zusammenfügen wollen — ein häufiges Problem bei Open-Source-Video-Generierung. Am besten mit: ComfyUI + Video-Generierung

ComfyUI Custom Node: Video Combine Plus
Installation: https://github.com/peterducan-hub/Comfyui_VideoCombine_Plus

Erweitert den originalen Video-Combine-Node mit zusätzlichen Features für
bessere Video-Kombination in ComfyUI-Workflows.

UniGeo — Kamera-kontrollierbare Bildbearbeitung via Wan2.2

🟡 Fortgeschritten

Löst das "Black-Box Prompting"-Problem: Man sieht die geometrische Trajectory als Point Cloud, *bevor* das teure Rendering startet. Continuous Motion statt diskreter Winkel — im Gegensatz zu Qwen-Image-Edit-Multiple-Angles-LoRA ermöglicht UniGeo flüssige, physikalisch korrekte Kamerapfade. Am besten mit: Wan2.2-5B, VGGT für Geometrie, Open Source

UniGeo Pipeline für kamera-kontrollierte Bildbearbeitung:

Schritt 1 — Prompt to Physics:
Quellbild + natürlichsprachiger Kamerabefehl:
"Camera pans left by 15 degrees; Camera moves left by 0.27"
→ System parst natürliche Sprache in explizite Kamera-Parameter

Schritt 2 — Point Cloud Preview:
VGGT generiert eine Guiding-Point-Cloud aus den Parametern
→ Iteriere und justiere Kamera-Parameter VOR dem schweren Rendering

Schritt 3 — Video Model Rendering:
Point-Cloud + Quellbild → feingetuntes Wan2.2-5B Modell
→ Fluides End-Video mit physikalisch korrekter Kamerabewegung

Ketten mehrere Bewegungen möglich.
Einheiten: Drehungen in Grad, Bewegungen als relative Fraktionen (0.XX).

„The Space Trucker" — AI-Short-Film Workflow

🟡 Fortgeschritten

Demonstriert einen praktischen Workflow für narrative AI-Videos: Charakter-Konsistenz durch LoRA, Kamera-Bewegungen durch Prompt-Engineering („slow dolly-in"), und Post-Processing mit FlashVSR. Zeigt dass konsistente Charaktere über mehrere Shots hinweg möglich sind. Am besten mit: WAN 2.2 oder SCAIL, Character-LoRA für Konsistenz

Scene: Cockpit interior, worn leather seat, control panels with glowing buttons.
Camera: Slow dolly-in from wide shot to medium closeup. 5 seconds.
Style: Cinematic sci-fi, practical effects look, naturalistic lighting.

[Tooling: WAN 2.2 / SCAIL for generation, FlashVSR for upscaling,
consistent character reference image provided]

GRPO Reinforcement Learning für personalisierte Video-LoRAs

🟡 Fortgeschritten

GRPO (Group Relative Policy Optimization) ermöglicht personalisierte Modell-Anpassungen ohne Referenzbilder. Der neue PR bringt eine Voting-UI, die direkt im Browser Samples generiert und bewertet. Binary Rewards (up/down) machen das Training einfacher als ranking-basierte Methoden. Memory-Usage: Z-Image benötigt 40+ GB. Am besten mit: AI Toolkit (ostris/ai-toolkit PR #808), Z-Image, Flux

Job-Typ: Flow-GRPO in AI Toolkit
Zweck: Trainiere Modell-Präferenzen direkt OHNE Referenzbilder

Workflow:
1. Erstelle neuen Flow-GRPO Job im AI Toolkit
2. Generiere Samples und vote direkt in der Voting-UI
3. Rewards sind binary (vote up/down) statt ranking-basiert
4. Default-Parameter sind für schnelle Ergebnisse optimiert

Besonderheit: Im Gegensatz zu LoRA (trainiert Charakter/Stil mit Referenzen) steuert GRPO Model-Outputs direkt durch Preference Learning — ähnlich wie Midjourneys Voting-System.

Ein-Bild-zu-Film Pipeline — Midjourney V8.1 + I2V

🟡 Fortgeschritten

Der meistgefeierte AI-Film der Woche (153 Upvotes, 65 Kommentare) wurde aus EINEM einzigen Midjourney-Bild erstellt. Der Creator nutzte ein V8.1-Charakterbild als «Blueprint» und generierte jede Sequenz per Image-to-Video mit diesem Startframe. Charakterkonsistenz durch I2V statt Text-to-Video. Am besten mit: Midjourney V8.1 (Bild) + Kling / Runway Gen-4 / LTX 2.3 (I2V-Video)

Startframe: Generiere ein einzelnes Charakter-Blueprint-Bild mit Midjourney V8.1. Verwende dieses Bild als Startframe für jeden einzelnen I2V-Clip.

I2V-Prompt für jeden Clip:
[Charaktername] walking through [Szene], maintaining consistent facial features from reference image, cinematic camera movement, smooth motion, 4K quality, film grain, consistent character design throughout

Seedance 2 — 3D-to-Video Anime-Pipeline

🟡 Fortgeschritten

Kombiniert klassische 3D-Vorvisualisierung (Grayboxing) mit AI-Rendering für professionelle Ergebnisse. Die 309 Upvotes zeigen enormes Interesse an dieser Pipeline als Alternative zu teuren Video-AI-Diensten wie Sora 2. Am besten mit: Seedance 2 (ByteDance)

Seedance 2 für 3D-to-Video Anime-Pipeline:

Eingabe: 3D-Graubebox-Animatics (Grayboxing) → Input für Seedance 2
Output: Fertige Anime-Shots mit Charakter-Konsistenz

Pro Shot:
1. 3D-Blockout erstellen (Kamera, Charakter-Positionen)
2. Seedance 2 mit Referenz-Bildern füttern
3. Erste-Bild / Letztes-Bild-Methode mit Charakter-Referenz
4. Prompt-Tuning für Detailreichtum der Welt

Hinweis: Seedance 2 erfordert gezieltes Prompt-Tuning —
"leere" Welten entstehen durch zu sparse Prompts.

„Soup Granny" — Emotionaler AI-Video-Stil

🟡 Fortgeschritten

Zeigt dass AI-Video nicht nur actionlastig sein muss. Subtile, emotionale Szenen mit langsamer Kamerabewegung funktionieren besonders gut mit WAN 2.1. Der Dokumentarfilm-Look mit Portra-Color-Grading erzeugt natürliche, warme Ergebnisse ohne den typischen „AI-Glanz." Am besten mit: WAN 2.1 oder WAN 2.2, Dokumentarfilm-Stil

An elderly grandmother stirring a large pot of soup in a cozy kitchen,
steam rising, warm afternoon light through the window, documentary style,
gentle camera pan, natural movements, Kodak Portra color grading.

[Settings: WAN 2.1, duration 4-5 seconds, subtle camera movement,
realistic motion, high temporal consistency]

Wan I2V v2.0 — All-in-One ComfyUI Workflow

🟡 Fortgeschritten

Kompletter Workflow-Overhaul mit sectionierter Oberfläche und Erklärungen für jeden Parameter. Besonders nützlich: die Kombination aus I2V, First-to-Last-Frame-Konsistenz und optionaler Audio-Generierung (LTX V2A) in einem Graphen. 16 Upvotes auf r/StableDiffusion. Am besten mit: Wan 2.2 I2V (via ComfyUI)

ComfyUI Workflow: All in Wan I2V v2.0
Module: I2V (Image-to-Video), F2LF (First-to-Last Frame), SVI (Subject Video Insertion)
Optional: F2LF + NAG (Noise Attenuation Guidance)
Audio: LTX Video V2A (Video-to-Audio)
Special: Pulse of Motion, LoRA Optimizer, CFG-Control
4 Modi: Standard, Enhanced, Creative, Precise

Face Consistency für AI-Film — Keyframe-Ansatz

🟡 Fortgeschritten

Der grösste Unterschied bei Film-Konsistenz ist, es wie ein echtes Filmprojekt zu behandeln: erst Keyframes generieren, dann Bewegung dazwischen bauen. Seed-Konsistenz + Prompt-Konsistenz + verkleinerte Kamerawechsel zwischen Shots. Am besten mit: Flux.1 + LoRA (Charakter) → Kling 3.0 / Wan 2.1 / LTX 2.3 (I2V)

Schritt 1 — Character Reference Sheet:
Generate a character reference sheet for [Name]: same face, 5 angles (front, 3/4 left, 3/4 right, profile, looking up), consistent lighting, white background, no expression variation

Schritt 2 — Keyframe-Prompting:
[Charaktername] at [location], [emotion], maintain exact facial features from sheet, consistent clothing and lighting, static camera

Schritt 3 — Motion zwischen Keyframes:
Smooth transition from [Keyframe A Pose] to [Keyframe B Pose], subtle camera pan, consistent character appearance, no facial morphing

SeedVR2 Upscaling für Seedance-Workflows

🟡 Fortgeschritten

SeedVR2 wurde als Upscaler für Seedance-Workflows identifiziert und liefert in Kombination mit spezialisierten RealPLSKR-Modellen deutlich bessere Ergebnisse als Standard-Upscaling. Am besten mit: SeedVR2 in ComfyUI, nach Seedance/Wan2.2 Generierung

SeedVR2 Upscaling-Pipeline für AI-Video:

SeedVR2 4x-Upscaler-Kombinationen:
- 4x Nomos2_realplksr_dysample (für allgemeine Szenen)
- 4x PurePhoto-RealPLSKR (für fotorealistische Details)

1x Denoising:
- DeNoise_realplksr_otf (Rauschreduktion)
- SkinContrast-High-SuperUltraCompact (Hautverfeinerung)

Einsatz: Nach Seedance/ComfyUI-Generation als Post-Processing.
Ergebnis: Signifikant schärfere 4K-Ausgabe ohne Qualitätsverlust.

Klein-to-Video Editing: FrameFuse + Edit Anything LoRA

🟡 Fortgeschritten

Löst das Problem des "Drifts" bei Video-Edits — normalerweise verliert das Video die Änderungen des Einzelbilds über die Sequenz. Dieser Workflow hält das Design stabil über das gesamte Video. Am besten mit: ComfyUI + FrameFuse + Edit Anything LoRA + LTX 2.3

Workflow: Video → Einzelbild bearbeiten (Flux.2 Klein / Nano Banana / Photoshop)
→ FrameFuse + Edit Anything LoRA → Vollständiges Video-Edit

Konzept: Ein bearbeitetes Bild steuert das gesamte Video-Edit ohne Drift

Seedance 2.0 + Akool AI — „Master of Sword"

🟡 Fortgeschritten

Der kombinierte Workflow zeigt, dass Seedance 2.0 für actionreiche Szenen stark ist, aber von Akool AI Enhancement profitiert. Multi-Tool-Ansatz wird immer häufiger. Am besten mit: Seedance 2.0 + Akool AI (kombinierter Workflow)

Tool: Seedance 2.0 (Bildgenerierung)
Nachbearbeitung: Akool AI (Video-Enhancement)
Stil: Action-Szene, cinematografisch, Kampfkunst-Ästhetik

KI-Video featuring echte Personen — Professioneller Workflow

🟡 Fortgeschritten

Community-Analyse zeigt: Closed-Source-Modelle (Sora, Kling, Runway, Veo) liefern aktuell bessere Ergebnisse für realistische Personen als Open-Source. Sora-App läuft jedoch heute (26. April 2026) aus. Seedance 2.0 und Kling 3.0 werden als beste Alternativen genannt. Am besten mit: Flux.1 + LoRA → Seedance 2.0 / Kling 3.0 / Runway Gen-4

Workflow für AI-Video mit echten Personen:

1. Bild-Generierung: Midjourney V8.1 oder Flux.1 mit Person-LoRA (IP-Adapter / InstantID für Likeness-Konsistenz)
2. Charakter-Referenz: Frontal + leicht abgewinkeltes Foto des Subjects + «image to video»
3. Video-Generierung: Kling 3.0 oder Seedance 2.0 für I2V mit Reference Image als Startframe
4. Post-Production: Schnitt, Sound Design und Musik separat hinzufügen

Prompt für I2V:
[Person] [Aktion] in [Setting], natural body movement, consistent facial features, realistic hand motion, subtle breathing animation, cinematic lighting, maintain likeness from reference photo

GPT-Image-2 + Seedance 2 Pipeline

🟡 Fortgeschritten

Demonstrationsprojekt zeigt die Kombination von zwei Top-Modellen für professionelle Ergebnise mit minimalem Aufwand. Am besten mit: GPT-Image-2 + Seedance 2

Pipeline: GPT-Image-2 (Bilder) → Seedance 2 (Video) → Fake-Game-Trailer

Vintage Cartoon (Rubberhose-Stil) — Realistischere Animation

🟡 Fortgeschritten

Der Rubberhose-Stil (1930er Cartoon-Aesthetik) wird durch KI-Tools überraschend gut reproduziert — besonders wenn man Film-Grain und Cel-Shading als zusätzliche Parameter spezifiziert. Am besten mit: Kling oder Runway mit Vintage-Style-Preset

Vintage 1930s rubberhose animation style, realistic film grain texture,
cel-shading overlay, authentic cartoon aesthetic

Wan2.2 Video-Qualität — Praxistipps

🟡 Fortgeschritten

Nach einem Monat intensiver Tests dokumentierte ein Nutzer praktische Tipps für höchste Videoqualität — besonders die Segment-stitching-Methode mit VACE über SVI. Am besten mit: Wan2.2 in ComfyUI

Key-Insights:
- 20-30 Steps bei CFG 3.5 (keine Lightning LoRAs — zerstören Prompt Adherence)
- Light Specialized LoRA: 15-20 Steps
- SVI reduziert Prompt Adherence und Bewegungsgeschwindigkeit
- Besser: 5-Segment-Generierung + VACE Video Joiner für nahtlose Übergänge

"Breaking Bad by Balenciaga" — Stil-Transfer Video-Prompt

🟡 Fortgeschritten

Der bewährte "[X] by [Y]"-Prompt formalisiert einen viralen Stil-Transfer —收费标准-Urban-Legends-IP mit Fake-Commercial-Ästhetik zu verbinden. Die Technik funktioniert, weil sie zwei visuell starke Konzepte verschneidet, die beide im Modelltraining gut repräsentiert sind. Am besten mit: Kling AI, Runway Gen-3, Sora (je nach Verfügbarkeit)

# Genre-Transfer Technik: Bekannte IPs im High-Fashion-Kontext neu interpretieren
[Charaktername] in Balenciaga fashion campaign, cinematic lighting, haute couture aesthetic, slow motion, luxury brand commercial style

Seedance 2.0 — Stadt-Timelapse von leerer Fläche zur Megacity

🟡 Fortgeschritten

Cinematic Timelapse: Vom Nichts zur Megacity Für Timelapse-Videos ist der Schlüssel: **Zeit + Maßstab + Konsistenz** statt Aktion. Die Kamera bleibt statisch — kein Cut, keine Kamerabewegung. Das lässt das Wachstum „unausweichlich statt inszeniert" wirken. Konstruktion, Verkehr, Beleuchtung, Jahreszeiten und Tag/Nacht-Zyklen werden ohne Brüche übereinandergeschichtet. Am besten mit: Seedance 2.0

Cinematic timelapse sequence, 16:9, 15 seconds. Opens with a wide aerial shot
looking down at a completely empty flat plot of land dirt, nothing around it,
golden morning light. Time begins accelerating. Foundation crews arrive,
concrete is poured, steel frames rise from the ground. Roads begin forming
outward in every direction. Buildings grow upward at timelapse speed first
small structures, then mid-rise, then massive gleaming skyscrapers shooting
upward around the original plot. Construction cranes everywhere, scaffolding
appearing and disappearing. The city fills in roads packed with traffic,
bridges appearing over rivers, neighborhoods expanding to the horizon. Day
and night cycle rapidly golden days, vivid blue skies, then nights with
thousands of city lights glowing, neon signs flickering on, headlights
streaming through streets like rivers of light. Seasons shift summer heat
haze, autumn colors, winter snow dusting the rooftops, spring green
returning. Final shot pulls back wide revealing a full glittering megacity
stretching to every horizon, lights blazing, alive. Camera locked on the
original empty plot the entire time now buried deep in the heart of the
city. Photorealistic, IMAX cinematic quality, ultra sharp, vivid colors
throughout, dramatic lighting at every stage, epic scale, smooth continuous
timelapse motion from first frame to last.

"Forge of Stars" — Sci-Fi/Fantasy Epischer Video-Prompt

🟡 Fortgeschritten

Demonstriert die aktuelle Stärke von Video-Modellen bei epischer, weitreichender Szenerie — kosmische Skalierung und fantastische Elemente, bei denen KI-Video-Generatoren überzeugender wirken als bei alltäglichen Szenen. Am besten mit: Kling AI, Sora, Runway Gen-3 Alpha

A Sci-Fi/Fantasy Epic: "Forge of Stars" — epic sci-fi fantasy sequence, interstellar forge, cosmic scale, cinematic wide shots, space opera aesthetic

Grok Imagine Video v1 — Cinematic Performance

🟡 Fortgeschritten

Der Fokus auf „grounded physical pacing" und „natural real-time motion" adressiert das Hauptproblem vieler KI-Videos — unnatürliche Bewegungsphysik. Spezifische Begriffe wie „realistic weight transfer" und „subtle micro-expressions" zwingen das Modell zu physikalisch plausibler Animation. Die Kamera-Parameter erzeugen einen echten Film-Look. Am besten mit: Grok Imagine Video v1

High-frame-rate cinematic performance sequence, natural real-time motion, grounded physical pacing, subtle micro-expressions, realistic weight transfer in walking sequence, continuous camera tracking shot, volumetric light through window, shallow depth of field, 4K anamorphic lens flares

Seedance 2.0 — Ein-Shot-FPV-Dronenjagd durch den Dschungel

🟡 Fortgeschritten

One-Take FPV Drone Chase Through Jungle Der Prompt erzählt eine visuelle Geschichte mit klarem narrativem Bogen (Anstieg→Verfolgung→Showdown→Enthüllung). Statt Action zu beschreiben, definiert er den Raum physisch (Kronendach→Stammzone→Passage→Lichtung) und sorgt so für räumliche Konsistenz. Der Trick für Seedance: Jede Kamerabewegung wird als physische Reise durch eine konkrete Umgebung beschrieben, nicht als abstrakter „Kameraflug". Am besten mit: Seedance 2.0

Start high above a dense Amazonian rainforest canopy, an unbroken green ocean,
as the camera drops in a vertical plunge through a gap in the trees. Below the
canopy, a compact wasp-like reconnaissance drone tears through the mid-story at
terrifying speed, dodging trunks and vines. Its design is insectoid and
aggressive: iridescent dark green carapace, four articulated rotor-wings that
fold and extend independently for impossible maneuvers, compound-lens camera
eyes that glow amber, and a rear stinger antenna crackling with scanning pulses.
Parrots explode from branches, leaves shred in its rotor wash, and spider webs
snap like glass. Without a cut, the camera follows from wide canopy breach into
an intimate chase through the green cathedral, revealing individual leaves
slicing off vine stems, moisture misting off the rotors in spiral patterns,
bark fragments spraying from near-miss tree trunks, and shafts of dappled
sunlight strobing across the carapace. It darts ahead through a curtain of
hanging moss for a dramatic reveal shot as the drone bursts through behind it,
then spirals around a massive trunk alongside the drone in a synchronized helix.
For the climax, the canopy ahead is choked by an enormous fallen tree draped in
vines — a solid wall of vegetation. The drone folds all four rotor-wings flat
against its body, becoming a dart, and fires its scanning pulse forward — the
pulse illuminates a narrow gap in the debris. The drone threads the gap in a
spinning corkscrew, vines whipping off its folded wings, and explodes out the
other side into a hidden clearing where a massive waterfall cascades into a
crystal pool. The camera spirals upward through the mist and rainbow spray for
one final epic reveal — the secret paradise hidden within the endless green.

CRT-Terminal-Animation LoRA für LTX Video 2.3 (Bilder+/Video)

🟡 Fortgeschritten

Erste Open-Source-Lösung für authentische CRT-Terminal-Animationen in Video-Generierung. Füllt eine Nische, die bisher von keinem Video-Modell abgedeckt wurde. Am besten mit: LTX Video 2.3 + CRT Animation LoRA in ComfyUI

CRT terminal animation, green phosphor text scrolling on black screen, scanlines, screen flicker, amber glow, retro 1980s computer terminal, boot sequence

SD 3.5 Large — Street-Fashion Video

🟡 Fortgeschritten

SD 3.5 Large reagiert gut auf Kamerabewegungs-Keywords („camera pans left", „slow motion aesthetic"). Die Kombination aus Umgebungsbeschreibung (Regen, Neonlichter) und Bewegungsanleitung liefert cineastische Sequenzen. Die Film-Parameter (35mm look, bokeh) erhöhen die visuelle Glaubwürdigkeit. Am besten mit: Stable Diffusion 3.5 Large + Video-Extension

A stylish young woman in a pastel trench coat, crossing a rain-slicked street, neon signs reflecting in puddles, Tokyo at night, shallow depth of field, slow motion aesthetic, camera pans left following the subject, cinematic color grading, bokeh lights in background, 35mm film look

Seedance 2.0 — Nostalgische 80er-Sommerszene (Diner-Moment)

🟡 Fortgeschritten

80s Nostalgic Summer — Cinematic Diner Moment Dieser Prompt ist ein Meisterwerk der Seedance 2.0-Steuerung: Er nutzt explizite Zeitmarker für die Kameraplanung, beschreibt Charakter-Mikroexpressionen (Augenbrauen hochziehen, Lachen, Kinn fallen lassen) statt vager Emotionen, und verwendet kinematografische Fachbegriffe (`whip-pan`, `push-in`, `pull-back`, `tight two-shot`, `low angle`). Die Farbtemperatur-Angabe (3600K) gibt Seedance eine konkrete Lichtstimmung statt abstrakter Adjektive. Die Geschichte ist minimalistisch (Kirsch-Szene), aber die Ausführung ist extrem spezifisch. Am besten mit: Seedance 2.0

Nostalgic 1986 American summer comedy, Fast Times at Ridgemont High aesthetic
with golden-hour polish. A sun-drenched beachside diner at magic hour — red
vinyl booths, chrome edges, a lazy ceiling fan, a Coca-Cola neon sign buzzing
in the window. Two friends in their early twenties sit across from each other
in a booth: Jessie in a red tee tied at the waist and denim cutoffs, long
blonde hair in a loose ponytail; Mara in a fitted white t-shirt and faded
Levi's, dark wavy hair. Between them sits a shared banana split with two spoons,
towering whipped cream, one maraschino cherry on top. Outside the window, a red
Corvette, the Pacific glinting gold behind it.

[0s–4s] Medium shot of the booth, slow push-in. Jessie and Mara both eye the
cherry at the top of the sundae. They glance at each other, then back at the
cherry. A slow, knowing smile spreads across each face. Mara's hand drifts
toward her spoon.

[4s–8s] Whip-pan to a tight two-shot across the table. Both friends reach for
the cherry at the same time — their spoons meet in the air with a bright ting.
They freeze, eyes locked across the sundae. The ceiling fan spins lazily above
them. A bead of melted ice cream rolls down the glass.

[8s–12s] Cut to a low angle between their faces. They slowly lower their spoons,
still staring each other down. Jessie raises one eyebrow. Mara raises one
eyebrow back, higher. Jessie raises both. Mara raises both and adds a smirk.
Jessie cracks first, bursts out laughing, throws her head back. Mara laughs too.

[12s–15s] Wide pull-back. Mara, still laughing, casually picks up the cherry
with her fingers and eats it in one bite. Jessie's laugh cuts off. Her jaw
drops. Mara shrugs, grins directly at the camera. Freeze-frame on Jessie's
shocked expression, Mara mid-grin. Warm 3600K golden-hour sunlight streaming
through the window.

Hero 1.0 — Pixar-Charakter mit animierter Pose

🟡 Fortgeschritten

Hero 1.0 ist besonders stark bei Charakter-Design und -Animation. „Dynamic action pose" + „character turnaround pose" geben dem Modell eine klare 3D-Räumlichkeitsreferenz, was zu konsistenten Charakter-Shots aus verschiedenen Winkeln führt. Humorvolle Kombination (Granatapfel als Bodybuilder) zeigt das kreative Potenzial. Am besten mit: Hero 1.0

Pixar-style 3D render, highly detailed character design. A muscular, buff pomegranate character with expressive face, dynamic action pose, studio lighting, soft shadows, vibrant red tones, 3D animation still frame, character turnaround pose

Runway Gen-4: „Volumetric Canopy Drone Pan"

🟡 Fortgeschritten

Drohnen-Shot mit synchronisierter Umgebungsanimation Nutzt Gen-4.2's Environmental Sync Parsing. Das Verknüpfen von Umgebungselementen (mist rolls, fungi pulse in sync) verankert Motion-Vektoren über Frames hinweg und reduziert den AI-Shimmer. Am besten mit: Runway Gen-4 Turbo (v4.2)

Cinematic wide-angle drone shot, slow pan right over an ancient temperate rainforest at blue hour. Volumetric mist rolls across moss-covered roots while bioluminescent fungi pulse softly in sync with the breeze. Shallow depth of field shifts dynamically from foreground ferns to upper canopy. 4K photorealism, high temporal coherence, natural color grading.

Kling AI 2.0: „High-Velocity Physics Rain"

🟡 Fortgeschritten

Hochgeschwindigkeits-Physik mit Dual-Phase Motion Solver Kling 2.0 überzeugt bei Fluid-Dynamics und Kollisions-Physik. Explizite Trennung von Subject-Motion und Environmental-Reaction triggert den Dual-Phase Motion Solver. --motion 0.85 ist der Community-getestete Sweet Spot gegen Frame-Smearing. Am besten mit: Kling 2.0

A lone cyberpunk courier sprinting across a neon-lit Shibuya crossing during heavy rainfall. Water droplets shatter and recoil realistically upon impact with a metallic trench coat. High-contrast cinematic lighting, motion blur on background traffic, sharp subject focus. 60fps equivalent, highly detailed wet-surface reflections. --negative_prompt "morphing, floating, inconsistent lighting"

Luma Dream Machine 3.0: „Golden Hour Wildlife"

🟡 Fortgeschritten

Dokumentarischer Wildlife-Tracking-Shot Luma 3.1 gewichtet naturalistische Pacing-Keywords stark (zero artificial acceleration). Explizites rim lighting + wind ripples dynamically forciert den neuen Ray-Tracing-Approximations-Renderer für konsistente Licht-Interaktion über bewegte Vegetation. Am besten mit: Luma Dream Machine 3.1

A continuous 7.5-second low-angle tracking shot following a red fox trotting through a sun-drenched meadow. Golden hour backlight creates distinct rim lighting on fur. Wind ripples tall grass dynamically as the fox passes. Documentary cinematography style, natural movement pacing, zero artificial acceleration.

Passende KI-Tools für Video-Prompts

Sora

Text-zu-Video, photorealistisch

OpenAI

Veo 2 (2)

Hochwertige Videos mit Kamera-Kontrolle

Google

Runway Gen-4 (Gen-4)

Professionelle Videoerstellung, Editing

Runway

Pika

Schnelle Animationen, Lip-Sync

Pika Labs

Kling

Längere Videos, realistische Bewegung

Kuaishou

Weiterlesen