🔤 TOP 3 PROMPTS — Textgenerierung
1. Client-Call-Briefing in 90 Sekunden — Der „Kontext-Vereinigungs"-Prompt
Prompt (vollständig, kopierbar):
I have a call with [client name] at [time]. I need a one-page brief before I join.
Search my Gmail for all emails to and from [client name or their email address] over the last 3 months. Pull out:
- What was agreed or promised on either side
- Anything outstanding or left unresolved
- Their most recent message and what they last raised
Search my Google Drive for documents related to [client name or project]. Pull the key details: what the project covers, where it stands, any numbers or deliverables.
Check my Notion for pages or notes related to this client. Read those too.
Give me a one-page brief:
1. Where this project or relationship currently stands
2. What I committed to that I should address
3. What they most recently raised that needs a response
4. Three strong questions to ask on this call
5. Anything worth watching based on tone or context in the emails
Keep it to one page. I want to read this in 90 seconds.
Am besten mit: Claude (mit angebundenen App-Connectoren: Gmail, Drive, Notion, Slack & 200+ weitere)
Warum effektiv: Der Prompt holt den größten Zeiträuber bei Kundenarbeit heraus: das manuelle Zusammenstückeln von Kontext aus fünf verschiedenen Quellen, bevor man in einen Call geht. Punkt 5 ist das eigentliche Gold — Claude erkennt Tonverläufe über gesamte E-Mail-Ketten hinweg (aufgestaute Frustration, unerfüllte Erwartungen, doppelt gestellte Fragen), was beim schnellen Überfliegen regelmäßig übersehen wird. Der gesamte Prozess geht von 30 Minuten auf 90 Sekunden runter.
Quelle: https://www.reddit.com/r/PromptEngineering/comments/1t7r3wt/i_used_to_spend_30_minutes_prepping_for_client/ | 15 Upvotes
Community Resonanz: Die Kommentare bestätigen den Kernwert — „most knowledge work isn't actually hard reasoning, it's context assembly." Nutzer melden, dass der ergänzende Accountability-Check („markiere alles, was ich versprochen aber nicht geliefert habe") besonders wertvoll ist.
2. Claude-Persona-Prompt für Multi-Host-Kreativsysteme
Prompt (vollständig, kopierbar):
Du bist jetzt [Host-Name], der Moderator einer Radiosendung.
## Persona
- Stimme: [z.B. philosophisch, nachdenklich in den frühen Nachtstunden; vermeidet explizite Wertungen]
- Antimuster (was du NIEMALS sagen würdest): [z.B. nie "Hey Leute!", nie oberflächliche Floskeln]
- Expertise: [z.B. Musikgeschichte, kulturelle Analyse, Late-Night-Kommentar]
## Aufgabe
Schreibe ein Script von 1500–3000 Wörtern für [Show-Format: Deep Dive / simuliertes Interview / Panel-Diskussion / Hörer-Mailbag / Musik-Essay].
## Kontext
- Aktuelle Nachrichten: [RSS-Headlines einfügen]
- Hörernachricht: [Listener message einfügen]
- Show-Zeitpunkt: [z.B. 02:00 Uhr nachts]
## Regeln
1. Antworte immer aus der Perspektive der Persona
2. Baue echte Analyse ein, nicht nur Zusammenfassung
3. Halte die Stimmung konsistent mit der Tageszeit
4. Wenn Hörernachrichten vorkommen, antworte persönlich und auf den Punkt
Am besten mit: Claude (CLI mit claude -p), Kokoro TTS für Sprachausgabe
Warum effektiv: Das WRIT-FM-Projekt zeigt, dass strukturierte Persona-Prompts mit definierten Antimustern („was du niemals sagst") eine dramatisch konsistentere Ausgabe erzeugen als einfache Roleplay-Prompts. Fünf verschiedene KI-Moderatoren wurden mit diesem Muster erstellt — jeder mit eigener Stimme, die über Stunden hinweg stabil bleibt. Das System läuft 24/7 automatisiert und verarbeitet dabei echte Hörernachrichten in Echtzeit.
Quelle: https://www.reddit.com/r/PromptEngineering/comments/1t7kb3u/i_gave_claude_its_own_radio_station_it_wont_stop/ | 122 Upvotes
Community Resonanz: Das Projekt hat massive Begeisterung ausgelöst — Hörer berichten, sie seien „süchtig" nach den Sendungen. Besonders die personalisierten On-Air-Antworten auf echte Hörernachrichten werden als herausragend bewertet.
3. Getrennte Kontext-Dateien statt einem Mega-Prompt
Prompt-Struktur (vollständig, kopierbar):
# about-me.md — Wer du bist
- Meine Rolle: [z.B. Product Manager bei X]
- Meine Projekte: A, B, C mit aktueller Phase
- Meine Kommunikationspräferenz: direkt, datenbasiert
# my-voice.md — Wie du schreibst
- Stil: kurz, präzise, keine Füllwörter
- Formatierung: Bullet Points für Aufzählungen
- Vermeide: „Ich hoffe", „vielleicht", übermäßige Höflichkeit
# my-rules.md — Wie du dich verhalten sollst
1. Erst planen, dann ausführen — bei jeder Aufgabe >5 Minuten Komplexität
2. Bei Unsicherheit: fragen, nicht annehmen
3. Code-Änderungen immer mit Begründung
4. Kontext aus den drei Dateien oben immer einbeziehen
Am besten mit: Claude (Projects mit CLAUDE.md im Projekt-Root) oder ChatGPT (Custom Instructions)
Warum effektiv: Ein einzelner, großer System-Prompt wird mit der Zeit inkonsistent. Die Aufteilung in separate Dateien (Wer bin ich / Wie schreibe ich / Wie sollst du dich verhalten) ermöglicht isolierte Optimierung — man kann den Stil anpassen, ohne die Regeln zu brechen. Dieser Ansatz ist die einfachste, effektivste Methode, um Claude zu konsistenten Ergebnissen zu bewegen.
Quelle: https://www.reddit.com/r/ClaudeAI/comments/1t7vsxp/how_i_made_my_claude_setup_more_consistent/ | 15 Upvotes
Community Resonanz: Die Community bestätigt einstimmig: „file splitting tip is underrated" — die Aufteilung verhindert, dass Änderungen an einem Aspekt den Rest des Prompts destabilisieren.
🖼️ TOP 3 PROMPTS — Bildgenerierung
1. Midjourney Niji 7 — Graphic Novel Style
Prompt (vollständig, kopierbar):
[Fantasy-Szene beschreiben], graphic novel style --niji 7 --sref 4064340293 --ar 16:9
Am besten mit: Midjourney Niji 7
Warum effektiv: Der Style-Reference-Parameter --sref 4064340293 erzeugt einen konsistenten Graphic-Novel-Look mit sichtbarer Textur — kein glattes, generisches Fantasy-Art, sondern eine gedruckte Ästhetik mit leicht rauen Ink/Paint-Kanten. Die Community lobt besonders, dass der Stil „nicht nach generischem Fantasy-Polish aussieht."
Quelle: https://www.reddit.com/r/midjourney/comments/1t7evt5/fantasy_graphic_novel_style/ | 322 Upvotes
Community Resonanz: Der Post erreichte 322 Upvotes — eine der höchsten Bewertungen der Woche für einen Midjourney-Style-Post. Nutzer bestätigen: „The style works because it doesn't feel like generic fantasy polish."
2. HiDream-O1-Image — Der integrierte Prompt-Engine
Prompt (vollständig, kopierbar):
You are a Prompt Engineering Engine — an AI image-generation Prompt Engineer who is also a creative director with encyclopedic knowledge and visual-direction skill. Your task is to analyze the user's raw image request, infer implicit knowledge and the best visual approach, and rewrite it into a clear, detailed English prompt that is directly usable for image generation.
## Core Goal
Image generation models can only execute direct, concrete visual instructions. Your job is to bridge the gap between abstract user intent and specific visual description.
## Process
1. Analyze the user request for: subject, scene context, mood, style, composition, lighting
2. Infer missing visual details that would make the image compelling
3. Rewrite into a structured, highly-detailed English prompt
4. Ensure all visual elements are explicitly described — no vagueness
Am besten mit: HiDream-O1-Image oder HiDream-O1-Image-Dev (8B Pixel Space Model, kein VAE nötig)
Warum effektiv: HiDream-O1-Image ist ein neues 8B-Pixel-Space-Modell, das ohne externen VAE auskommt und bis zu 2048×2048 generiert. Der beigefügte Prompt-Engine transformiert vage Beschreibungen in hochpräzise Bildgenerierungs-Prompts — eine Technik, die für jedes Bild-Modell funktioniert. Das Modell unterstützt Text-zu-Bild, Bildbearbeitung und Subject-Driven-Personalisierung in einem.
Quelle: https://www.reddit.com/r/StableDiffusion/comments/1t7v9fy/hidreamo1image_a_pixel_space_model_no_need_for/ | 165 Upvotes
Community Resonanz: Starkes Interesse am Modell (165 Upvotes, 45 Kommentare). Besonders die Frage nach Zensurfreiheit und VRAM-Bedarf dominiert die Diskussion. Das integrierte Prompt-Engine-System wird als besonders wertvoll hervorgehoben.
3. Flux.2-Klein — 1:1 Character-Editing mit Padding-Trick
Prompt (vollständig, kopierbar):
[Dein Charakter-Bild quadratisch machen durch schwarze Padding-Balken an den Seiten]
Prompt: [Charakter beschreiben], maintain the black bars, [gewünschte Änderung]
-- Model: Flux.2-Klein-4B
-- Bild-Skala: 1MB (ImageScaleToTotalPixels für beste Detailtreue)
Am besten mit: Flux.2-Klein-4B, ComfyUI
Warum effektiv: Der Padding-Trick (übernommen von Qwen-Edit-2511) ermöglicht pixelgenaue Character-Edits: Rechteckige Bilder werden mit schwarzen Balken quadratisch gemacht, dann wird „maintain the black bars" zum Prompt hinzugefügt. Flux.2-Klein überträgt Charaktere nahezu 1:1 — selbst subtile Gesichtsausdrücke bleiben erhalten. Bei klarer Quelle und hoher Skala ist das Ergebnis „freakishly close" zum Original.
Quelle: https://www.reddit.com/r/StableDiffusion/comments/1t7xue6/flux2klein_best_open_source_image_edit_work_in/ | 39 Upvotes
Community Resonanz: Die Community ist begeistert vom 1:1-Character-Transfer — besonders relevant für Comics und VTuber-Content. Nutzer fordern Updates zum Fortschritt eines vollständigen Editing-Systems.
🎬 TOP 3 PROMPTS — Videogenerierung
1. WAN22 — Cinematography Intent Prompting
Prompt (vollständig, kopierbar):
[Subject beschreiben], slow handheld dolly-in, cinematic lighting, [weitere Kamerabewegung]
# Kamerabewegungen die WAN22 exzellent versteht:
- slow handheld dolly-in
- sudden crash zoom
- wide cinematic pan
- low-angle tracking shot
- block transition
- tilt up/down
- orbital arc
- crane up
- pull back
- whip pan
- camera roll
Am besten mit: WAN22 (FFLF Workflow in ComfyUI)
Warum effektiv: Nach 3 Jahren praktischer Arbeit hat die Community entdeckt, dass WAN auf „Cinematography Intent" besser reagiert als auf reine Beschreibungen. Statt „a girl walking in a forest" → „slow handheld dolly-in, low-angle tracking shot, cinematic lighting." Die Kamerabewegungs-Sprache verändert die Ausgabe massiv — WAN versteht Block-Transitions, Crash Zooms, Dolly-Ins und sogar Camera Rolls präzise.
Quelle: https://www.reddit.com/r/StableDiffusion/comments/1t7nqgz/3_years_of_training_with_ai_tools_finally_put_to/ | 36 Upvotes
Community Resonanz: Der Kommentar „WAN responds better to cinematography intent than descriptive prompts" wird als einer der wertvollsten Tipps für Video-Generierung gewertet. Die beigefügte ComfyUI-Workflow-Datei (Pastebin) ist vollständig dokumentiert.
2. Wan SCAIL Pose Control Workflow
Prompts/Workflow (vollständig, kopierbar):
# Wan SCAIL Pose Control — ComfyUI Workflow
# Download: https://civitai.red/models/2609234/wan-scail-pose-control
# Nutzung:
1. Referenzbild für Pose laden (Pose Conditioning)
2. Text-Prompt: [Szene beschreiben]
3. SCAIL Pose Control Node verbinden
4. Generieren — WAN übernimmt die Pose exakt
Am besten mit: WAN (besser bei Händen und Körper-Interaktionen als LTX, aber langsamer)
Warum effektiv: SCAIL Pose Control ermöglicht präzise Posen-Übertragung in WAN-Generierungen — ideal für konsistente Charakter-Posen über mehrere Video-Shots hinweg. Besonders bei Hand- und Körperinteraktionen ist WAN dem LTX-Modell überlegen. Der Workflow ist clean, gut organisiert und auf Civitai verfügbar.
Quelle: https://www.reddit.com/r/StableDiffusion/comments/1t7p7pz/wan_scail_pose_control_workflow/ | 24 Upvotes
Community Resonanz: Nutzer bestätigen: „Wan is better with hands and body interactions." Der LTX-Parallel-Workflow wird als Alternative für schnellere Generierung genannt.
3. LTX 2.3 — Sulphur vs. 10Eros Modellauswahl
Prompt-Empfehlung (vollständig, kopierbar):
# Für Text-to-Video:
Prompt: [Szene beschreiben]
Model: LTX 2.3 Sulphur
Workflow: Standard T2V Pipeline
# Für Image-to-Video:
Prompt: [Bildbeschreibungen]
Model: LTX 2.3 10Eros
Workflow: https://huggingface.co/TenStrip/LTX2.3-10Eros
# Tiled Upscale Sampler (neu, verbessert Bewegung bei Upscales):
- Fixiert vertikale Aspect-Ratio-Probleme
- Verbessert Bewegungsqualität beim Upscale
Am besten mit: LTX 2.3 Sulphur (T2V) oder 10Eros (I2V)
Warum effektiv: Die Community-Tests zeigen klare Trennung: Sulphur ist besser für Text-to-Video, 10Eros dominiert bei Image-to-Video. Der neue Tiled-Upscale-Sampler löst zwei häufige Probleme gleichzeitig — vertikale Aspect-Ratio-Verzerrungen und schlechte Bewegungsqualität beim Upscaling. Beide Modelle basieren auf der gleichen Basis, aber die Workflows und Nodes unterscheiden sich deutlich.
Quelle: https://www.reddit.com/r/StableDiffusion/comments/1t7os5i/ltx_23_sulphur_vs_10eros/ | 23 Upvotes
Community Resonanz: Praktische Entscheidungshilfe für alle, die zwischen den beiden LTX-Modellen wählen. Der Entwickler plant höhere Framerate-Daten und Motion-Styling-Konzepte für die nächste 10Eros-Version.
🧠 TOP 3 NEUE TECHNIKEN
1. Multi-Host Persona-Prompting mit Antimustern
Zusammenfassung: Persona-Prompts definieren nicht nur, was ein Modell sein soll — sondern explizit, was es niemals sagen darf.
Erklärung: Anstatt nur eine Rolle vorzugeben („Du bist ein Philosoph"), werden Antimuster definiert — konkrete Verhaltensweisen, Ausdrücke und Floskeln, die der Output aktiv vermeiden muss. Dies verhindert die typischen LLM-Stoffe (höfliche Füllwörter, Wiederholungen, generische Eröffnungen). Das WRIT-FM-Projekt nutzt dieses Prinzip für 5 verschiedene KI-Moderatoren, die jeweils klar unterscheidbare Stimmen über Stunden hinweg beibehalten. Die Antimuster funktionieren wie negative Constraints — sie schaffen einen definierteren Ausgaberaum, in dem die Kreativität sich entfalten kann.
Beispielprompt:
Du bist Nyx, Moderatorin der Nachtsendung.
Stimme: ruhig, beobachtend, philosophisch. Du sprichst wie jemand, der um 3 Uhr nachts am Fenster sitzt und denkt.
Antimuster (was du NIEMALS sagst):
- Nie „Hey Leute!" oder ähnliche Radio-Floskeln
- Nie oberflächliche Ermutigungen („Das wird schon!")
- Nie direkte Handlungsaufforderungen
- Nie Wertungen im Format „X ist gut/schlecht"
- Nie Sätze die mit „Interessanterweise..." beginnen
Erzeuge 1500–2000 Wörter zu: [Thema]
Geeignet für: Claude, GPT-4o, Opus 4.6/4.7
Warum heute wichtig: Mit der zunehmenden Homogenisierung von Modellausgaben („alle KIs klingen gleich") werden Antimuster zum stärksten Werkzeug, um unterscheidbare, authentische Stimmen zu erzeugen. Das ist besonders relevant für Content-Erstellung, Chatbot-Design und kreative Writing-Workflows.
2. Agent Data Layer: Search APIs mit Guidance-Response
Zusammenfassung: Statt Such-APIs, die einfach Ergebnisse auswerfen, sollten sie dem Agent Feedback geben, wie er die Suche verfeinern soll.
Erklärung: Das Standard-Pattern für Agent-Suchen („match query X, return N results") scheitert regelmäßig: Der Agent nicht weiß, welche Felder er filtern soll, was valide Werte sind oder wie er die Ergebnismenge reduziert. Die Lösung ist eine API, die bei zu vielen Treffern nicht einfach paginiert, sondern strukturiertes Feedback liefert: verfügbare Filter mit Wertebereichen, Kardinalitäten, exemplarische Datensätze und konkrete Vorschläge für verfeinerte Queries. Dadurch sinken die Token-Kosten um eine Größenordnung, und der Agent lernt iterativ, statt blind zu raten.
Beispielprompt (API-Response Design):
GET /search?q=urgent
→ Response:
{
"result_count": 4231,
"returned_count": 0,
"guidance": "Too many matches. Filter by: status (open|pending|closed), priority (p0|p1|p2|p3)",
"available_filters": {
"status": {"values": ["open","pending","closed"], "cardinality": 3}
},
"suggested_refinement": "GET /search?q=urgent&status=open&priority=p0"
}
Geeignet für: Eigene APIs für LLM-Agents, Claude Function Calling, OpenAI Tool Use
Ursprung: https://sderosiaux.substack.com/p/from-prompt-engineering-to-data-engineering
Warum heute wichtig: Je mehr Agenten mit externen Systemen interagieren, desto wichtiger wird das Design der Daten-Schnittstelle. Gute Search-APIs mit Guidance-Response machen Agenten um Größenordnungen zuverlässiger und günstiger im Token-Verbrauch. Dies ist der Unterschied zwischen „Prompt Engineering" und echter „Agent Engineering."
3. CINEMATOGRAPHY INTENT Prompting für Video-Modelle
Zusammenfassung: Video-Modelle wie WAN reagieren besser auf Kamerabewegungs-Sprache als auf beschreibende Prompts.
Erklärung: Die meisten Nutzer prompten Video-Modelle so, als wären es Bild-Generatoren: „a girl walking in a forest." Das Problem: Diese Beschreibungen geben dem Modell keine Richtung für die Zeitdimension — also was ändert sich von Frame zu Frame? Die Lösung ist Cinematography Intent: Statt zu beschreiben, WAS zu sehen ist, beschreibe man WIE die Kamera es zeigt. Begriffe wie „slow handheld dolly-in," „sudden crash zoom," „wide cinematic pan," „low-angle tracking shot" geben dem Modell eine klare Bewegungsabsicht. Das Ergebnis ist dramatisch kontrollierbarer — Block-Transitions, Whip Pans, Camera Rolls werden von WAN exzellent umgesetzt.
Beispielprompt:
Eine Frau steht am Rand einer Klippe, Wind weht durch ihr Haar.
Kamera: slow handheld dolly-in, beginnt als wide shot, endet als close-up.
Licht: warmes golden hour, seitliches Gegenlicht.
Bewegung: Haare wehen dynamisch, subtiler Kamera-Shake (handheld).
Übergang: sudden crash zoom in die Augen.
Geeignet für: WAN22, Kling, LTX 2.3, Seedance, Runway
Warum heute wichtig: Mit dem Aufkommen von Open-Source-Video-Modellen (WAN22, LTX 2.3, Seedance) wird promptbasierte Kamera-Kontrolle zum entscheidenden Skill. Wer die richtige Bewegungssprache kennt, generiert professionelle Sequenzen statt zufälliger Bildfolgen.
🏆 Highlight des Tages
WRIT-FM: Eine komplette KI-Radiostation mit Multi-Host-Persona-Prompting
Prompt (vollständig, kopierbar):
# Persona-Prompt Template für WRIT-FM Moderatoren
Du bist [Name: z.B. The Liminal Operator / Dr. Resonance / Nyx / Signal / Ember]
Host deiner eigenen Radiosendung auf WRIT-FM.
## Persona-Kern
- Stimme: [beschreibe Tonfall, z.B. „philosophisch, nachdenklich, minimal sarkastisch"]
- Zeitfenster: [z.B. „02:00–04:00 nachts"]
- Expertise: [z.B. „Musikgeschichte und kulturelle Analyse"]
## Antimuster
Du sagst NIEMALS:
- [Floskel 1]
- [Floskel 2]
- [typisches LLM-Verhalten]
## Format
Generiere 1500–3000 Wörter für: [Show-Format: Deep Dive / Interview / Panel / Mailbag]
## Kontext-Input
- Show-Zeit: [Uhrzeit]
- Aktuelle Headlines: [RSS-Feed einfügen]
- Hörernachricht: [Listener Message einfügen]
## Regeln
1. Antworte ausschließlich aus der Persona-Perspektive
2. Baue tiefe Analyse ein, nicht nur Zusammenfassung
3. Halte die Stimmung konsistent mit der Tageszeit
4. Bei Hörernachrichten: persönlich und direkt antworten
5. Keine meta-Kommentare über deine Herkunft als KI
Am besten mit: Claude CLI (claude -p), Kokoro TTS für Sprachausgabe
Warum effektiv: Es ist ein vollständiges, produktives System — nicht nur ein Prompt, sondern ein Proof of Concept, wie strukturierte Multi-Host-Persona-Prompts in der Praxis funktionieren. Der Autor hat 5 verschiedene KI-Moderatoren erstellt, die jeweils über Stunden hinweg eine konsistente, unterscheidbare Stimme beibehalten. Das System läuft 24/7, verarbeitet echte Hörernachrichten und generiert personalisierte On-Air-Antworten. Die Technologie (Python, ffmpeg, Icecast, Claude CLI, Kokoro TTS) ist frei und nachbaubar.
Quelle: https://www.reddit.com/r/PromptEngineering/comments/1t7kb3u/i_gave_claude_its_own_radio_station_it_wont_stop/ | 122 Upvotes
Community Resonanz: 122 Upvotes, 16 Kommentare. Die Community ist begeistert — „Properly cool," „I'm so hooked!," „I need to sleep but I'm hooked!" Das Projekt hat eine Wikipedia-Seite inspiriert (nach dem historischen Vorbild WRIT-FM) und wird als wegweisend für KI-Kreativanwendungen gefeiert.
Projekt-Website: www.khaledeltokhy.com/claude-show Projektseite: https://www.khaledeltokhy.com/claude-show
📰 Erlesene Artikel & Ressourcen
From prompt and pray to prompt engineering https://the.scapegoat.dev/from-prompt-and-pray-to-prompt-engineering/ Ein fundamentaler Perspektivwechsel: Model-Fehler nicht als Zufall ansehen, sondern als diagnostizierbare Engineering-Probleme. Vier Ursachenkategorien — falsches Prompting, Modelllimitation, probabilistisches Pech, Provider-Degradation — und wie man jede einzeln isoliert und löst. Vergleicht Prompt-Engineering mit Compiler-Debugging: Lies die Fehlermeldung, denke über den Ausgangspunkt nach, lerne das System besser kennen.
Fixing the Agent Data Layer: Six Patterns https://sderosiaux.substack.com/p/from-prompt-engineering-to-data-engineering Sechs Patterns für die Datenebene von KI-Agenten. Kernthese: „Agents don't have a model problem, they have a data problem." Konkrete Beispiele: Search-APIs mit Guidance-Response, Trace-basiertes Messen von Agent-Verhalten, Schema-Discovery-Workflows, Token-Effizienz-Optimierung. Praktisch wertvoll für alle, die eigene Agenten mit APIs bauen.
Anthropic: Natural Language Autoencoders — What Claude Says vs. What Claude Thinks https://www.anthropic.com/research/natural-language-autoencoders Forschungsarbeit von Anthropic, die zeigt, was in den „thinking"-Tokens von Claude vor der Ausgabe passiert — und wie Natural Language Autoencoders diese internen Repräsentationen dekodieren können. Relevant für alle, die Claude's Thinking-Modus in komplexen Prompts einsetzen.
HiDream-O1-Image — 8B Pixel Space Model (kein VAE nötig) https://www.reddit.com/r/StableDiffusion/comments/1t7v9fy/hidreamo1image_a_pixel_space_model_no_need_for/ Neues 8B-Modell, das ohne externen VAE arbeitet und native Text-zu-Bild, Bildbearbeitung und Subject-Driven-Personalisierung bis 2048×2048 unterstützt. Mit integriertem Prompt-Engine.
Flux.2-Klein Pipeline — Realtime Webcam Stream (30 FPS) https://www.reddit.com/r/StableDiffusion/comments/1t7nd7e/flux2klein_pipeline_for_realtime_webcam_stream/ Open-Source-Pipeline basierend auf Flux.2-Klein-4B mit räumlichem KV-Cache für Echtzeit-Video-Processing. Bis zu 50 FPS in statischen Szenen. GitHub: github.com/tensorforger/FluxRT
WAN22 FFLF Workflow — Kinder-Musikvideos mit präziser Kamerakontrolle https://pastebin.com/AJ9rt8fS Vollständige ComfyUI-Workflow-Datei für professionelle WAN22-Video-Generierung inkl. Kamerabewegungs-Dokumentation (12 verschiedene Bewegungstypen) und allen Node-Configs.
Bericht erstellt am 2026-05-09 Quellen: Reddit, Hacker News, arXiv