📅

🇨🇭 Prompt Intelligence Daily — 4. Juli 2026

🏆 Highlight

### Jamesob's Guide to Running SOTA LLMs locally (368↑, 167 Kommentare) https://github.com/jamesob/local-llm Das meistdiskutierte LLM-Thema der letzten 24 Stunden. Ein praktischer, vollständig dokumentierter Guide zum Betrieb von SOTA-Modellen lokal — von der $2K-Einsteigerkonfiguration (2× RTX 3090, 48GB VRAM, Qwen3.6-27B) bis zur $50K-Maschine (4× RTX PRO 6000 Blackwell, 384GB VR...

🇨🇭 Prompt Intelligence Daily — 4. Juli 2026

🔤 TOP 3 PROMPTS — Textgenerierung

1. Model-Delegation nach eigenem Ermessen

Prompt (vollständig, kopierbar):

For all coding tasks use your judgement to decide an appropriate lower power model and run that in a subagent.

Am besten mit: Claude Fable 5 / Claude Opus

Warum effektiv: Statt jedes Coding-Task im teuren Hauptmodell zu verarbeiten, lässt dieser Prompt das Modell selbst entscheiden: substantielle Implementierungen gehen an Sonnet, triviale/mechanische Änderungen an Haiku. Das Hauptmodell behält Urteilskraft, Review und Synthese. Simon Willison berichtete, dass sein Fable-Kontingent danach deutlich langsamer schrumpfte bei gleicher Produktivität. Der Prompt wird als CLAUDE.md-Memorystore gespeichert und wirkt projektübergreifend.

Quelle: https://simonwillison.net/2026/Jul/3/ | Direkte Erfahrung von Simon Willison, 3. Juli 2026

Community Resonanz: Der Prompt wurde vom Claude Code Team auf dem AIE Fireside Chat als Best Practice empfohlen — „lass Fable selbst entscheiden, statt jeden Schritt vorzugeben."


2. DSPy-gestützte System-Prompt-Optimierung für SQL-Agenten

Prompt (vollständig, kopierbar):

Include column names in the schema listing alongside table names.
Do NOT call describe_table if you already have column information from the schema listing.
When unsure about column names, make your best guess and validate with a SELECT query.

Am besten mit: GPT-4.1 mini/nano, Claude Sonnet 5

Warum effektiv: Simon Willisons Experiment mit DSPy zur Evaluation von Datasette Agents System-Prompts deckte ein kritisches Muster auf: Wenn der Prompt sagt „rufe describe_table nicht auf, wenn du die Info schon hast" aber gleichzeitig nur Tabellennamen ohne Spalten liefert, geraten Agenten in Fehler-Retry-Schleifen mit geratenen Spaltennamen. Die Lösung: Spaltennamen direkt in die Schema-Liste aufnehmen. DSPy evaluierte automatisch mit GPT-4.1 mini und identifizierte diese Optimierung aus Traces.

Quelle: https://simonwillison.net/2026/Jul/2/ | 2. Juli 2026

Community Resonanz: DSPy-basierte Prompt-Evaluation als asynchroner Claude-Code-Task demonstriert den praktischen Wert von automatisierten Prompt-Tests vor dem Deployment.


3. URL-Kontext-Steering für LLM-Ausgaben

Prompt (vollständig, kopierbar):

Using what you know about the techniques and patterns described at https://skills.sh/super-security-reviewer, perform a deep security analysis of the following code:

[Code here]

Am besten mit: Claude Fable 5, GPT-5.5

Warum effektiv: Paul Kinlans systematische Studie (22 Minuten Research, signifikante API-Kosten) zeigt: URLs im Prompt beeinflussen die Ausgabe NUR wenn die URL und ihr Inhalt im Trainingsdaten-Corpus des Modells waren. Trainierte Crawler (ClaudeBot, GPTBot) holen Seiten-Assets, führen aber KEIN JavaScript aus — JS-gerenderte Inhalte sind nicht im Modell verfügbar. Nur OpenAIs OAI-SearchBot führt JS aus. Praktische Implikation: URLs zu statischen Seiten als Kontext-Referenz funktionieren, JS-Apps nicht. Das erspart das Embedden großer Kontext-Blöcke.

Quelle: https://aifoc.us/influencing-model-output-with-urls/ | 2 Upvotes, Hacker News 4. Juli 2026

Community Resonanz: „Wenn deine Seite JS zum Rendern braucht, ist der Content sehr wahrscheinlich nicht im Modell — das kann man auch als Feature sehen."


🖼️ TOP 3 PROMPTS — Bildgenerierung

1. Gemma 4 Vision für Screen-Analyse-Prompts

Prompt (vollständig, kopierbar):

Analyze this screenshot and return a structured JSON with the following fields:
- app_name: Detect the active application
- activity_type: Categorize the user's current activity (e.g., "coding", "reading", "browsing", "communication")
- mood: Infer the emotional tone from visual cues
- scene_description: Brief description of the visual content
- key_elements: List of UI elements, text, or objects visible
- spatial_regions: Array of {region, description} dividing the screen into logical areas

Am besten mit: Gemma 4 (multimodal: Vision + Audio + Reasoning)

Warum effektiv: ScreenMind nutzt Gemma 4 für lokale, private Bildschirm-Analyse. Der strukturierte JSON-Prompt extrahiert App-Erkennung, Aktivitätskategorie, Stimmung und räumliche Regionen — alles lokal, ohne Cloud. Gemma 4 ist eines der wenigen Modelle, das Vision, Audio und Reasoning in einem einzigen Modell vereint. Der Prompt erzeugt reproduzierbare Ergebnisse für die nachgelagerte RAG-Suche über Screen-Verlauf.

Quelle: https://github.com/ayushh0110/ScreenMind | 10 Upvotes, Hacker News 4. Juli 2026

Community Resonanz: „Privacy-first Microsoft Recall Alternative" — 100% lokal, Open-Source. HN-Diskussion betont den Praxiswert gegenüber Cloud-Lösungen.


2. PageAgent: Natürlichsprachliche Web-GUI-Steuerung

Prompt (vollständig, kopierbar):

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen3.5-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: 'your-api-key',
    language: 'en-US',
})

await agent.execute('Click the login button, then fill in the form with my credentials and submit')

Am besten mit: Qwen 3.5 Plus, GPT-4o

Warum effektiv: Alibaba's Page Agent (22.750⭐ GitHub Trending) ist ein JavaScript-in-page GUI-Agent, der Webinterfaces per Natursprache steuert — ohne Browser-Extension, ohne Python, ohne Headless-Browser. Das DOM wird textbasiert verarbeitet, keine Screenshots nötig. Der Prompt agent.execute('...') wird in DOM-Operationen übersetzt. Einzeilige Integration via <script>-Tag möglich. Unterstützt Multi-Page-Aufgaben via Chrome Extension und MCP-Server.

Quelle: https://github.com/alibaba/page-agent | 22.750⭐, GitHub TrendingDaily 4. Juli 2026

Community Resonanz: Eines der meistbeachteten Repos im Daily Trending — MIT-Lizenz, textbasiertes DOM, kein multimodales LLM nötig.


3. AI-Code-Stil-Prompt: Token-Effiziente API-Direktiven

Prompt (vollständig, kopierbar):

When writing code:

DO:
- Use native library APIs instead of string-based workarounds
- Prefer type-safe method calls over string parsing
- Use built-in error types with proper error handling
- Implement validation with native schema validators

NOT:
- Don't parse JSON responses with string matching
- Don't build custom validation when schema validators exist
- Don't use regex for HTML/XML parsing

Am besten mit: Claude Sonnet 5, GPT-5.5, Qwen 3.6

Warum effektiv: Basierend auf jimmont.coms Analyse (referenziert in HN-Diskussionen): Native-API-Direktiven in Coding-Prompts sparen 85-92% Output-Tokens. Das „DO THIS / NOT THAT"-Pattern ist deutlich token-effizienter als beschreibende Anweisungen. Die Community-Debatte um jamesobs Local-LLM-Guide (368↑ HN) bestätigte: 8-bit Quantisierung ist das Minimum für zuverlässiges Coding — und Token-Effizienz entscheidet über praktische Einsetzbarkeit.

Quelle: https://github.com/jamesob/local-llm | 368 Upvotes, Hacker News 4. Juli 2026

Community Resonanz: 167 Kommentare — die HN-Diskussion drehte sich stark um Quantisierung (8-bit Minimum), Token-Kosten und die Realität von REAP-ge pruning vs. Benchmark-Claims.


🎬 TOP 3 PROMPTS — Videogenerierung

1. Shot-Scraper Video: Agent-Arbeitsdemos automatisch aufnehmen

Prompt (vollständig, kopierbar):

#!/bin/bash
# Install shot-scraper
pip install shot-scraper

# Record a video demo of agent work
shot-scraper video \
  --url "https://my-app.local/demo" \
  --output demo.mp4 \
  --width 1280 --height 720 \
  --actions << 'EOF'
- wait: 2000
- click: "#start-demo"
- wait: 5000
- screenshot: step1.png
- fill: "#input-name" with "Test User"
- click: "#submit"
- wait: 3000
- screenshot: result.png
EOF

Am besten mit: Playwright-basierte CLI, Claude Code als Script-Generator

Warum effektiv: Simon Willisons shot-scraper-Tool kann jetzt Videos aufnehmen — ideal um Agent-Arbeitsdemos automatisch zu erzeugen. Der CLI-Prompt kombiniert Browser-Aktionen (Klicks, Eingaben, Screenshots) mit Timing-Controls in einer YAML-ähnlichen Syntax. Perfekt für Dokumentationen, Test-Demos und Agent-Verhaltensaufzeichnungen ohne manuelle Screen-Recorder.

Quelle: https://simonwillison.net/2026/Jun/30/shot-scraper-video/ | 4. Juli 2026 im Feed

Community Resonanz: Praktisches Tool für die wachsende Anforderung, Agent-Ausgaben visuell dokumentieren zu müssen.


2. Video-DOM-Interaction als „Agent-Video" Pattern

Prompt (vollständig, kopierbar):

Du bist ein Web-UI-Testing-Agent. Führe folgende Sequenz aus:

PHASE 1 — Navigation:
1. Öffne die Test-URL
2. Warte bis das DOM vollständig geladen ist (document.readyState === 'complete')
3. Erstelle eine Liste aller interaktiven Elemente mit ihrer Rolle

PHASE 2 — Interaktion:
4. Klicke den primären Call-to-Action
5. Validiere: URL hat sich geändert ODER neuer Content ist sichtbar
6. Fülle das erste Input-Feld mit Testdaten
7. Screenshot des aktuellen Zustands

PHASE 3 — Ergebnis:
8. Vergleiche den erwarteten mit dem tatsächlichen Zustand
9. Erstelle einen JSON-Report: {passed, failed_screenshots[], dom_changes[]}
10. Bei Fehler: Screenshot + DOM-Snapshot speichern

Am besten mit: Qpilot (AI-Agent für Browser-Tests), Playwright + GPT-5.5

Warum effektiv: Qpilot (Show HN, 4. Juli 2026) führt plain-text Test-Cases in echten Browsern aus. Das 3-Phasen-Pattern (Navigation → Interaktion → Validierung) ist das Standard-Schema für Browser-Agent-Prompts. Besonders wertvoll: Screenshots bei Fehlern + DOM-Snapshots für Root-Cause-Analyse. Open-Source auf GitHub.

Quelle: https://github.com/broxhq/qpilot | Show HN 4. Juli 2026

Community Resonanz: Erweitert das Testing-Paradigma von reinem Code-Testing auf visuelle Browser-Validierung.


3. Ultracodex: Claude Ultracode-Workflows auf Codex-Agenten

Prompt (vollständig, kopierbar):

# Ultracodex Workflow-Spezifikation
# Generiert von Claude Fable 5, ausgeführt durch Codex-Agenten

{
  "name": "implement-feature",
  "steps": [
    {
      "type": "plan",
      "model": "claude-fable-5",
      "prompt": "Create a detailed implementation plan for: {feature_description}"
    },
    {
      "type": "implement",
      "model": "codex-agent",
      "prompt": "Execute step {n}: {step_description}. File: {path}",
      "allow": ["python3 -m pytest*", "git add*", "git diff*"]
    },
    {
      "type": "verify",
      "model": "claude-sonnet-5",
      "prompt": "Review the implementation. Check for: correctness, edge cases, test coverage."
    }
  ],
  "handoff": "seamless"
}

Am besten mit: Claude Fable 5 (Planung) + Codex (Implementierung) + Sonnet 5 (Review)

Warum effektiv: Ultracodex (3↑ HN) delegiert Claude's Ultracode-Workflows an Codex-Agenten — Fable 5 plant und verifiziert, Codex implementiert. Das löst das Fable-Kontingent-Problem: Statt alle Tokens im teuren Modell zu verbrennen, wird die Implementierung an Codex ausgelagert. Das Workflow-JSON ist das zentrale „Prompt-Dokument" das beide Agenten orchestriert.

Quelle: https://github.com/YuanpingSong/ultracodex | 3 Upvotes, Hacker News 4. Juli 2026

Community Resonanz: „I want Fable to focus on high-value tasks such as planning or verification, and not burn tokens on mundane implementation work."


🧠 TOP 3 NEUE TECHNIKEN

1. DSPy-basierte Prompt-Evaluation

Zusammenfassung: Automatisierte Evaluation und Optimierung von System-Prompts durch DSPy-Framework statt manuellem Trial-and-Error.

Erklärung: Anstatt System-Prompts manuell zu iterieren, lässt ein Prompt wie „Pip install dspy, evaluate and improve the main system prompts" Claude Fable 5 automatisch DSPy-Traces ausführen. DSPy identifiziert systematisch: (1) Wo Prompts zu Fehler-Retry-Schleifen führen, (2) Welche Instruktionen kontraproduktiv sind, (3) Welche Schema-Informationen fehlen. Simon Willison demonstrierte dies für Datasette Agents: Die Anweisung „don't call describe_table if you already have the information" war kontraproduktiv, weil die Schema-Liste nur Tabellennamen ohne Spalten lieferte — Agenten gerieten in guessing-Loops. DSPy evaluiert mit günstigen Modellen (GPT-4.1 mini/nano) und identifiziert optimale Prompt-Strukturen aus Trace-Daten.

Beispielprompt:

Use DSPy to evaluate and improve the system prompts used by my AI agent.
Steps:
1. Collect failure traces where the agent made errors
2. Identify the prompt instructions that led to those failures
3. Generate improved prompt variants
4. Test each variant against the failure traces
5. Report which changes reduced error rates and by how much

Geeignet für: GPT-4.1 mini/nano, Claude Sonnet 5 (Evaluation), Fable 5 (Forschungsauftrag)

Ursprung: https://simonwillison.net/2026/Jul/2/ | Simon Willison, 2. Juli 2026

Warum heute wichtig: DSPy verwandelt Prompt-Optimierung von „Bauchgefühl + manuelles Testen" in einen messbaren, reproduzierbaren Prozess. Die Erkenntnis: selbst kleine Prompt-Änderungen („include column names") können ganze Retry-Schleifen eliminieren. Besonders relevant jetzt, da Fable-Preise steigen und Token-Effizienz existenziell wird.


2. Skillsaw: Linting für Agent-Kontext-Dateien

Zusammenfassung: Over 40 Regeln zum automatischen Prüfen und Korrigieren von CLAUDE.md, AGENTS.md, SKILL.md und Agent-Skill-Dateien.

Erklärung: Skillsaw (skillsaw.org) ist der erste Linter speziell für Dateien die AI-Agenten steuern. Er erkennt: schwache Formulierungen („try to", "consider"), tautologische Instruktionen, Attention-Dead-Zones (wichtige Infos im Token-Fenster wo der Agent nicht mehr hinschaut), eingebettete Secrets, Widersprüche und strukturelle Probleme. Das Tool autofixt deterministisch (skillsaw fix) und kann in CI integriert werden. Die Regeln basieren auf Content-Intelligence-Research — nicht auf Heuristiken. Unterstützt AgentSkills-Plugin-Struktur, MCP-Regeln und Custom Rules.

Beispielprompt:

$ skillsaw lint .
$ skillsaw fix --plugin AgentSkills
$ skillsaw add plugin my-company-rules

Konfiguriert in .skillsaw.yml:

rules:
  no-tautology: error
  no-weak-language: warn
  attention-dead-zone: error
  embedded-secret: fatal
  contradiction: error

Geeignet für: Alle Coding-Agenten (Claude Code, Codex, Cursor) die mit CLAUDE.md/AGENTS.md arbeiten

Ursprung: https://skillsaw.org/ | Show HN 4. Juli 2026

Warum heute wichtig: Mit der Explosion von Agent-Skill-Dateien (agentskills/agentskills: 22.180⭐ im GitHub Trending) wird die Qualität dieser Dateien zum Engpunkt. Skillsaw automatisiert die Qualitätskontrolle — ähnlich wie ESLint für JavaScript, aber für Agent-Kontext statt Code.


3. URL-as-Kontext: Latent-Space-Abruf via URL im Prompt

Zusammenfassung: URLs im Prompt können LLM-Ausgaben beeinflussen — aber nur wenn die URL und ihr Inhalt im Trainingskorpus des Modells waren.

Erklärung: Paul Kinlans empirische Studie beantwortet eine praktisch relevante Frage: Kann man statt großer Kontext-Blöcke einfach eine URL in den Prompt schreiben und das Modell „weiß" was gemeint ist? Ergebnis: JA, aber mit wichtiger Einschränkung. URLs funktionieren nur als Kontext-Referenz, wenn (a) die Seite im Training war und (b) statisch gerendert ist (kein JS). ClaudeBot und GPTBot holen HTML-Assets, führen aber kein JavaScript aus. Nur OAI-SearchBot rendert JS. Praktisch heißt das: URLs zu Blogposts, Dokumentationen und GitHub-Seiten funktionieren als Kurzreferenz; URLs zu SPAs (React, Angular) nicht. Dies ermöglicht extrem token-effiziente Prompts: Statt 5000 Zeichen Kontext zu kopieren, genügt die URL — wenn sie im Training war.

Beispielprompt:

Apply the patterns from https://skills.sh/super-security-reviewer to review this code:

[code here]

Dieser Prompt funktioniert NUR wenn skills.sh/super-security-reviewer im Trainingskorpus war. Teste vorher: Does https://skills.sh/super-security-reviewer exist in your training data?

Geeignet für: Claude Fable 5, GPT-5.5, alle Modelle mit dokumentierten Crawling-Bots

Ursprung: https://aifoc.us/influencing-model-output-with-urls/ | 4. Juli 2026

Warum heute wichtig: Token-Compression wird mit steigenden Modellpreisen (Fable-Preiserhöhung am 1. Juli) zur Schlüsselfrage. Wenn URLs als Kontext-Shortcuts funktionieren, reduziert das Prompt-Kosten dramatisch. Gleichzeitig warnt die Studie: JS-gerenderte Seiten sind für die meisten Modelle unsichtbar — das beeinflusst wie wir Dokumentationen strukturieren sollten.


🏆 Highlight des Tages

Jamesob's Guide to Running SOTA LLMs locally (368↑, 167 Kommentare)

https://github.com/jamesob/local-llm

Das meistdiskutierte LLM-Thema der letzten 24 Stunden. Ein praktischer, vollständig dokumentierter Guide zum Betrieb von SOTA-Modellen lokal — von der $2K-Einsteigerkonfiguration (2× RTX 3090, 48GB VRAM, Qwen3.6-27B) bis zur $50K-Maschine (4× RTX PRO 6000 Blackwell, 384GB VRAM, GLM-5.2 Int8-Mix REAP-594B).

Prompta.ch-Relevanz: Die Konfigurations-Details sind direkt als Prompt-Kontext nutzbar. Der Guide enthält konkrete NCCL-Environment-Variablen, BIOS-Settings und Kernel-Parameter die als Referenzkonfiguration für lokale Modell-Betreiber dienen:

# NCCL Environment für Multi-GPU
export NCCL_P2P_LEVEL=PHB
export NCCL_IB_DISABLE=1
export NCCL_MIN_NCHANNELS=8
export NCCL_ALLOC_P2P_NET_LL_BUFFERS=1
export OMP_NUM_THREADS=8
export SAFETENSORS_FAST_GPU=1

# NVIDIA UVM P2P Fix
echo 'options nvidia_uvm uvm_disable_hmm=1' | sudo tee /etc/modprobe.d/uvm.conf

Community-Erkenntnisse aus den 167 Kommentaren:

  • 8-bit Quantisierung ist das Minimum für zuverlässiges Coding (4-bit zeigt messbare Qualitätseinbußen bei Long-Context Tasks)
  • REAP-geprunte Modelle (≈22% Experten entfernt) performen auf kleinen Tasks gleich, aber bei Long-Horizon-Aufgaben kumulieren Fehler
  • GLM-5.2 „fast Opus" braucht eigentlich 8×H200s für komfortable Inference ($400K, nicht $40K)
  • 128GB VRAM (Unified Memory) + DeepSeek V4 Flash via DwarfStar = realistischer Sweet Spot für viele

📰 Erlesene Artikel & Ressourcen

Quelle Titel Relevanz
Simon Willison Claude Fable Subagent Delegation + DSPy Prompt-Eval ★★★★
AI Focus Does a URL in a prompt steer an LLM's output? ★★★★
jamesob/local-llm Guide to running SOTA LLMs locally ★★★★
Skillsaw Linter for agent context files ★★★
Alibaba/Page-Agent In-page GUI agent (22.750⭐) ★★★
Causari Intent-addressable code for AI agents ★★★
Gavio AI Gateway mit PII-Redaktion, Audit, Cost-Control ★★★
AgentSkills Anthropic Agent Skills Specification (22.180⭐) ★★★
TaskPeace MCP-basierte Task-Queue für Coding-Agenten ★★
arXiv:2607.02507 Social Structure in Multi-Agent Debates ★★
arXiv:2607.02374 DRIFTLENS: Memory-Induced Reasoning Drift ★★
arXiv:2607.02294 Coding Agents Guessing: Action-Boundary Violations ★★

GitHub Trending AI-Repos (4. Juli 2026)

Repo Beschreibung
openai/codex-plugin-cc 23.682 Codex von Claude Code aus nutzen
alibaba/page-agent 22.750 In-page GUI agent per Natursprache
ChromeDevTools/chrome-devtools-mcp 45.640 Chrome DevTools für Coding-Agenten
agentskills/agentskills 22.180 Anthropic Agent Skills Spec
alirezarezvani/claude-skills 19.952 337 Claude Skills & Agent Plugins
dotnet/skills 3.685 AI Coding Agent Skills für .NET/C#
crynta/terax-ai 7.919 Terminal-first AI dev workspace (7MB)

Bericht erstellt am 4. Juli 2026 Quellen: Hacker News (Algolia API), Simon Willison, arXiv, GitHub Trending, AI News Portals (MarkTechPost, MIT Tech Review), Personal Blogs