Vor vier Tagen hat Lightricks LTX 2.3 veröffentlicht — die neueste Version ihres Open-Source-Video-Modells. Ich hab mir das Modell sofort auf meine RTX 5090 gezogen und angefangen zu testen.
Das Ergebnis: Ein Showreel aus Shots, die komplett von LTX 2.3 generiert wurden. Keine Nachbearbeitung, kein Cherry-Picking über hunderte Versuche. Einfach prompten, rendern, rein damit.
Komplett KI-generierter Showreel mit LTX 2.3 — lokal auf RTX 5090
Was ist LTX 2.3?
LTX 2.3 ist ein Open-Source-Modell von Lightricks (die hinter LTX Studio) mit 22 Milliarden Parametern. Es generiert Video und Audio in einem einzigen Durchlauf — kein nachträgliches Zusammenkleben von separaten Modellen.
Die wichtigsten Specs:
| Eigenschaft | LTX 2.3 |
|---|---|
| Parameter | ~22 Milliarden (19B Video + 5B Audio) |
| Auflösung | Bis 4K |
| Framerate | 24 oder 48 FPS |
| Videolänge | Bis 20 Sekunden |
| Architektur | Dual-Stream Diffusion Transformer |
| Lizenz | Community License (kommerziell frei unter $10M Umsatz) |
| Lokal lauffähig | Ja |
Das Besondere: LTX 2.3 ist das einzige Modell in dieser Klasse, das man komplett lokal betreiben kann. Kein API-Call, keine Cloud, keine Wartezeiten. Gewichte runterladen, starten, prompten.
Warum Open Source hier den Unterschied macht
Runway Gen-4.5, Sora, Kling — alles solide Modelle. Aber alle Closed Source und nur über APIs nutzbar. Das heißt:
- Kosten pro Clip summieren sich schnell
- Keine Kontrolle über Daten und Prompts
- Abhängigkeit von der Plattform
LTX 2.3 läuft auf meiner RTX 5090 mit ~63 Sekunden Renderzeit pro 6-Sekunden-Clip. Das sind ca. 57 Clips pro Stunde, ohne einen Cent an API-Kosten. Für ein Batch von 50 Clips zahle ich bei Runway schnell $50+. Hier: Strom.
Verfügbar auf HuggingFace mit Day-0 ComfyUI-Support und einer eigenen Desktop-App.
Was mit LTX 2.3 richtig gut funktioniert
Nach dutzenden Prompts und Variationen kristallisiert sich ein klares Bild heraus. LTX 2.3 hat echte Stärken — wenn man weiß, wie man sie anspricht.
Fahrzeuge in Bewegung
Autos von hinten oder seitlich bei Geschwindigkeit — das sitzt fast immer. Die Bewegungsunschärfe stimmt, die Proportionen bleiben stabil.
Porsche auf regennasser Autobahn — ein Sweet Spot für LTX 2.3
Stimmung und Licht
Alles was mit Golden Hour, Gegenlicht und Silhouetten zu tun hat, sieht hervorragend aus. Das Modell versteht Lichtsprache und erzeugt konsistente, filmische Atmosphäre.
Rooftop-Szene mit Skyline — Gegenlicht und Silhouetten sind eine klare Stärke
Cinematic Kamerabewegung
Langsame Orbits, Drohnenaufnahmen und Kamerafahrten hinter Personen funktionieren zuverlässig. Das Modell hält die Bewegung gleichmäßig und die Perspektive stabil.
Bambuswald in Kyoto — Following Shot von hinten
Die Prompt-Sprache, die funktioniert
Was durchgehend gute Ergebnisse liefert:
- 35mm Kodak Film-Grain — das Modell kennt die Filmstock-Sprache
- Anamorphic Lens + flache Schärfentiefe — konsistentes Bokeh
- Echte Ortsnamen — "Kyoto bamboo forest" oder "Dubai Marina" liefert bessere Ergebnisse als generische Beschreibungen
- Nasse Oberflächen, Regen, Reflexionen — Lichtspiel auf Wasser sieht oft beeindruckend aus
- Ein Subjekt, eine Aktion — Einfachheit gewinnt
Model in der Wüste — Einzelnes Subjekt mit flacher Schärfentiefe
Wo LTX 2.3 (noch) struggelt
Kein Modell ist perfekt, und LTX 2.3 hat klare Grenzen. Wer die kennt, spart sich Frustration:
Problemzonen
- Text, Logos, Nummernschilder — werden zu unleserlichem Brei. Keines der aktuellen Modelle kann das wirklich, aber hier ist es besonders deutlich
- Gesichter auf mittlerer Distanz — Nahaufnahmen von verwitterten Gesichtern funktionieren, aber Gesichter in Halbtotale verzerren sich
- Hände und Finger in Nahaufnahme — das klassische KI-Problem lebt weiter
- Kleine Requisiten (Zigarren, Stifte, Handys) — Proportionen und Details stimmen selten
- Lauf- und Schwimmbewegung — die Physik bricht zusammen, unnatürliche Loops
- Menschenmengen mit sichtbaren Gesichtern — Silhouetten gehen, Details nicht
- Food-Close-ups — Texturen und Konsistenz wirken unnatürlich
- Sepia/Vintage-Farbverläufe — das Modell driftet bei starken Color Grades
- "Blick in die Kamera" — Eye Contact ist inkonsistent
- Hartes Einzelquellenlicht — Schatten und Highlights werden unberechenbar
- Kulturelle Details (Flaggen, Schilder, Ornamente) — werden vereinfacht oder verfälscht
- Fade to Black — macht das Modell gerne uninstruiert von selbst
Neu in Version 2.3
Was hat sich gegenüber den Vorgängern verbessert?
- Neues VAE — schärfere Ausgabe, bessere Textur- und Kantenerhaltung
- Besseres Audio — weniger Hintergrundrauschen und Artefakte
- Prompt-Treue — der Text Connector wurde überarbeitet, das Modell folgt komplexen Prompts genauer
- Native Portrait-Videos — 9:16 ohne Cropping aus Landscape
- Last-Frame-Interpolation — erstes und letztes Bild vorgeben, das Modell füllt die Lücke
- Image-to-Video — natürlichere Bewegung, weniger statische Clips
Mein Setup
Für alle, die es selbst ausprobieren wollen:
- GPU: NVIDIA RTX 5090
- Modell:
ltx-2.3-22b-distilled(8-Step-Variante für schnellere Inferenz) - Renderzeit: ~63 Sekunden pro 6-Sekunden-Clip
- Download: HuggingFace oder GitHub
- Voraussetzungen: Python 3.12+, CUDA 12.7+, PyTorch 2.7
Die distilled-Variante braucht nur 8 Diffusion Steps statt der vollen Sampling-Schritte des Dev-Modells. Qualitätsunterschied ist minimal, Speed-Gewinn massiv.
Fazit: Ein echtes Werkzeug für Videoproduzenten
LTX 2.3 ist kein Spielzeug mehr. Es ist ein Produktionswerkzeug mit echten Stärken — wenn man innerhalb seiner Grenzen arbeitet.
Für Mood-Shots, B-Roll, Establishing Shots und atmosphärische Szenen ist es jetzt schon einsetzbar. Kombiniert mit einem guten Edit und echtem Footage ergibt das einen Workflow, der noch vor einem Jahr undenkbar war.
Die Tatsache, dass alles lokal läuft, Open Source ist und keine API-Kosten verursacht, macht es besonders interessant für kleine Studios und Freelancer.
Mehr Tests kommen — ich bin gespannt, was mit Custom LoRAs und dem Upscaler noch möglich ist.
Du willst KI-generierte Videos für dein Unternehmen nutzen? Ich helfe dir beim Setup, Workflow und der Integration in deine Produktion. Lass uns sprechen →


