LTX 2.3: KI-Videogenerierung lokal auf der RTX 5090 — was geht, was nicht

Vor vier Tagen hat Lightricks LTX 2.3 veröffentlicht — die neueste Version ihres Open-Source-Video-Modells. Ich hab mir das Modell sofort auf meine RTX 5090 gezogen und angefangen zu testen.

Das Ergebnis: Ein Showreel aus Shots, die komplett von LTX 2.3 generiert wurden. Keine Nachbearbeitung, kein Cherry-Picking über hunderte Versuche. Einfach prompten, rendern, rein damit.

Komplett KI-generierter Showreel mit LTX 2.3 — lokal auf RTX 5090

Was ist LTX 2.3?

LTX 2.3 ist ein Open-Source-Modell von Lightricks (die hinter LTX Studio) mit 22 Milliarden Parametern. Es generiert Video und Audio in einem einzigen Durchlauf — kein nachträgliches Zusammenkleben von separaten Modellen.

Die wichtigsten Specs:

Eigenschaft	LTX 2.3
Parameter	~22 Milliarden (19B Video + 5B Audio)
Auflösung	Bis 4K
Framerate	24 oder 48 FPS
Videolänge	Bis 20 Sekunden
Architektur	Dual-Stream Diffusion Transformer
Lizenz	Community License (kommerziell frei unter $10M Umsatz)
Lokal lauffähig	Ja

Das Besondere: LTX 2.3 ist das einzige Modell in dieser Klasse, das man komplett lokal betreiben kann. Kein API-Call, keine Cloud, keine Wartezeiten. Gewichte runterladen, starten, prompten.

Warum Open Source hier den Unterschied macht

Runway Gen-4.5, Sora, Kling — alles solide Modelle. Aber alle Closed Source und nur über APIs nutzbar. Das heißt:

Kosten pro Clip summieren sich schnell
Keine Kontrolle über Daten und Prompts
Abhängigkeit von der Plattform

LTX 2.3 läuft auf meiner RTX 5090 mit ~63 Sekunden Renderzeit pro 6-Sekunden-Clip. Das sind ca. 57 Clips pro Stunde, ohne einen Cent an API-Kosten. Für ein Batch von 50 Clips zahle ich bei Runway schnell $50+. Hier: Strom.

Verfügbar auf HuggingFace mit Day-0 ComfyUI-Support und einer eigenen Desktop-App.

Was mit LTX 2.3 richtig gut funktioniert

Nach dutzenden Prompts und Variationen kristallisiert sich ein klares Bild heraus. LTX 2.3 hat echte Stärken — wenn man weiß, wie man sie anspricht.

Fahrzeuge in Bewegung

Autos von hinten oder seitlich bei Geschwindigkeit — das sitzt fast immer. Die Bewegungsunschärfe stimmt, die Proportionen bleiben stabil.

Porsche auf regennasser Autobahn — ein Sweet Spot für LTX 2.3

Stimmung und Licht

Alles was mit Golden Hour, Gegenlicht und Silhouetten zu tun hat, sieht hervorragend aus. Das Modell versteht Lichtsprache und erzeugt konsistente, filmische Atmosphäre.

Rooftop-Szene mit Skyline — Gegenlicht und Silhouetten sind eine klare Stärke

Cinematic Kamerabewegung

Langsame Orbits, Drohnenaufnahmen und Kamerafahrten hinter Personen funktionieren zuverlässig. Das Modell hält die Bewegung gleichmäßig und die Perspektive stabil.

Bambuswald in Kyoto — Following Shot von hinten

Die Prompt-Sprache, die funktioniert

Was durchgehend gute Ergebnisse liefert:

35mm Kodak Film-Grain — das Modell kennt die Filmstock-Sprache
Anamorphic Lens + flache Schärfentiefe — konsistentes Bokeh
Echte Ortsnamen — "Kyoto bamboo forest" oder "Dubai Marina" liefert bessere Ergebnisse als generische Beschreibungen
Nasse Oberflächen, Regen, Reflexionen — Lichtspiel auf Wasser sieht oft beeindruckend aus
Ein Subjekt, eine Aktion — Einfachheit gewinnt

Model in der Wüste — Einzelnes Subjekt mit flacher Schärfentiefe

Wo LTX 2.3 (noch) struggelt

Kein Modell ist perfekt, und LTX 2.3 hat klare Grenzen. Wer die kennt, spart sich Frustration:

Problemzonen

Text, Logos, Nummernschilder — werden zu unleserlichem Brei. Keines der aktuellen Modelle kann das wirklich, aber hier ist es besonders deutlich
Gesichter auf mittlerer Distanz — Nahaufnahmen von verwitterten Gesichtern funktionieren, aber Gesichter in Halbtotale verzerren sich
Hände und Finger in Nahaufnahme — das klassische KI-Problem lebt weiter
Kleine Requisiten (Zigarren, Stifte, Handys) — Proportionen und Details stimmen selten
Lauf- und Schwimmbewegung — die Physik bricht zusammen, unnatürliche Loops
Menschenmengen mit sichtbaren Gesichtern — Silhouetten gehen, Details nicht
Food-Close-ups — Texturen und Konsistenz wirken unnatürlich
Sepia/Vintage-Farbverläufe — das Modell driftet bei starken Color Grades
"Blick in die Kamera" — Eye Contact ist inkonsistent
Hartes Einzelquellenlicht — Schatten und Highlights werden unberechenbar
Kulturelle Details (Flaggen, Schilder, Ornamente) — werden vereinfacht oder verfälscht
Fade to Black — macht das Modell gerne uninstruiert von selbst

Neu in Version 2.3

Was hat sich gegenüber den Vorgängern verbessert?

Neues VAE — schärfere Ausgabe, bessere Textur- und Kantenerhaltung
Besseres Audio — weniger Hintergrundrauschen und Artefakte
Prompt-Treue — der Text Connector wurde überarbeitet, das Modell folgt komplexen Prompts genauer
Native Portrait-Videos — 9:16 ohne Cropping aus Landscape
Last-Frame-Interpolation — erstes und letztes Bild vorgeben, das Modell füllt die Lücke
Image-to-Video — natürlichere Bewegung, weniger statische Clips

Mein Setup

Für alle, die es selbst ausprobieren wollen:

GPU: NVIDIA RTX 5090
Modell: ltx-2.3-22b-distilled (8-Step-Variante für schnellere Inferenz)
Renderzeit: ~63 Sekunden pro 6-Sekunden-Clip
Download: HuggingFace oder GitHub
Voraussetzungen: Python 3.12+, CUDA 12.7+, PyTorch 2.7

Die distilled-Variante braucht nur 8 Diffusion Steps statt der vollen Sampling-Schritte des Dev-Modells. Qualitätsunterschied ist minimal, Speed-Gewinn massiv.

Fazit: Ein echtes Werkzeug für Videoproduzenten

LTX 2.3 ist kein Spielzeug mehr. Es ist ein Produktionswerkzeug mit echten Stärken — wenn man innerhalb seiner Grenzen arbeitet.

Für Mood-Shots, B-Roll, Establishing Shots und atmosphärische Szenen ist es jetzt schon einsetzbar. Kombiniert mit einem guten Edit und echtem Footage ergibt das einen Workflow, der noch vor einem Jahr undenkbar war.

Die Tatsache, dass alles lokal läuft, Open Source ist und keine API-Kosten verursacht, macht es besonders interessant für kleine Studios und Freelancer.

Mehr Tests kommen — ich bin gespannt, was mit Custom LoRAs und dem Upscaler noch möglich ist.

Du willst KI-generierte Videos für dein Unternehmen nutzen? Ich helfe dir beim Setup, Workflow und der Integration in deine Produktion. Lass uns sprechen →