LTX 2.3: KI-Videogenerierung lokal auf der RTX 5090 — was geht, was nicht
AI Tools

LTX 2.3: KI-Videogenerierung lokal auf der RTX 5090 — was geht, was nicht

9. März 2026
5 Min. Lesezeit
Chris Perkles

Vor vier Tagen hat Lightricks LTX 2.3 veröffentlicht — die neueste Version ihres Open-Source-Video-Modells. Ich hab mir das Modell sofort auf meine RTX 5090 gezogen und angefangen zu testen.

Das Ergebnis: Ein Showreel aus Shots, die komplett von LTX 2.3 generiert wurden. Keine Nachbearbeitung, kein Cherry-Picking über hunderte Versuche. Einfach prompten, rendern, rein damit.

Komplett KI-generierter Showreel mit LTX 2.3 — lokal auf RTX 5090

Was ist LTX 2.3?

LTX 2.3 ist ein Open-Source-Modell von Lightricks (die hinter LTX Studio) mit 22 Milliarden Parametern. Es generiert Video und Audio in einem einzigen Durchlauf — kein nachträgliches Zusammenkleben von separaten Modellen.

Die wichtigsten Specs:

EigenschaftLTX 2.3
Parameter~22 Milliarden (19B Video + 5B Audio)
AuflösungBis 4K
Framerate24 oder 48 FPS
VideolängeBis 20 Sekunden
ArchitekturDual-Stream Diffusion Transformer
LizenzCommunity License (kommerziell frei unter $10M Umsatz)
Lokal lauffähigJa

Das Besondere: LTX 2.3 ist das einzige Modell in dieser Klasse, das man komplett lokal betreiben kann. Kein API-Call, keine Cloud, keine Wartezeiten. Gewichte runterladen, starten, prompten.

Warum Open Source hier den Unterschied macht

Runway Gen-4.5, Sora, Kling — alles solide Modelle. Aber alle Closed Source und nur über APIs nutzbar. Das heißt:

  • Kosten pro Clip summieren sich schnell
  • Keine Kontrolle über Daten und Prompts
  • Abhängigkeit von der Plattform

LTX 2.3 läuft auf meiner RTX 5090 mit ~63 Sekunden Renderzeit pro 6-Sekunden-Clip. Das sind ca. 57 Clips pro Stunde, ohne einen Cent an API-Kosten. Für ein Batch von 50 Clips zahle ich bei Runway schnell $50+. Hier: Strom.

Verfügbar auf HuggingFace mit Day-0 ComfyUI-Support und einer eigenen Desktop-App.

Was mit LTX 2.3 richtig gut funktioniert

Nach dutzenden Prompts und Variationen kristallisiert sich ein klares Bild heraus. LTX 2.3 hat echte Stärken — wenn man weiß, wie man sie anspricht.

Fahrzeuge in Bewegung

Autos von hinten oder seitlich bei Geschwindigkeit — das sitzt fast immer. Die Bewegungsunschärfe stimmt, die Proportionen bleiben stabil.

Porsche auf regennasser Autobahn — ein Sweet Spot für LTX 2.3

Stimmung und Licht

Alles was mit Golden Hour, Gegenlicht und Silhouetten zu tun hat, sieht hervorragend aus. Das Modell versteht Lichtsprache und erzeugt konsistente, filmische Atmosphäre.

Rooftop-Szene mit Skyline — Gegenlicht und Silhouetten sind eine klare Stärke

Cinematic Kamerabewegung

Langsame Orbits, Drohnenaufnahmen und Kamerafahrten hinter Personen funktionieren zuverlässig. Das Modell hält die Bewegung gleichmäßig und die Perspektive stabil.

Bambuswald in Kyoto — Following Shot von hinten

Die Prompt-Sprache, die funktioniert

Was durchgehend gute Ergebnisse liefert:

  • 35mm Kodak Film-Grain — das Modell kennt die Filmstock-Sprache
  • Anamorphic Lens + flache Schärfentiefe — konsistentes Bokeh
  • Echte Ortsnamen — "Kyoto bamboo forest" oder "Dubai Marina" liefert bessere Ergebnisse als generische Beschreibungen
  • Nasse Oberflächen, Regen, Reflexionen — Lichtspiel auf Wasser sieht oft beeindruckend aus
  • Ein Subjekt, eine Aktion — Einfachheit gewinnt

Model in der Wüste — Einzelnes Subjekt mit flacher Schärfentiefe

Wo LTX 2.3 (noch) struggelt

Kein Modell ist perfekt, und LTX 2.3 hat klare Grenzen. Wer die kennt, spart sich Frustration:

Problemzonen

  • Text, Logos, Nummernschilder — werden zu unleserlichem Brei. Keines der aktuellen Modelle kann das wirklich, aber hier ist es besonders deutlich
  • Gesichter auf mittlerer Distanz — Nahaufnahmen von verwitterten Gesichtern funktionieren, aber Gesichter in Halbtotale verzerren sich
  • Hände und Finger in Nahaufnahme — das klassische KI-Problem lebt weiter
  • Kleine Requisiten (Zigarren, Stifte, Handys) — Proportionen und Details stimmen selten
  • Lauf- und Schwimmbewegung — die Physik bricht zusammen, unnatürliche Loops
  • Menschenmengen mit sichtbaren Gesichtern — Silhouetten gehen, Details nicht
  • Food-Close-ups — Texturen und Konsistenz wirken unnatürlich
  • Sepia/Vintage-Farbverläufe — das Modell driftet bei starken Color Grades
  • "Blick in die Kamera" — Eye Contact ist inkonsistent
  • Hartes Einzelquellenlicht — Schatten und Highlights werden unberechenbar
  • Kulturelle Details (Flaggen, Schilder, Ornamente) — werden vereinfacht oder verfälscht
  • Fade to Black — macht das Modell gerne uninstruiert von selbst

Neu in Version 2.3

Was hat sich gegenüber den Vorgängern verbessert?

  • Neues VAE — schärfere Ausgabe, bessere Textur- und Kantenerhaltung
  • Besseres Audio — weniger Hintergrundrauschen und Artefakte
  • Prompt-Treue — der Text Connector wurde überarbeitet, das Modell folgt komplexen Prompts genauer
  • Native Portrait-Videos — 9:16 ohne Cropping aus Landscape
  • Last-Frame-Interpolation — erstes und letztes Bild vorgeben, das Modell füllt die Lücke
  • Image-to-Video — natürlichere Bewegung, weniger statische Clips

Mein Setup

Für alle, die es selbst ausprobieren wollen:

  • GPU: NVIDIA RTX 5090
  • Modell: ltx-2.3-22b-distilled (8-Step-Variante für schnellere Inferenz)
  • Renderzeit: ~63 Sekunden pro 6-Sekunden-Clip
  • Download: HuggingFace oder GitHub
  • Voraussetzungen: Python 3.12+, CUDA 12.7+, PyTorch 2.7

Die distilled-Variante braucht nur 8 Diffusion Steps statt der vollen Sampling-Schritte des Dev-Modells. Qualitätsunterschied ist minimal, Speed-Gewinn massiv.

Fazit: Ein echtes Werkzeug für Videoproduzenten

LTX 2.3 ist kein Spielzeug mehr. Es ist ein Produktionswerkzeug mit echten Stärken — wenn man innerhalb seiner Grenzen arbeitet.

Für Mood-Shots, B-Roll, Establishing Shots und atmosphärische Szenen ist es jetzt schon einsetzbar. Kombiniert mit einem guten Edit und echtem Footage ergibt das einen Workflow, der noch vor einem Jahr undenkbar war.

Die Tatsache, dass alles lokal läuft, Open Source ist und keine API-Kosten verursacht, macht es besonders interessant für kleine Studios und Freelancer.

Mehr Tests kommen — ich bin gespannt, was mit Custom LoRAs und dem Upscaler noch möglich ist.


Du willst KI-generierte Videos für dein Unternehmen nutzen? Ich helfe dir beim Setup, Workflow und der Integration in deine Produktion. Lass uns sprechen →

LTX Video
KI Video
RTX 5090
Videoproduktion
Open Source
Lightricks
Teilen:
CP

Chris Perkles

KI-Berater, Speaker & Workshop-Leiter

Ich helfe Unternehmen dabei, KI strategisch einzusetzen und echte Ergebnisse zu erzielen. Von Workshops bis zur Implementierung - gemeinsam bringen wir Ihre KI-Projekte zum Erfolg.

Kontakt aufnehmen

Ähnliche Artikel

LTX 2.3: KI-Videogenerierung lokal auf der RTX 5090 — was geht, was nicht | Chris Perkles Blog