Hotelinterieurs mit KI beleben: drei Venues, ein Prompt-Stack
AI Tools

Hotelinterieurs mit KI beleben: drei Venues, ein Prompt-Stack

7. Mai 20268 Min. LesezeitChris Perkles

Vor ein paar Wochen habe ich hier geschrieben, was wir mit Flux 2 Dev lokal auf einer RTX 5090 erreichen — Produktfotos von Grund auf, ohne API-Kosten. Diese Geschichte ist eine andere.

Hier geht es um leere Hotelinterieurs, die wir mit KI beleben. Konkret: neun Architekturaufnahmen aus drei sehr unterschiedlichen Venues — ein indisches Restaurant in Wien, eine alpine Wellness-Lodge im Salzburger Land und ein Safari-Lodge-Setup. Mit Menschen, Stimmung und Tageszeit angereichert, ohne dass die Räume sich verändern.

Der Stack ist API-basiert: gpt-image-2 über einen OpenAI-kompatiblen Endpoint, Claude als Orchestrator. Drei Slider unten zeigen, was dabei herauskommt.

Der Stack

  • Modell: gpt-image-2 über einen OpenAI-kompatiblen Endpoint (client.images.edit(...) mit dem realen Foto als Referenz)
  • Orchestrator: Claude — baut Prompts aus wiederverwendbaren Bausteinen, dispatched parallele Batches, beurteilt den Output via Vision
  • Output-Tiers: low (ca. $0.007), medium (ca. $0.025), high 1024×1536 (ca. $0.15), medium 2048×3072 (ca. $0.17)
  • Wall-Clock: 6–12 s bei low, 50–180 s bei medium 2048×3072 mit einem Referenzbild

Die Wahl images.edit statt images.generate ist der ganze Hebel. Edit nimmt das echte Foto als Eingabe und behandelt den Prompt als Anweisung, wie damit verfahren werden soll. Daraus entsteht ein angereichertes Bild — nicht eine erfundene Szene, die das Original imitiert.

Drei Venues, neun Aufnahmen

Wir haben einen Batch durchlaufen lassen: drei Venues, je drei Aufnahmen, ein gemeinsamer Prompt-Stack. Die folgenden drei zeigen, was funktioniert — und was driftet.

Suite — Architektur erhalten, Bewohnung dazu

Before: Hotelsuite mit Eichen-Wandverkleidung, ovoiden Pendant-Lichtern und Marmor-Bad rechtsAfter: Hotelsuite mit Eichen-Wandverkleidung, ovoiden Pendant-Lichtern und Marmor-Bad rechtsBeforeAfterSuite — gleiche Architektur, neue Bewohnung. Slider ziehen für Vorher/Nachher.

Eine ungenutzte Suite: Eichen-Wandverkleidung, zwei ovoide Pendant-Lichter, Walk-in Marmor-Bad. Im Output: dieselbe Architektur, dieselben Lichter, dasselbe Bad — aber eine Frau im weißen Waffel-Bademantel sitzt auf der Bettkante und liest, ein Frühstückstablett mit Kaffee und Croissant steht auf der Decke.

Das ist die Stärke von PRESERVE_LOCK. Bett, Wandverkleidung, Pendant-Lichter, Bad — alles steht an seiner Stelle. Was sich ändert, ist Bewohnung.

Restaurant — Mittagsschauplatz zu Abendservice

Before: Indisches Restaurant in Wien — leerer Speisesaal mit roten Vorhängen und gelben BlumengirlandenAfter: Indisches Restaurant in Wien — leerer Speisesaal mit roten Vorhängen und gelben BlumengirlandenBeforeAfterRestaurant — kühles Mittagslicht wird zur warmen Abendszene mit Gästen und Service.

Ausgangsbild: leeres Restaurant bei nüchternem Tageslicht. Output: dieselbe Sitzanordnung, dieselbe Pendant-Leuchte — aber Sonnenuntergangslicht, mehrere Tischgesellschaften, ein Servierkellner mit Tablett, Weingläser, eine offene Speisekarte im Vordergrund.

Hier wird die dominante Transformation sichtbar: nicht nur Menschen, sondern eine Tageszeit-Verschiebung. Aus kühlem Mittagslicht wird warme Goldene Stunde. Das ist die größte Veränderung im Bild — größer als die Personen.

Eine ehrliche Beobachtung: die hängenden gelben Blumengirlanden im Original wurden im Output zu hängenden orangen Tassel-Bändern. Das Modell hat die Form (hängende Dekoration vom Fenstersturz) erhalten, aber das spezifische Element neu interpretiert. Für Konzept-Decks akzeptabel; für Marken-Print wäre das ein Korrekturzyklus.

Safari-Lodge — Stimmung über alles

Before: Safari-Tent-Lounge mit hängendem Rattan-Egg-Chair und Blick zur Akazien-SavanneAfter: Safari-Tent-Lounge mit hängendem Rattan-Egg-Chair und Blick zur Akazien-SavanneBeforeAfterSafari-Tent — gleiche Möbel, völlig andere Stimmung. Goldene Stunde, zwei Figuren in Beige-Linen.

Eine Zelt-Lounge mit hängendem Rattan-Egg-Chair und Sofas. Output: Goldene Stunde, zwei Personen in Beige-Linen, beide kontemplativ Richtung Savanne blickend, Drinks auf dem Tisch.

Zwei Beobachtungen auf einmal: Erstens, wie kraftvoll der Stimmungswechsel ist — gleiche Möbel, völlig andere Stimmung. Zweitens, dass unsere PEOPLE_LOCK-Anweisung "Mix der Winkel, nicht alle rückwärts" in diesem Batch noch nicht voll gegriffen hat. Beide Personen sind von hinten gezeigt. Bei einem kontemplativen Safari-Setting funktioniert das ästhetisch — aber für ein Restaurant würden wir mehr 3/4-frontale Gesichter wollen, und die nächste Iteration muss PEOPLE_LOCK nachschärfen.

Der Drei-Block-Stack

Hinter diesen Outputs steht ein konstantes Schema:

PRESERVE_LOCK"preserve composition, framing, perspective, architecture, materials, fixtures, furniture placement; only add/change what is described below; never add text/logos/watermarks/signage."

Das ist die Versicherung gegen das Hauptrisiko: Drift. Ohne diesen Block beginnt das Modell, Wandfarben zu ändern, Möbel zu verschieben oder fiktive Beschilderungen einzufügen.

PEOPLE_LOCK"photogenic, late 20s–40s, magazine-editorial grooming, healthy posture, natural warm expressions; mix of angles — some 3/4 frontal in soft focus, some profile, some back-turned (do NOT make every figure back-turned, that reads sterile); avoid extreme close-up frontal hero faces unless requested; hands and limbs natural; not stock-photo, not AI-uncanny."

STYLE-Block pro Venue — Demografie und Garderobenpalette. Indisches Restaurant in Wien: "European + South Asian guests, smart-casual evening attire, no costume." Alpine Lodge: "modern editorial alpine linen and wool, no folkloric tracht." Wellness-Bereich: "white waffle robes, cream linen, neutral swimwear." Safari-Tent: "safari-appropriate beige linen, soft tailored, no costume pith helmets."

Diese drei Blöcke werden für jede Aufnahme spezifisch zusammengesetzt. Aber das Schema bleibt konstant — und das ist genau das, was Skalierung ermöglicht.

Tradeoffs, die man kennen muss

1. Tageszeit ist deine Wahl — oder die des Modells. In allen neun Aufnahmen unseres Batchs kippte das Modell von kühlem Tageslicht in warme Goldene Stunde. Das ist die größte Veränderung im Bild — größer als die Personen, größer als jede Möblierung. Lehre: schreib die Tageszeit immer explizit in den Prompt. "Sunset, 6 PM, warm golden tones" wenn du sie willst — "midday, neutral 5500K daylight, no warm tint, overcast soft light" wenn du sie nicht willst. Wer es weglässt, bekommt Editorial-Wärme by default. Tageszeit ist eine Designentscheidung, kein Nebenprodukt.

2. Feiner Text rendert — aber nicht zuverlässig. Das ist die kniffligste Limitation der Pipeline, weil sie nicht binär ist. Manchmal kommt eine Beschriftung sauber raus. Manchmal wird derselbe Text im nächsten Run zu Buchstaben-Soup. Druck-Text auf Etiketten, Speisekarten oder Wegweiser landet bei vielleicht 30–50 % der Generierungen lesbar — der Rest sind buchstabenähnliche Formen. Konsequenz für den Workflow: niemals eine einzige Generation als finales Asset behandeln, wenn Text drauf sein muss. Entweder du planst 3–5 Re-Runs ein und wählst aus, oder du machst Text im Compositing-Schritt — sicherer und billiger als Roulette spielen.

3. Existierender Text wird nicht aktiv erhalten. PRESERVE_LOCK enthält "never add text/logos/watermarks". Diese Regel verhindert Hinzufügen, aber sie zwingt das Modell nicht, bestehenden Text auf Schildern, Fenstern oder Speisekarten zu reproduzieren. In einem Restaurant-Shot war eine teilweise sichtbare Markenbeschriftung auf der Fensterscheibe — die ist im Output verschwunden. Wenn Markentext sichtbar bleiben muss, gehört er in einen separaten Compositing-Schritt.

4. Die low → high Kostenkurve ist steil. Rund 14× Unterschied zwischen low ($0.007) und high ($0.10). Konsequenz: jede neue Idee startet bei low 1024². Komposition, Szene, Skalierung sind dort schon entscheidbar. Erst wenn das stimmt, wird auf high mit höherer Auflösung skaliert.

5. Architekturtreue hält, aber dekorative Elemente driften. Das große Layout — Möbel, Räumlichkeit, Fixtures — bleibt überraschend stabil. Aber spezifische Dekorationselemente (Blumengirlanden, sichtbare Beschilderung, kleine Möbel im Hintergrund) werden gelegentlich neu interpretiert. Form bleibt erhalten, Detail wird liberty genommen.

6. PEOPLE_LOCK ist ein Tuning-Prozess, kein One-Shot. Selbst mit expliziter "nicht alle rückwärts"-Anweisung tendiert das Modell weiter zu rückwärtigen Figuren. Die Regel funktioniert, aber sie braucht Verstärkung über mehrere Iterationen. Erwarte, dass die ersten zwei Batches einer neuen Venue noch zu hinten-orientiert sind, und plane den Korrekturlauf ein.

Wo Claude in der Pipeline sitzt

Drei Stellen:

1. Prompt-Assembly. Aus einer Brief-Beschreibung ("Lifestyle-Szene für Almhütte, Frühstück mit Familie, 2:3 portrait, medium quality, ein Referenzfoto") baut Claude den vollständigen Prompt aus den drei Blöcken. Schema-Validierung: jedes Output enthält PRESERVE_LOCK, PEOPLE_LOCK und STYLE. Nichts geht ohne diese drei.

2. Batch-Dispatch. Für eine Venue mit neun Aufnahmen werden alle neun Prompts parallel an die API gegeben (Concurrency 3 — höher bringt nichts, weil der Server queuet). Aus neun sequenziellen 90-Sekunden-Calls werden ~3 Batches à 90 s.

3. Judge-Step. Nach dem Batch beurteilt Claude die neun Outputs mit Vision-Fähigkeiten: Wahrt das Bild die Architektur? Sind die Personen natürlich oder wirken sie KI-uncanny? Stimmt die Tageszeit-Atmosphäre? Outputs unter Schwellenwert werden mit angepasstem Prompt re-generiert. Das ist der Schritt, der eine Pipeline aus einem Trial-and-Error-Prozess macht.

Wann diese Pipeline einer lokalen vorzuziehen ist

Es gibt keinen Pauschalsieger. Eine kurze Heuristik für Hotellerie-Enhance-Jobs:

AnforderungAPI-Pipeline (gpt-image-2)Lokal (Flux 2 Dev)
Spinup-ZeitSofort, kein GPUWochenende für ComfyUI-Setup
Per-Image-Kosten$0.007–$0.17 je nach Tier$0 (Strom)
Sprachqualität / "verstehen, was gemeint ist"Sehr gutMittel
Architekturerhalt bei Enhance-JobsSehr gut mit PRESERVE_LOCKSchwierig
Volle Kontrolle über Sampler/StepsNeinJa
Datenschutz (lokal verarbeitet)NeinJa

Für hochvolumige iterative Hotellerie-Lifestyle-Enhance: API-Pipeline. Für sensible Marken, die nicht in die Cloud sollen, oder Workloads, bei denen Per-Image-Kosten drücken: lokales Setup.

Fazit

Hotelinterieurs mit KI zu beleben funktioniert — mit klaren Grenzen. Feiner Text rendert unzuverlässig — plane Re-Runs ein oder mach Text im Compositing-Schritt; verlass dich nie auf eine einzige Generation. Tageszeit ist deine Wahl — sag sie explizit oder akzeptiere die Default-Wärme. Dazu: dekorative Details driften gelegentlich, und Per-Image-Kosten skalieren mit Volumen.

Innerhalb dieser Grenzen liefert das Setup Output, das für Konzept-Decks, Mood-Boards, Social Media und interne Präsentationen produktionsreif ist — und für viele Print-Anwendungen ohne sichtbare Logos auch.

Was sich rechnet, ist nicht die einzelne Generation. Es ist der Stack: ein wiederverwendbares Prompt-Schema, eine Orchestrator-Schicht, ein Judge-Step. Drei Bausteine, die aus einem KI-Image-Tool eine Pipeline machen.


Du hast leere Hotelfotos, die Leben bekommen sollen? Ich helfe beim Setup — Prompt-Schema, Batch-Orchestrierung, Quality-Tier-Strategie, Compositing-Übergabe. Lass uns sprechen →

KI Lifestyle Photographygpt-image-2Photo PipelineClaudeHotelfotografieAPI
Teilen
CP

Chris Perkles

KI-Berater, Speaker & Workshop-Leiter

Ich helfe Unternehmen dabei, KI strategisch einzusetzen und echte Ergebnisse zu erzielen. Von Workshops bis zur Implementierung.

Kontakt aufnehmen
Ähnliche Artikel
Hotelinterieurs mit KI beleben: drei Venues, ein Prompt-Stack | Chris Perkles Blog