Consistent Character Generation: Der ultimative Workflow für personalisierte KI-Portraits
- Justus Gleissner
- 18. Juni
- 2 Min. Lesezeit

In der Welt der KI-gestützten Bildgenerierung stellt sich eine zentrale Herausforderung: Wie erzeugt man Bilder der exakt gleichen Person in verschiedenen Posen, Stilen und Umgebungen? Der von vAudience entwickelte, optimierte und effiziente Workflow mit Low-Rank Adaptation-Training (LoRA-Training) bietet hierzu eine leistungsstarke Lösung.
Das Problem der Charakterkonsistenz
Herkömmliche KI-Bildgeneratoren haben Schwierigkeiten, eine Person über mehrere Bildgenerationen hinweg identisch darzustellen. Gesichtszüge, Proportionen und charakteristische Merkmale variieren oft deutlich zwischen den einzelnen Bildern. Hier setzt unser optimierter LoRA-Workflow an.
Was ist LoRA?
LoRA ist eine Trainingstechnik, die es ermöglicht, bestehende KI-Modelle auf spezifische Charakteristika zu trainieren. Stellen Sie sich das wie einen "Persönlichkeits-Filter" vor, der die Eigenschaften einer Person erfasst und in neue Bildgenerierungen einbringen kann.
Der optimierte Workflow im Detail
Zunächst erstellen wir mittels leistungsstarker KI-Bildgeneratoren wie Chat GPT ein detailliertes Ausgangsbild der gewünschten Person nach präzisen Spezifikationen. Im zweiten Schritt generieren wir ein 2x2-Grid derselben Person aus verschiedenen Blickwinkeln - dabei ist zu beachten, dass wiederholte Generierungen die Charakterkonsistenz zunehmend beeinträchtigen können.
Die resultierenden fünf einzigartigen Bilder werden in ComfyUI weiterverarbeitet, wo jedes Bild um verschiedene Gesichtsausdrücke erweitert wird. Diese erweiterte Bildersammlung dient als Grundlage für das LoRA-Training, wobei dem Modell ein spezifischer Name zugewiesen wird. Dieser Name fungiert später als Prompt-Trigger für neue Bildgenerationen.
Nach dem Training kann das LoRA-Modell in spezielle ComfyUI-Workflows eingebunden werden, um vielfältige neue Bilder der trainierten Person zu erstellen. Optional lassen sich die generierten Bilder auf der Flux1-Plattform nachbearbeiten, was beispielsweise realistische Umgebungsanpassungen wie Wettereffekte ermöglicht.
Best Practices und Fallstricke
Kritische Erfolgsfaktoren:
Hohe Qualität der initialen fünf Bilder
Konsistente Merkmale in den Trainingsdaten
Ausgewogene Anzahl von Trainingsbildern
Zu beachten:
Charakteristische Merkmale (z.B. Make-up) werden fest eintrainiert
Mehr Trainingsbilder bedeuten nicht automatisch bessere Ergebnisse
Balance zwischen Vielfalt und Konsistenz ist entscheidend

Technische Voraussetzungen
Der Workflow erfordert:
Leistungsstarke GPU für ComfyUI
Etwa vier bis sechs Stunden Gesamtzeit (Die Gesamtdauer variiert je nach Hardware und gewünschter Qualität.)
Speicherplatz für Trainingsbilder und Modelle
Zukunftsperspektiven
Mit der Integration des neuen Flux1-Modells eröffnen sich neue Möglichkeiten:
Nachträgliche Szenerieänderungen
Realistische Umgebungsanpassungen
Verbesserte Integration in verschiedene Kontexte
Fazit
Der von vAudience optimierte Workflow ermöglicht es, konsistente und hochqualitative Charakterdarstellungen zu erzeugen. Trotz des zeitlichen und technischen Aufwands bietet er eine zuverlässige Lösung für das Problem der Charakterkonsistenz in der KI-Bildgenerierung.
Glossar:
LoRA: Low-Rank Adaptation, eine Trainingsmethode zur Anpassung von KI-Modellen
ComfyUI: Eine leistungsstarke Benutzeroberfläche für KI-Bildgenerierung
Flux1: Ein fortschrittliches Modell zur Bildgeneration und Nachbearbeitung.
Character Consistency: Die Fähigkeit, charakteristische Merkmale einer Person über mehrere Generationen hinweg beizubehalten
Comments