
Kann man auch etwas auf seinem eigenen Rechner tun ?
Mit dem Aufkommen von Lösungen wie Ollama, ComfyUI oder Pinokio, sowie dazu passend frei verfügbaren LLMs oder anderen K.I.-Modellen, ist es seit einigen Monaten auch möglich auf seinem eigenen Rechner Bilder und/oder Videos zu generieren. Vorausgesetzt des Gerät ist leistungsfähig genug. Ohne einen PC mit einer CUDA Grafikkarte von Nvidia kommt man z.Z. allerdings nicht weit. Und dann ohne GEDULD gar nicht.
Sowohl CPU als auch GPU sollten möglichst viel Speicher haben, wobei nach unserer Erfahrung die Speichergrösse der GPU eher der begrenzende Faktor ist. 12-16GB GPU memory sollten es sein, wenngleich es auch inzwischen viele spezielle komprimierte oder reduzierte Versionen der K.I.-Modelle gibt die auch mit weniger Speicher auskommen. Für macs gibt es nicht so arg viele Möglichkeiten. Für Unix schon eher da sich hier auch im Server Bereich CUDA Karten und docker container verwenden lassen (sofern man denn Zugriff auf solch eher teurere Modelle hat). Die CPU kommt spätestens dann ins Spiel wenn es darum geht das eigentlich Modell erstmal in den Grafikkartenspeicher hochzuladen, insbesondere wenn man noch eine oder mehrere LORAs (die kommen später) dazu lädt. Das kann schon mal ein halbe Stunde dauern.
Es gibt verschiedene grafische Oberflächen, aber ComfyUI steht sicher an einer der obersten Stellen bezüglich der Verbreitung und auch der Möglichkeiten. Hier können Abläufe für die Verarbeitung durch Flows zwischen Modulknoten definiert werden. Die Möglichkeiten sind groß, aber damit auch die Komplexität durch z.T. recht schwer verständliche Knoten und deren Ansteuerung. Nicht zuletzt gibt es eine grosse Fülle an verfügbaren Workflows, die nicht immer ohne weitere Konfigurationen funktionsfähig sind. Zudem müssen oft diverse grosse Modelle im 2-stelligen GB Bereich heruntergeladen werden. Achja, ausreichend Speicherplatz auf der Festplatte braucht man auch.

Mit dem Erscheinen von FluxDev von BlackForestLabs gab es nach Stable Diffusion ein weiteres Modell dass man sich selber lokal installieren konnte. FluxDev war sehr schnell erfolgreich, da es qualitätsmässig schon sehr an kommerzielle Modelle a la Midjourney heran kommt. Zudem gab es von Anfang an Workflows für ComfyUI.
Ein grosser Nachteil ist allerdings dass FluxDev selber über keinen Cartoonstil wie von uns gewünscht, verfügt. Es gibt div. Manga Varianten und auch Claymation oder Zeichenstile (alle übrigens undokumentiert), aber so etwas das so ähnlich aussieht wie ChatGPTs ‚Franko-Belgischer‘ Stil ist nicht verfügbar.

ComfyUI https://www.comfy.org/ gibt es als standalone Version für Windows und Mac mit Mx Prozessoren und es ist auch wirklich ‚free‘. Für das Tool Pinokio https://pinokio.co , das für die Installation und Nutzung auch vieler anderer K.I. Software geeignet ist, gibt es ein plugin für ComfyUI, das man in Pinokio dann sehr einfach per Klick hinein installieren kann.
Wer sich auch für Audio/Video oder andere K.I. Tools interessiert, für den ist eine Installation in Pinokio evtl. die bessere, weil einfachere Wahl, da man so eine zentrale Oberfläche für div. Software Installationen und Nutzung zur Verfügung hat.
Um das System erst einmal kennenzulernen sind die in ComfyUI mitverteilten Workflows ein guter Startpunkt. Für Flux gibt es unter den Templates eine eigene Kategorie. Mit diesen Templates kann man sich durch die verschiedenen Modelltypen durchtesten und sehen was mit der eigenen Hardware-Konfiguration möglich ist oder auch nicht. Auch andere LLMs kann man antesten.

Die Realitätsnähe der photorealistisch erzeugten Bilder ist schon sehr weit fortgeschritten. Diese sind oftmals kaum noch von realen Aufnahmen zu unterscheiden.


