Qwen und Cartoons ? – GIA

Es kommen zwar immer wieder jede Menge neue LLMs, aber was das Thema Cartoons anbelangt, so scheint es keine weiteren Fortschritte zu geben.
Aktuell ist das Modell Qwen stark gehypt. Wir testen mal ob es auch für uns etwas bringen würde.

Unsere gia-style flux.dev lora funktioniert leider nicht unter Qwen, aber unsere GIA ist eh nur ansatzweise konsistent. Schauen wir mal wie weit wir mit einem Prompt kommen und ob Qwen etwas mit cartoons anfangen kann.

A cinematic view of a young woman cartoon style with a green sweatshirt, halflong black hair, white sneakers and glasses. She is sitting behind computer screen typing on a keyboard. She is very sad and crying. On her computer screen there is a display of lots of computer source code. Wide angle shot.

Im Prinzip erstmal nicht schlecht. Ich musste allerdings auf meiner 5060ti 13 Minuten auf das Ergebnis warten (720p, nach laden des 20B Modells).

Der Grafikstil ist eher wieder mal Manga/Gibli-Style und die Maus liegt als weißer Sneaker auf dem Tisch. Das deutet doch eher darauf hin dass das Modell auch nicht wirklich weniger Fehler macht.

Ich habe bei weiteren Versuchen das für Qwen verfügbare lightning v1.1 lora https://github.com/ModelTC/Qwen-Image-Lightning/ hinzugeladen welches viele Verbesserungen wie z.B. bessere Texte oder Cartoonfähigkeiten hat. Zudem brauchen dass 4 Bilder jetzt nur noch 2 Minuten. Oftmals leidet bei solchen Zusätzen auch die Qualität. Ich kann bisher keine Unterschiede erkennen.

Hier einige weitere Generierungen mit einem alten Prompt des ‚Oktoberfestbilds‘ (Cartoon picture hinzugefügt statt gia-style) :

a cartoon picture of a wide view of a woman with a green sweatshirt, black hair, white sneakers and glasses lying on a sofa with her feet up in her hitech living room. She is wearing a vr headset. She has a vr controller in her hand. She is injured and has one leg immobilized in a plaster cast bandage. On the wall is a picture of a ferris wheel. There is a cute little dog at her feet.

Die Umsetzung ist sehr gut wie man sieht, nur auf einem Bild fehlt ein Bein.

Nochmal ein Prompt bei dem man besser den Stil bei Personen erkennen kann:

a cartoon style picture of a wide view of a young woman with a green sweatshirt, halflong black hair, white sneakers and glasses. She is sitting on an examination table in an ambulance room. She is looking disappointed. There is a cute little dog sitting next to her feet wearing glasses. A smiling up male medical doctor in a doctor's coat is is holding up an x-ray of an old man.

Einen Aussetzer gibt es auch hier mit dem Krankenwagenteil im ersten Bild. Davon abgesehen ist die Umsetzung des Prompts überraschend gut. Da wird es noch weitere Tests geben, insbesondere mit den Edit-Modellen von Qwen.