Neueste KI zur Bilderzeugung

Bei den folgenden Bilder habe ich mal 4 von den selber trainierten Elementen zusammengefügt. Der Stil entsteht bzw. variiert durch leicht unterschiedliche Gewichtung. Es wurde natürlich keinerlei Künstlername benutzt:
- Tusche/Aquarell: 7 synthetische Bilder
- Sci-Fi: rund 800 Bilder
- Rauch/Dissolver: 20 synthetische Bilder
- Detailer auf Noisebasis: 42 synthetische Bilder

Ebenso wurde etwas postprocessing gleich in ComfyUI mit-automatisiert. Ein Bild benötigt rund 70 Sekunden auf einer 4090 wenn man den Prompt einmal gefunden hat. Alle Bilder basieren auf Stable Diffusion SDXL und wurden lokal gerechnet. Der ganze Workflow umfasst rund 60 Module. Die Gesamtrechenzeit für die 4 Themen waren unter 20h, das wird aber nur einmal gemacht.

1709815040105.png1709815247437.png1709815394178.png1709815493008.png1709815554835.png
1709815608943.png1709815713422.png1709815777732.png1709815848026.png1709815951740.png
1709816228360.png1709816279426.png1709816363639.png1709816438954.png
1709816659089.png1709816790039.png1709816861976.png1709816968759.png1709817039551.png1709817118732.png

Nun würde ich das ganze gerne direkt in ein eigenes Basis-Modell gießen und wäre dann tatsächlich (erstmal) fertig :D
 
Zuletzt bearbeitet:
Wie ist denn das mit der "KI" bei Stable Diffusen, wenn es offline generiert wird, lernt da die KI noch was dazu, oder ist das berhaupt eine KI?

Die lernen generell nichts dazu. Nur die Modelle an sich, wenn sie trainiert werden. Es ist also nicht so, dass die KI im Internet nach passenden Bildern suchen könnte oder ähnliches.
Bisher muss immer noch jemand die KI mit Bildern gefüttert und trainiert haben. Egal ob das dann der PC zuhause berechnet oder irgendein Server im Netz, die KI kann nur auf diese Trainings-Daten zugreifen.

Zumindest ist das mein Stand der Dinge aber ich denke da unterscheided sich Stable Diffusion nicht von Bing, Midjourney & Co.
 
Wie ist denn das mit der "KI" bei Stable Diffusen, wenn es offline generiert wird, lernt da die KI noch was dazu, oder ist das berhaupt eine KI?
Die 'KI' steckt im Basismodell und wurde einmal mit Millionen (Mrd) Bildern einmal trainiert. Das Resultat ist eine mehrere Gigabytes große Datei mit den Gewichten des neuronalen Netzwerks und das kann man nun lokal einsetzen und Bilder erzeugen. Egal wieviele Bilder man jetzt macht, hier lernt die KI noch nichts hinzu.
Mit entsprechender Software kann man nun Bilder und deren Beschreibungen diesem Datensatz hinzufügen. Im Beispiel oben habe ich kleinere Erweiterungen trainiert (LoRas), die funktionieren nur im Zusammenhang mit einem Basismodell. Die Erweiterungen sind wiederum nur Dateien mit Gewichtungen und werden beim Renderprozess einfach 'dazugerechnet'.
 
Habe das Basismodell nochmal feinjustiert und den Aquarellteil in besserer Auflösung neu trainiert. Die Details sind wieder etwas mehr und besser geworden. Leider bin ich nun mit 24GB VRAM am Limit, höhere Trainingsauflösung als 1280x1280 geht glaube ich nicht mehr.
Alle Bilder sind vom gleichen Comfy Workflow, auch die Zusammenstellung der Modelle zur Erzeugung sind wie im letzten Posting gleich.


1710353486108.png
1710353563106.png
1710353659083.png
1710353708050.png
1710353945569.png
1710354137145.png1710354180751.png
1710354247592.png
1710354332551.png
1710354413179.png
1710354491907.png
1710354576441.png
1710354655853.png1710354700828.png
1710354819024.png1710354862852.png
1710354975249.png1710355098861.png
 
alles MS Copilot, finde ihn ganz ok nach wie vor, muss bei Gelegenheit mal was anders ausprobieren.




Jules Verne Reise zum Mittelpunkt der Erde

Der Bibliothekar

Schweine im Weltall

Pinhead und Eddie in einem Pub in Ankh Morpork

Alien mit Ostereiern

was Giger mäßiges

Synth Spieler , psychedelic Art

Ein Motiv aus The Terror (Buch)

Orang Utan mit Bitcoin
 

Anhänge

  • OIG4 (2).jpeg
    OIG4 (2).jpeg
    390 KB · Aufrufe: 9
  • OIG2.jpeg
    OIG2.jpeg
    335,9 KB · Aufrufe: 8
  • OIG1.QsYLtV.jpeg
    OIG1.QsYLtV.jpeg
    285,1 KB · Aufrufe: 9
  • OIG2 (3).jpeg
    OIG2 (3).jpeg
    210,3 KB · Aufrufe: 8
  • OIG2 (2).jpeg
    OIG2 (2).jpeg
    217,5 KB · Aufrufe: 10
  • OIGa2.jpeg
    OIGa2.jpeg
    267,4 KB · Aufrufe: 10
  • Librarian 1.jpeg
    Librarian 1.jpeg
    205 KB · Aufrufe: 10
  • _385b1833-663e-401e-8374-15a853cf04e8.jpeg
    _385b1833-663e-401e-8374-15a853cf04e8.jpeg
    303,1 KB · Aufrufe: 10
  • OIG3 (1).jpeg
    OIG3 (1).jpeg
    244,5 KB · Aufrufe: 8
Zuletzt bearbeitet:
die server werden immer schneller, das generieren dauert inzwischen zu manchen tageszeiten weniger als 10 sekunden.

die version 3.1 bringt sehr gute ergebnisse hervor und gibt dir jetzt dateinamen vor, die aus der prompt bestehen.

das mag man praktisch finden, aber es bringt auch ein neues problem mit, nämlich dass gleiche prompts dann zu gleichen namen führen und man via browser save dialog das ziel umbenennen müsste um es überhaupt abspechern zu können.

denn ich arbeite mit 10 tabs und automatisiere das alles mit mouserecordern und brauche teilweise 100 bilder, die alle auf dem gleichen prompt basieren.

jemand eine idee wie da jetzt das abspeichern organisieren kann? ;-)

meine eigenen audio- und bildbearbeitungsprgoramme haben das eingebaut wenn man´s braucht: man drückt erneut return, und die output datei wird gleichername002.bin genannt. firefox kann das logischerweise nicht...
 
4x Kandinsky 3.1

A harpsichord with a donkey, [!] a dog, a cat, and a cockerel underneath it, in the background there is blue sky with only one cloud and the sun shining behind it, emitting a wide ray of light shining onto the piano. There is also an angel [hä?] sitting on the cloud.

A car mechanic lying on the floor underneath a grand piano, which standing on a lifting ramp in order to be repaired.

A grand piano on a lifting platform in a car workshop, with a mechanic trying to repair it from underneath.

A car mechanic with his tools, lying underneath a grand piano, trying to repair it from below.
 
Zuletzt bearbeitet:
Das hat die K.I. bei "Amon Tobin - 4 Ton Mantis" ausgespuckt ;-)
 
Passt nicht:
Anhang anzeigen 217997


Auch hier etwas eng:
Anhang anzeigen 217996

Jetzt passt es:
Anhang anzeigen 217998

Am 12ten ist Releasetermin für einen Teil von Stable Diffusion 3, bin mal gespannt. Das oben ist SD XL.

Wie genial die KI ist. Nen Mensch passt halt nicht sitzend unter einen Flügel.

Mit einem Trick geht es dann doch. Einfach erst ein Foto von einem Piano generieren und dann den Bereich darunter markieren und Stable Diffusion per Inpainting noch eine Frau unter das Piano setzen lassen. Sieht sogar ziemlich gut aus das Ergebniss.

00024-3497779529.png

Oder man macht eine total einfache Strichzeichnung von einer Frau unter einem Piano und gibt das der KI als Vorlage. Oft genügen einfachste Zeichnungen und man gibt der KI ziemlich viel Freiraum. Wenn dann ein Bild schonmal besser ist als die Zeichnung nimmt man das als Grundlage und hangelt sich weiter.

piano.png

00017-3854747566.png
 


Neueste Beiträge

News

Zurück
Oben