BIM & Bier

BIM & KI - Generative Bildmodelle

Formitas AG Season 2 Episode 8

So schaffen Mensch und Maschine zusammen Mehrwerte: Von der Auswahl des KI-Modells bis zum Füttern der KI mit zielführenden Trainingsdaten. Das Bier: Brew Dog – Hop Fiction.

Kontakt BIM & Bier

  • Senden Sie uns eine E-Mail: bimundbier@formitas.de
  • Bewerten Sie uns auf Spotify: https://spoti.fi/3zdVbus
  • Folgen Sie Formitas auf Linkedin: https://www.linkedin.com/company/6420289
  • Abonnieren Sie unsere monatlichen News: https://bit.ly/3N520nZ

Danke fürs Zuhören!

“Damit wir mit generativen Bildmodellen unser Ziel erreichen, kommt es auf die Bilddaten an, die wir als Menschen dem Modell zuführen.

Hallo und herzlich willkommen zu einer neuen Folge von BIM & Bier. Wie in unserer letzten Folge sprechen wir heute über KI im Bauwesen und wie die beiden zusammen mit BIM neues Dreamteam werden können. Dabei gehen wir heute speziell auf generative Bildmodelle ein.

Dazu spreche ich heute und die erklären es bestimmt gleich auch meinen beiden Lieblings-Vormittags-Kollegen. Eine alphabetische Reihenfolge natürlich. Karas Flatten.

Und Philipp Knollmann. Da die beiden sich schon in der letzten Folge vorgestellt haben, erzähle ich hier noch mal kurz, was uns bei Formitas als Kollegen verbindet. Wir sind alle drei im Bereich digitale Transformation unterwegs, sind fasziniert von digitaler Technik und versuchen damit für uns alle eine bessere Welt zu gestalten.”

“Und wo wir aber bessere Welts sind, kommen wir direkt zu unserem Bier von heute. Das verbindet sich nämlich auch ganz gut mit diesem Gedanken einer besseren Welt, weil BrewDog Berlin hat hier ein Bier gebraut und den Namen Hop Fiction kommt wieder in eine Dose daher. Und warum machen die damit ein Stück bessere Welt?

Weil sie sind ein Deal offensichtlich mit einem Discounter, dessen Namen wir jetzt gerade nicht nennen, der aber in Deutschland ist, eingegangen. Und tatsächlich kann man jetzt zum Discounter-Preis Craft Beer kaufen von BrewDog. Und das ist nicht nur drinkable, sondern das ist sogar richtig gut.

Das kommt mit relativ wenig Umdrehung, mit 4, 2%. Das heißt, kann man gut als Daily-Drinker schreinziehen. Es ist ein Pale Ale, beschreibt BrewDog mit floralen Citrusnoten und einem Kiefergeschmack.

Das kann man gerne mal suchen, die Kiefer. Es ist relativ hopfig, nicht ganz so bitter. Farbe ist fast Gülden und Hopfen, das übliche Citral, Mosaik, Simcoe und dann haben sie noch Talus und Loral reingetan.”

“Schmeckt also sehr gut und ich sag Prost. Und wo wir gerade über Fiktion reden, die Hopf-Fiction, bei KI geht es im Moment auch viel um Fiktion. Haben wir gelesen, dass die eine oder andere Firma ihren CEO durch eine KI ersetzt.

Ja, das ist einfach sehr gut.

Wir hatten natürlich darüber gestern auch ein angeregtes Gespräch und ja, es ist ein spannender Bereich im Thema der KI.

Ja, meint ihr das geht?

Ja, ich behaupte ja, dass das eher zu katastrophalen Ergebnissen führt, wenn man das wirklich durchzieht. Und die chinesischen Firmen, die das angeblich da tun, die, ja, ich hoffe mal nicht, dass die angeblich sind, ja sehr erfolgreich, weil die Stock-Prize, also die sind schon hochgegangen, aber insgesamt glaube ich einfach, dass das viele, viele Probleme mit sich bringt. So was wie Mangel der Haftungsfragen, also du oder Fragen der Haftung, die nicht ungeklärt sind, das sind die Hauptprobleme dabei.”

“Der eine Punkt, wo es halt tatsächlich einigermaßen Sinn macht, ist auch so ein bisschen diese Analogie zum menschlichen Handeln, oder zum Auto fahren, dass dort nämlich die reduzierten menschlichen Fehler bei diesen ganzen selbstfahrenden Autos in der Zukunft hoffentlich den Durchbruch bringen. Also im Durchbruch der selbstfahrenden Autos. Und das ist genau der gleiche Aspekt, den kann man natürlich auch in der Stelle einwenden.

Aber was vor allem dabei interessant wird, es handelt sich dabei eher um Assistenten als um Führer.

Also selbstfahrende Fahrzeuge und Durchbruch, ist natürlich auch ein guter Satz zu erwähnen. Aber ich finde halt das Spannende daran ist, ich fände es eigentlich cool, wenn das eine Zeit lang so bleiben würde, um mal den Beweis zu führen, ob es denn wirklich so katastrophal wäre. Also bei sowas wie Autofahren sind wir davon überzeugt, dass das auf jeden Fall besser ist, weil die Maschine weniger Fehler macht.”

“Und CEO ist sowas, das scheint so im kreativen Bereich zu liegen. Aber ist das überhaupt so? Also ist das so kreativ?

Also ich glaube deswegen, das unterstreicht eben, dass so eine AI als Assistent für einen CEO sehr wichtig sein kann. Vor allem dann, wenn wir über datengetriebene Entscheidungen reden. Darin wird die AI oder die Künstler-Intequenz wahrscheinlich herausragend Ergebnisse bringen und Sachen bringen.

Aber wenn die Datengrundlage halt nicht gut ist, dann bringt das natürlich auch nichts. Dann ist da ein Bias in diesen Entscheidungen drin. Ja, und deswegen gibt es halt viele, viele Fragen dahinter noch.

Das ist ein sehr guter Punkt und es war ja auch ein bisschen der Tonus von unserem letzten Gespräch, dass KI und Mensch eigentlich gerade in dieser Kombination dann das Dream-Team auch erst bilden und jeweils die Schwächen des anderen dadurch ein bisschen ausmerzen können. Also ich denke, wir haben da ganz klare Vorteile auch beim Einsatz von KI und Caris hat auch gerade schon ein paar angesprochen. Neben den datenbasierten Entscheidungen gibt es da natürlich auch Effizienz-
und Geschwindigkeitsgewinne oder die Objektivität der KI, Kostenreduktion oder die kontinuierlichen Arbeitszeiten. Aber auch eben ein paar Nachteile, zum Beispiel den Mangel an Intuition, Kreativität oder sogar Menschlichkeit, aber auch Ethik und Moral, die mangelnde Anpassungsfähigkeit oder weitere andere menschliche Eigenschaften, die dann der Mensch da in die Gleichung bringt. Was aber auch wiederum eine philosophische Frage aufwirft, wollen wir wirklich eine KI, die da menschlich ist und möglichst menschenähnlich oder wollen wir da doch eine KI, die da einige menschliche Eigenschaften eben nicht übernimmt, beispielsweise negative Emotionen, Hass, Geir, Neid, um da mal wenige zu nennen, wollen wir natürlich nicht, dass die KI-Modelle von morgen das auch übernehmen.

Und genau, ich denke, gerade in dieser Kombination Mensch und KI wird da die volle Stärke entfaltet und das Beste aus beiden Welten gewonnen.”

“Wenn das Thema heute ist ja generative Bildmodelle, also uns geht es ja auch so ein bisschen speziell darum, wie kann jetzt eigentlich sowas als Werkzeug eingesetzt werden? Natürlich unter all diesen Aspekten, also ich sag mal, wenn ich in dem Architekturbereich eine Bildmodellierung mache, dann steckt da ja auch all sowas drin. Da steckt auch ethische Themen drin, da stecken gesellschaftliche Themen drin, weil Architektur immer all das ist.

Und wir wissen ja aus der Erfahrung, dass wenn man diesen Modellen, die es da jetzt so am Markt gerade verfügbar gibt, naja, die Frage nicht zu konkret stellt, können da sehr skurrile Sachen herauskommen, die diesen ethischen Ansprüchen und philosophischen Ansprüchen und so weiter einfach überhaupt nicht entsprechen. Also da kommen wirklich die seltsamsten Dinge mal raus. Also man merkt ja daran, so einfach ist es nicht, da wirklich was produktives Werkzeug draus zu machen.”

“Also wenn man mal den Aspekt KI soll nicht Mensch sein, grad mal ausblenden und einfach nur sagen, okay, wie kann ich jetzt sofort losarbeiten, kann man eigentlich sagen, einfach losarbeiten ist halt nicht. Also es steckt noch viel dahinter.

Also ich glaube, da ist das Thema halt, dass diese Modelle, wenn man sie einsetzen möchte und wenn man den wirklichen Use-Case entwickeln möchte, dass man sie dann halt einfach weiter anpassen muss. Man muss sie halt zuschneiden genau auf diesen Use-Case. Aktuell sind diese Modelle einfach natürlich riesig und allgemein, aber das hilft einem halt auch nicht so viel weiter.

Das heißt, man landet eigentlich an dem Punkt, dass man sagt, ich möchte von diesem allgemeinen Modell hingehen und möchte das jetzt auf meinen Anwendungsfall spezialisieren.”

“Ja, wenn wir über die Qualität auch der Ausgaben reden, denke ich, können wir da an zwei Punkten ansetzen. Genau einmal die Eingangsdaten, auf denen das Modell trainiert wird. Dann aber auch in der Inference die unterschiedlichsten Promts, die dann verwendet werden, also die Eingaben.

Wie präzise sind die und werden die auch vom Nutzer genauso eingegeben, wie das KI-Modell das auch vorsieht? Beziehungsweise gibt der Nutzer da auch genau das ein, was er letztendlich auch haben will? Oder widerspricht er sich da nicht in einigen Punkten?

Ich glaube, wir sollten dazu noch mal ein, zwei Begrifflichkeiten klären, die wir jetzt weiter verwenden werden, um das ganze sprachfähiger zu werden und auch alle mitzunehmen. Zum einen haben wir, glaube ich, den Begriff der LLMs. Das sind die Large Language Models.”

“Das sind sozusagen die Modelle, die jetzt so in der Öffentlichkeit bekannt sind. ChatGPT ist also eins dieser LLMs. Da geht es wirklich darum, Frage, Antwort, Spiel oder Input, Output irgendwie in eine Form von Sprache zu haben.

Und ich denke, LLMs ist auf jeden Fall ein Fall dieser generativen Modelle. Und eine andere Möglichkeit ist zum Beispiel, oder ein anderer Fall dieser generativen Modelle sind diese Bildmodelle. In dem Fall also generative Bildmodelle.

Beispielsweise Stable Diffusion ist ein öffentlich zugänglicher, also ein Open Source-Bildmodell, welches auf Eingabe von Promts Bilder erzeugen kann. Das kann auch Bilder weiterverarbeiten. Also man kann da doch Bilder reinpacken.

Genau, also wenn wir von generativen Bildmodellen sprechen, dann meinen wir sowas wie Stable Diffusion oder Mid Journey. Das ist die kommerzielle Alternative dazu.”

“Ja, theoretisch können wir die Definition auch noch ein bisschen breiter aufspannen. Angefangen beim Thema KI oder AI, Artificial Intelligence. Was ist das überhaupt?

Ich glaube, darunter verstehen wir vor allen Dingen. Es gibt vor allen Dingen Maschinen, die dazu in der Lage sind, da menschliches Verhalten nachzuahmen, vermeintlich intelligentes Verhalten, beispielsweise auch Logiksysteme oder Knowledge Graphs. Und da drinnen sitzt dann wiederum das maschinelle Lernen, was dann vor allen Dingen beinhaltet, dass Maschinen in der Lage sind, durch Erfahrungen sich auch immer weiter zu verbessern.

Und ein Teil dieses maschinellen Lernens, da gehören beispielsweise dann auch Random Forest Modelle dazu. Aber in diesem maschinellen Lernen gibt es dann wiederum Deep Learning. Und das zeichnet sich vor allen Dingen durch diesen Multi-Layer Approach aus, unterschiedliche Ebenen, die das Netzwerk enthält, bei denen es unterschiedliche dann künstliche Neuronen gibt, die dann auch dem menschlichen Gehirn danach empfunden sind.”

“Und eigentlich alle Modelle, von denen wir heute sprechen, ob das jetzt die Large Language Models sind oder Stable Diffusion, sind da eine Unterkategorie vom sogenannten Deep Learning, was vor allen Dingen durch die erhöhte Datenverfügbarkeit und Hardware-Verfügbarkeit in den letzten Jahren dann nochmal enorm an Bedeutung gewonnen hat.

Ich hab da noch eins um den Begriff, den wir vielleicht mal kurz ansprechen soll.

Die Loras. Vielleicht kannst du dazu noch zwei, drei Sätze.

Also wenn einer unserer Züherer dann nicht an Papagei denkt, soll er bitte gerne einen Kommentar schreiben. Da freu ich mich schon drauf.

Genau. Loras sind eine relativ neue Entwicklung, steht für Low-Rank Adaptation und ist da auch eine Subkategorie vom sogenannten Transfer Learning. Also beim Transfer Learning versucht man schon, ein vorhandenes Modell zu nutzen, das schon jede Menge gelernt hat.”

“Beispielsweise Grammatik und Syntax jetzt bei Sprachmodellen oder auch Objekte zuordnen kann zu Wörtern, jetzt bei bildgenerierenden Modellen. Und Loras ist glaube ich so 2022, das erste Mal da offiziell in Erscheinung getreten und spricht dann von einem kleines Modell beziehungsweise nur einen ganz kleinen Teil des Modells, um zu trainieren und zu personalisieren auf den Use-Case oder den Datensatz, den man da eigentlich bearbeiten will. Also in der Praxis wird dabei das neuronale Netz eingefroren und dann nur bestimmte neue Neuronen oder nur ein bestimmter Teil des Netzwerks weiter trainiert, um dann so diese personalisierten Modelle auch mit sehr wenig Daten und sehr wenig Rechenleistungen zur Verfügung zu stellen.”

“Ja, das genau macht es eigentlich so spannend für genau die Diskussion, die wir hier führen wollen, dass man so die Möglichkeit hat, diese Modelle wirklich auf den Anwender zuzuschneiden. Und wenn wir uns jetzt über generative Bildmodelle unterhalten, dann ist es natürlich dabei schon mal das erste Problem, was man hat, dass die überhaupt viel zu diffusen, also Stable Diffusion hört sich so stabil an, aber dabei kommt dann eher so, ja, kommt auch ziemlich viel Moks bei raus. Und man muss dem noch ziemlich viel Information mitgeben, damit der das richtig versteht und einem nicht etwas erzeugt, was man wirklich gar nicht sehen möchte.

Und da wird es halt eigentlich spannend, wenn wir solche Modelle weiter anpassen, zum Beispiel im Architekturkontext, in der Entwurfsphase für Entwürfe etc. diese dann noch weiter anzupassen und damit wirklich die Sprache und die Bildsprache und die Schriftsprache von einzelnen Unternehmen mit zu integrieren in so ein Modell. Und ich glaube, dann wird es wirklich sehr, sehr spannend.”

“Ich nehme mal gerade ein bisschen die Geschwindigkeit raus, weil wir reden von künstlicher Intelligenz, aber die Idee ist ja immer, dass wir die künstliche Intelligenz und die Intelligenz machen wir uns Menschen, aber das gilt halt auch nicht für alle Menschen. Also das war jetzt sehr viel Input. Gehen wir mal kurz auf eine menschliche Ebene zurück oder auf eine mittlere Intelligenz-Ebene.

Wenn wir über einen Anwendungsfall reden, dann sollten wir uns mal kurz ein Bild verschaffen, was könnte denn dieser Anwendungsfall sein, mit dem wir dann all das, Machine Learning, Deep Learning, Forrest Gump habe ich gehört.

Was kann denn der User jetzt erwarten? Also die Anforderung ist ein bisschen, ich bin in der Architekturentwicklung, steht ziemlich am Anfang in einem Projekt und möchte jetzt eigentlich zum Beispiel Varianten durchspielen, erste Ideen entwickeln, vielleicht mal eine andere Materialität durchprobieren. Das sind alles Dinge, die sehr handwerklich passieren.”

“Immer noch und sehr repetitiv sind. Ich habe dann vielleicht ein 3D-Modell und so, das habe ich alles, aber ich muss dann Mappings drauf machen, ich muss Renderings erstellen. Für diese erste D-Entwicklung muss ich relativ viel Skizzen machen.

Und da kann jetzt, das ist ja eigentlich so Ansinnen, dieses Ding, diese Maschine zu unserem Werkzeug werden. Um uns da schneller zu machen und uns noch kreativer zu machen, weil sie uns ein viel breiteres Feld, also nicht nur das, was in unserem Kopf ist, sondern im Prinzip ermöglicht, auf Kreativität aus vielen Köpfen zuzugreifen gleichzeitig. Da starten wir eigentlich.

Also wir wollen solche Bilder generieren. Und jetzt haben wir schon gehört von dir, Caris, Stable Diffusion oder Mid Journey, wie sie alle heißen, bringen uns eigentlich nicht weiter, weil da zapfen wir ein zu randomisiertes Wissen an. Also es ist nicht spezifisch genug.”

“Ja, kann man so sagen. Ich glaube, es wird da interessant eben oder dieser Anwendungsförmung weiter zu beschreiben. Ich stelle mir also vor, es gibt einen Entwurf von einem Gebäude, von einer Fassade, von irgendetwas.

Und ich möchte diesen Entwurf in eine Bildsprache bringen, in einen Entwurf, der passend zu dem Stil meines Büros zum Beispiel ist. Oder noch spezieller, mich interessiert jetzt einfach nur, dass dieser eine Pfosten da nicht mehr Sichtbeton ist, sondern der soll jetzt bitte mit Holz verbrettert sein. Und genau da, genau da bringen tatsächlich diese Modelle, also das ganze Technik, so eine Art Maskierung.

Man kann also das Bild sich auswählen, wählt den Bereich aus, den man da verändern möchte und übergibt dem Modell dann noch mal Informationen dazu, was man dort ändern möchte.

Also das ist auch ein wichtiger Punkt. Es ist nicht nur Sprache, mit dem wir das steuern können, sondern es kann auch Bildmaterial sein.

Absolut.”

“Nicht nur im Training, das wäre das eine, dass ich die KI trainiere über Bilddaten, sondern ich kann quasi meinen Prompt aus einem Bild erzeugen.

Genau, oder Bild plus Prompt, oder genau dann Bild Ausschnitt und dann genau schreibt man dann eben den Text dazu, bitte mach mir diese Säule jetzt aus Hartholz oder etwas ähnlichem. Genau das ist alles möglich.

Plus ich kann der KI auch sagen, was sie nicht tun soll. Das vergisst man ja immer, alle schreiben nur, was sie wollen, aber man kann auch sagen, was man nicht will. Richtig.

Genau, das ist dieser klassische Fall, da steht dann immer sowas drin wie Bad Dream will man nicht und Tu irgendwie und dann irgendwie ein kaputtes Gesicht möchte man nicht und ich weiß nicht, was alles, weil so viele Menschen, zu viele Finger, Bad Hands, das will bitte auch keiner sehen. Und da gibt es eine ganze Menge an interessanten Keywords, die man bei diesem Negativprompt mitnehmen muss, damit man da ein Bild, ein Ergebnis erzielt, was ansatzweise brauchbar ist. Vor allem, wenn es darum geht, sowas wie Menschen darzustellen oder Technik auch.”

“Also ich hatte den Fall, da hat jemand versucht, irgendwie so ein Labortisch sich da darzustellen. Aber die Instrumente, die da auf dem Labortisch waren, die waren halt wirklich fantasiert. Also die sahen so aus, wie ein Labortisch vielleicht aussehen könnte, wenn man nicht genau hinguckt.

Also ich hab so einen Fall auch gehabt. Ich hab versucht, was sehr Abstraktes zu erzeugen. Nämlich wollte ich, dass ein Szenenbild erzeugt wird zum Themenfeld Gewässerforschende.

Die sollte auf einem Fluss sein. Und die KI, die ich genutzt hab, war 100% davon überzeugt, es müssen Kinder mit Hüten sein, die in einem Boot sitzen. Ich konnte den Prompt verändern, wie ich wollte.

Es kamen immer Kinder auf einem Boot. War schon auf dem Fluss, die hatten immer einen Hut auf. Es waren immer Kinder, ich weiß nicht warum.”

“Ja genau, aber dieses Problem führt genau dahin, dass es einfach notwendig ist, diese Modelle, diese sehr allgemeinen Modelle weiter anzupassen und auf den Anwendungsfall zu schärfen. Wenn man das nicht macht, dann muss man sich halt super viel mit diesen, auch mit diesen Negativpromts muss man sich dann beschäftigen. Die kann man halt so ein bisschen, glaube ich, gegensteuern, indem man das Modell halt schon, bevor man überhaupt da den Prompt eingibt, schon in eine Richtung feintunt.

Und das Interessante ist also, man kann also jetzt diese sehr allgemeinen Modelle Richtung Architektur bringen und dann kann man die noch mal weiter feintunen, genau um diese Bild- und Wortsprache vielleicht eines Kunden oder eines Anwenders zu treffen.”

“Das heißt, ich könnte auch hingehen, wenn ich jetzt Architektur für einen Corporate-Kunden mache, also sprich, der viele Gebäude hat, die vielleicht in einem ähnlichen Stil sein sollen, könnte ich im Prinzip das, was er schon hat, da reinschmeißen, reinfüttern in den Prompt quasi und könnte sagen, okay, machen wir was Ähnliches. Auch wenn die meisten Architekten das nicht wollen, die wollen natürlich immer was Uniques, was für sie spricht. Aber wäre also eine Möglichkeit, die man gehen könnte?

Genau, das beziehungsweise umzutrainieren mit dem Datensatz von diesem Unternehmen, sodass die KI dann da nicht nur sehr gut generalisieren kann, sondern im Gegenteil auch sehr spezifisch bestimmte Architekturstile beispielsweise dann auch wiedergeben kann. Und genau dafür braucht man natürlich einen vorher erstellten Trainingsdatensatz, wo man auch zu jedem Bild dann natürlich entsprechend viele Informationen mitgeben muss, beispielsweise über den Bau- und Architekturstil etc.”

“damit das Modell das in Zukunft auch lernt. Und wenn man dann noch mal auf den Bauhausstil verweist, sage ich jetzt einfach mal als Beispiel, weiß das Modell dann direkt, wie das ungefähr aussehen muss.

Wenn wir über solche Modelle reden, Philipp Wurz ist glaube ich eben erwähnt, bei zum Beispiel Stable Diffusion reden wir von einem Open Source Thema. Ich will jetzt mir so eine KI antrainieren. Ich könnte ja jetzt ein fertiges Modell nehmen, was am Markt ist, da haben wir aber schon gelernt, da kommen wir eigentlich nicht mit weiter.

Also sprich, ich muss eigentlich was selber machen oder jemanden für mich selber machen lassen. Warum ist so Open Source eigentlich dabei so wichtig dann für das ganze System?”

“Also auf unterschiedlichen Ebenen ist das ganz wichtig. Ich denke, auch von denen, die Konzerne profitieren da von dieser riesigen Open Source Crowd und haben damit jede Menge Entwickler, die die natürlich auch nicht bezahlen müssen. Natürlich ist es aber auch für den Rest der Gesellschaft wichtig, weil wir dadurch die KI-Modelle dann auch in der Öffentlichkeit entwickeln können.

Und es ist auch sehr wichtig, dass die oder je nach Anwendungsgebiet von den Modellen, dass die dann sehr geringen Bias haben, beziehungsweise man denen dann auch nachverfolgen kann. Aber können wir auch gerne im Detail darauf eingehen, wie man denn da jetzt so ein personalisiertes Modell erstellt?”

“Mein Anhang dazu wäre jetzt noch das Thema Standards. Und wir befinden uns halt gerade in so einer Findungsphase. Diese KI-Modelle, also man könnte jetzt glauben, der Standard wäre ChatGPT, OpenAI.

Und sicher wäre das auch der Wunsch von OpenAI, dass das so ist. Und die tun jetzt gerade alles dafür, um diesen Standard oder das als Standard angesehen zu werden. Aber die Realität sieht halt eben so aus, dass es diese Open-Source-Community gibt, die in einem rasenden Tempo entwickelt und auch immer ein Vielfaches innovativer ist, als diese Unternehmen mit den besten Ingenieuren und AI-Wissenschaftlern das überhaupt sein können.

Und wir können jetzt aktuell, sind wir noch in der Lage dazu, dort Standards zu etablieren, die wirklich so offen sind. Ja, dass eben nicht klar ist. Wir müssen unbedingt ChatGPT nehmen dafür.”

“Wir müssen nicht unbedingt DELLY nehmen. Das ist jetzt mal die kommerzielle Variante der generativen Bildmodelle von OpenAI. Wir sehen das bei den Bildmodellen jetzt schon.

Also DELLY interessiert keinen. Wir haben ganz andere Modelle, die viel besser sind. Und die setzen die Standards.

Und wenn überhaupt integriert DELLY danach die ganze Technologie wieder zurück bei sich. Und deswegen ist es so wichtig, da dran zu bleiben und sich nicht wieder in die gleiche Situation zu begeben, in der wir uns jetzt befinden, wenn wir Richtung Systemen, also Systemsoftware schauen, Windows, Apple und so weiter.”

“Und teilweise sind die Open Source Modelle, du hast es ja auch gerade schon umrissen, da einfach deutlich leistungsstärker als die kommerziellen Modelle. Also beispielsweise ist das Lama 2 Modell von Facebook, was vor ein paar Wochen da auch öffentlich gemacht wurde und auch Open Source ist mittlerweile, um einiges stärker als ChatGPT selber. Oder beispielsweise hatten verschiedene Benutzeroberflächen jetzt bei den bildgenerierenden Modellen, da auch schon lange die Impaint-Funktion, die der Karis auch eben beschrieben hatte, also wo man eine Maske dann nochmal für so ein Bild erstellt, mit Journey als kommerzieller Anbieter für so ein Bildmodell, hat das aber erst diese Woche rausgebracht.

Und ist damit auch noch deutlich teurer natürlich, als die meist kostenlosen Open Source Modelle. Also mittlerweile muss man schon sagen, dass die Open Source Modelle günstiger sind und leistungsstärker als die kommerziellen Alternativen.”

“Und man darf die Ergebnisse trotzdem kommerziell nutzen, das muss man ja auch nochmal sagen.

Man kann diese Open Source Modelle eben nehmen und kann sie in einem kommerziellen Sinn für sich anpassen und dann einsetzen. Und ist eben nicht abhängig davon, dass irgendjemand einem da drin die Rechte gewährt, etc. Das ist wirklich der riesige Vorteil, den diese Open Source Modelle aktuell mit sich bringen.

Und ja, ich bin einfach gespannt, wie das sich weiterentwickelt. Und ob es wirklich möglich wird, die als Alternative zu etablieren, die auch kommerzielle Relevanz haben. Oder ob es wieder wie bisher in der Technologie und der Entwicklung häufig doch von ein, zwei großen Playern alles bestimmt wird.

Es gibt nur noch so einen Aspekt dabei. Wir haben darüber gesprochen, wie kommt man eigentlich zu so einem Modell? Das muss trainiert werden.

Wie spreche ich es an? Wie kriege ich Daten raus? Damit ich dahin komme, nach dem ganzen Training, brauche ich ja trotzdem irgendwie so ein Frontend.”

“Also ich brauche einen Punkt, wo der End-User, sprich jetzt mein Mitarbeiter, Mitarbeiterin, dann überhaupt diesen Prompt, das Bild wie auch immer einfügt. Wenn wir jetzt auf die Kommerzellenanbieter gucken, die haben natürlich immer irgendeinen Webinterface oder im Fall von Mid Journey gehe ich zum Beispiel über einen Discord, was natürlich unternehmstechnisch absolute Katastrophe ist, weil natürlich auch noch alle, die in diesem Discord sind, dann auch noch davor partizipieren, außer ich kaufe mit dem teuersten Modell. Das heißt, neben dem Thema KI habe ich auch das Thema, dass ich irgendwie einen Approach machen muss für den User, dass er überhaupt dahin kommt, oder?

Auf jeden Fall. Also ich denke, dass das Hauptproblem natürlich für die Anwender jetzt mal auf die Architekturbranche bezogen ist, dass sie sich natürlich nicht damit viel beschäftigt haben. Wie muss ich jetzt hier genau meinen Prompt formulieren?”

“Wie mache ich meine Eingabe genau? Und da hilft es natürlich, das einfach stark zu reduzieren. Also es gibt unendlich viele Einstellungen, die man davor nehmen kann, aber man kann auch einfach eine Art Basiseinstellungen wählen, die dann dem Nutzer halt vielleicht nicht mehr zur Verfügung gestellt wird, mit der das Ganze funktioniert.

Das heißt, man muss da einfach reduzieren, reduzieren, um dann ein Interface zu entwickeln, was dann wirklich für den Anwender auch brauchbar ist.

Genau, ist ein sehr guter Punkt. Also man kann einen guten Teil des User-Interfaces auch weg abstrahieren, je nach Use-Case. Es gibt aber auch bei den Benutzeroberflächen einige Sachen, die da Open Source sind, beispielsweise Easy-Diffusion oder Automatic 1111, die da dann auch die Möglichkeiten einräumen, dass das Modell dann auch anzupassen und weitere Promts oder Befehle noch mitzugeben.”

“Ich glaube, um dann wirklich zum Einsatz zu kommen, ist es auf jeden Fall eine Anpassung dieses Interfaces notwendig. Man muss diese Modelle vom Allgemeinen hin zum Anwendungsfall hin entwickeln und dann noch weiter, vielleicht auf einen ganz speziellen Anwendungsfall, noch weiter feintunen. Feintuning ist da der Begriff, der auch in der Community sehr viel verwendet wird.

Und das Gleiche gilt auch für die Eingabe, dass dem User oder dem Anwender müssen da die Möglichkeiten so weit reduziert werden, dass er auch damit arbeiten kann und nicht überfordert ist mit den ganzen Einstellmöglichkeiten.

Das Interessante ist ja eigentlich, wenn ich jetzt gerade darüber nachdenke, man will so ein Modell anlernen, will ein größeres Architekturbüro, sagt, wir wollen so was erzeugen, wir wollen das Modell trainieren, dann brauchen wir die Trainingsdaten. So ein Architekturbüro, die haben immer eng eine Bibliothek im Normalfall, wo Architekturbücher drin stehen und jeder, der Architektin, der da arbeitet, oder Architektin, haben auch im Prinzip eine Bildbibliothek in ihrem Kopf, was sie so gut finden. Und jetzt müssen wir ja aber eigentlich hingehen und das alles sammeln.”

“Wir müssen das da alles rausholen. Das heißt, die müssen eigentlich hingehen und erstmal eine riesige Bibliothek erstellen an Bildmaterial, an Materialien, an Stilformen. Also, Philipp sprach eben vom Bauhausstil.

Ja klar, ist eine grobe umzureißende Stilform. Aber was davon jetzt? Was gefällt mir denn?

Also das Spannende ist, um solche Modelle überhaupt generieren zu können oder trainieren zu können, muss ich eigentlich wieder zurück und mir selber die Frage stellen, was finde ich denn gut? Was will ich denn eigentlich haben? Oder was will ich auch nicht haben?

Weil wir müssen ja auch den Negative Prompt im Prinzip füttern. Okay, ich will keinen Brutalismus oder sowas. Weil ich finde Beton nicht nachhaltig, deswegen mache ich das nicht mehr.”

“Wir müssen uns vor allem auch klar werden über die Sprache, mit der wir das beschreiben. Da hilft es halt nicht, wenn irgendwie, sage ich mal, der Kollege, der gerade erst seit einem halben Jahr dabei ist, diese Beschreibung macht, weil der vielleicht das gar nicht so beschreibt wie das Unternehmen oder die führenden Köpfe. Es muss schon eine Zusammenstellung sein von Kernpersonen, von die genau diese Bilder oder diese Datensätze kuratieren, um da sinnvolle Ergebnisse mit zu erzielen.

Also am Ende werden wir uns wahrscheinlich auch wieder mit beschäftigen müssen, wie schaffen wir es überhaupt, diese Datensätze gut zu erzeugen? Wie schaffen wir es die Leute, ja überhaupt damit zu konfrontieren, auch sich die Fragen zu stellen, wie könnte man das jetzt in unterschiedlichsten Wörtern zusammenfassen und das Ganze dann noch sinnvoll abzuspeichern und ja immer wieder zu verwenden zu können.

Das heißt, jeder sollte jetzt schonmal anfangen, solche Sachen zu sammeln. Am besten mit einem Hashtag-Verzeichnis, damit es irgendwie überhaupt sortierbar ist.

Das wird auf jeden Fall zur Integration einiges helfen.”

“Wir können auch sicherlich dabei helfen, aber ja, ihr habt recht, es ist ein längerer Prozess und es kommt auch vor allen Dingen darauf an, diesen Datensatz dann gut zu kontextualisieren. Das heißt dann auch jedem Bild dann die entsprechenden Promts und Informationen dann mitzugeben, die alle in diesem Bild enthalten sind. Sonst kann das Netzwerk natürlich dann einige Elemente, die man vergisst, dann auch nicht mitlernen.

Das ist eigentlich der spannende Aspekt. Neben dem ganzen technischen Modell zu haben und aufzubauen und wo leg ich es denn hin? Da haben wir letztes Mal drüber gesprochen, auf meinen eigenen Server oder auf irgendeinen Cloud-Anbieter oder wie auch immer.

Das ist eigentlich gar nicht so interessant, weil das sind nur technische Lösungen. Viel krasser ist eigentlich genau dieses Thema wie Mensch und Maschine zusammen jetzt Mehrwerte schaffen. Und das ist dieser Anwendungsfall.”

“Generative Bildmodelle. Ja, die Zeit ist schon wieder vorbei. Ich hoffe, es hat euch Spaß gemacht, mir hat es Spaß gemacht.

Ich hoffe, denen, die uns zuhören, hat es auch Spaß gemacht. Ich sage tschüss und bis zum nächsten Mal. Auf Wiedersehen.

Habt ihr Fragen, Feedback oder einen Themenvorschlag? Dann schreibt uns eine Mail an bimundbier at formitas.de und wir sehen uns dann bald wieder.”

Von BIM & Bier: BIM & KI - Generative Bildmodelle, 6. Sept. 2023
https://podcasts.apple.com/de/podcast/bim-ki-generative-bildmodelle/id1605115573?i=1000626948662
Dieses Material ist möglicherweise urheberrechtlich geschützt.