Hoe werkt DALL·E 2?

Michiel Willekens

DALL·E 2 is een artificial intelligence model dat uitgekomen is in april van dit jaar en in de afgelopen week is de beta-versie gelanceerd. Het is een Artificial Intelligence model dat fotorealistische afbeeldingen genereert en de resultaten zijn sensationeel. Wat zijn de mogelijkheden en hoe werkt DALL·E 2?

Voor de eindgebruiker is het gebruik van DALL·E 2 simpel. Het model maakt nieuwe afbeeldingen en kan bestaande afbeeldingen aanpassen op basis van een simpele tekstuele invoer.

“vibrant portrait painting of Salvador Dalí with a robotic half face” (Bron: OpenAI)

OpenAI

De organisatie achter DALL·E 2 is OpenAI. Deze vooraanstaande onderzoeksorganisatie lanceerde eerder het baanbrekende taalmodel GPT-3. Microsoft is een van de partners en ze hebben meer dan 2 miljard dollar aan financiering verkregen. Volgens OpenAI is geavanceerde kunstmatige intelligentie een existentieel risico voor de mensheid. De missie van OpenAI is om ervoor te zorgen dat toekomstige AI-algoritmes het beste voor hebben met de mensheid en dat deze technologie niet in de verkeerde handen komt.

Wat kan DALL·E 2?

DALL-E 2 heeft drie functies: 1. het maken van nieuwe (unieke) afbeeldingen; 2. het aanpassen van bestaande afbeeldingen; 3. het maken van variaties van een afbeelding. En deze functies kunnen gebruikt worden door middel van een simpele tekstuele invoer. Er is geen talent, specialistische kennis of jarenlange ervaring meer nodig om hoogwaardige afbeeldingen te maken. Het Instagram-account van Open-AI toont regelmatig nieuwe creaties, ook Twitter staat er vol mee.

Hoe werkt DALL·E 2?

DALL·E 2 is een model dat bestaat uit meerdere neurale netwerken. De bedenkers noemen de architectuur unCLIP. Dit is een uitbreiding op een eerdere uitvinding van OpenAI: CLIP (Contrastive Language–Image Pre-training).

DALL·E 2 is een generative model, het genereert afbeeldingen op basis van tekst

Als we de architectuur van het model bekijken, dan bestaat DALL·E 2 uit twee onderdelen. Het eerste onderdeel is CLIP. Dit model combineert twee neurale netwerken, een voor taal en een voor afbeeldingen. CLIP wordt getraind op combinaties van tekstlabels en afbeeldingen. Het doel is om de tekstlabels optimaal te verbinden met de afbeeldingen. CLIP is een multimodaal netwerk, dat betekent dat concepten in taal gecombineerd worden met concepten in afbeeldingen. De grote doorbraak is dat DALL-E 2 hiermee afbeelingen kan herkennen en maken waarmee het niet getraind is (one-shot learning).

Een (versimpeld) CLIP-model dat traint op de beste combinaties van afbeeldingen en tekstlabels (bron / techniek)

Het andere onderdeel van DALL-E 2 is een generative model, dat is het onderdeel dat afbeeldingen genereert. Dit onderdeel bestaat uit een prior en een decoder. De eerste stap is dat DALL·E 2 de tekst omzet naar een text embedding, dit is een soort wiskundige representatie van de tekst. Vervolgens zet de prior de text embedding om naar een image embedding. De image embedding kan je zien als de wiskundige essentie van een afbeelding. Deze bevat alle belangrijke informatie van een afbeelding, zoals de objecten, de stijl, de kleuren etc.

Een versimpelde weergave van de architectuur van DALL·E 2 (bron)

De decoder genereert vervolgens een of meerdere fotorealistische afbeeldingen vanuit de image embedding. Dit gebeurt door middel van een diffusion model. Dit model is getraind door steeds meer ruis toe te voegen aan een afbeelding en vervolgens het model te laten ‘raden’ naar de originele afbeelding. Hierdoor leert een algoritme om logische, coherente afbeeldingen te maken. In de laatste stap worden afbeeldingen vergroot naar een resolutie van 1024 x 1024 pixels, zonder dat er kwaliteitsverlies optreedt.

Een diffuser model voegt steeds meer ruis toe en leert vervolgens hoe je uit ruis een afbeelding maakt (bron)

En met de laatste stap is het model compleet en is het model in staat om unieke fotorealistische afbeeldingen te genereren. In totaal hebben de verschillende neurale netwerken om dit mogelijk te maken meer dan 5 miljard parameters. Het trainen van een dergelijk model zou je ongeveer 1 miljoen dollar kosten bij een cloud-dienst. Dit is overigens niet mogelijk, want de broncode en de trainingsdata is niet beschikbaar voor het publiek. Zij zullen een dienst starten waarbij je betaalt voor het gebruik van DALL·E 2.

Variaties van bestaande afbeeldingen

DALL·E 2 kan geheel nieuwe afbeeldingen maken, maar kan ook bestaande afbeeldingen aanpassen en variaties maken van een afbeelding. De variaties zijn compleet nieuw, maar hebben wel dezelfde karakteristieken als de originele afbeelding.

Variaties van “vibrant portrait painting of Salvador Dalí with a robotic half face”

Het is ook mogelijk om objecten aan afbeeldingen toe te voegen of te verwijderen aan een afbeelding. Een van de meest indrukwekkende functionaliteiten van DALL·E 2 is dat de stijl, schaduws etc. kloppen in de nieuwe afbeelding.

De flamingo is telkens op een andere plaats ingevoegd, DALL·E 2 zorgt ervoor dat schaduws en reflecties kloppen

Risico’s en tekortkomingen

De voorbeelden die OpenAI geeft zijn indrukwekkend, maar er zijn ook een aantal beperkingen. De eerste beperking is dat veel gegenereerde afbeedlingen stereotyperingen zijn, doordat er een bias is in de trainingdata. Bij de zoekvraag naar CEO’s krijg je bijvoorbeeld met name (witte) mannen als resultaat. Recente werkzaamheden aan het model hebben deze stereotyperingen wel verminderd.

“A photo of a CEO”, links de originele resultaten, rechts de verbeterde resultaten (bron)

Een ander risico is ook evident. De technologie kan gebruikt worden om op grote schaal misinformatie te produceren. Het is daarom niet mogelijk om foto’s te gebruiken van (bekende) personen. Het is ook niet mogelijk om aanstootgevende zoekvragen te doen. Deze filters werken nog niet perfect, daarom kan je DALL·E 2 alleen gebruiken als je een uitnodiging hebt.

Andere tekortkomingen zijn uniek voor de werking van DALL·E 2 en hebben een technische oorzaak. DALL·E 2 heeft moeite met afbeeldingen waarin verschillende objecten specifieke eigenschappen hebben. In het model is geen specifiek onderscheid tussen objecten en eigenschappen (of stijl).

“a red cube on top of a blue cube”

Ook verslikt DALL-E 2 zich bij fotorealistische afbeeldingen van complexe ruimtes, zeker als de teksten ook moeten kloppen.

“A high quality photo of Times Square” – in dit voorbeeld kloppen de billboards niet (bron)

Zelf proberen?

Momenteel DALL·E 2 in een gesloten beta-test. Er is een wachtlijst, momenteel worden er mensen van de wachtlijst benaderd die een account kunnen aanmaken. Voor het gebruik moet betaald worden. Meer informatie staat op deze pagina van OpenAI.

Er is een open-source variant van DALL·E, dit is DALL-E mini. De resultaten hiervan zijn minder indrukwekkend. Het is wel voor voor iedereen toegankelijk en geeft een mooie inkijk in de werking van deze technologie.

What’s next?

De resultaten van DALL·E 2 zijn werkelijk verbluffend. Het is ook een enorme stap voorwaarts na de introductie van de voorganger DALL·E 1 in 2021. De slimme architectuur en multimodaliteit (de combinatie van een taalmodel en een afbeeldingenmodel) zorgen voor een nieuwe doorbraak.

De techniek achter DALL·E 2 is hot. Google heeft ook net een vergelijkbaar model geintroduceerd: Imagegen. En onderzoekers experimenteren met multimodale netwerken die taal en spraak combineren.

Wat zal de invloed zijn als het model straks commercieel beschikbaar wordt? Het zal in ieder geval zorgen voor een revolutie in het creatieve werkveld. Marketeers kunnen met een simpele zoekvraag professionele afbeeldingen genereren. De kosten voor ‘u-vraagt-wij-draaien-creativitiet’ worden nihil. Tegelijkertijd zal er meer behoefte komen aan echte creativitieit. Aan mensen die deze technologie gebruiken om op een nieuwe manier bestaande problemen op te losen.