De ontwikkeling van AI-technologie gaat snel. Een nieuw systeem toont hoe beelden op basis van tekst kunnen worden gegenereerd.
Open AI werd in 2015 opgericht als een researchorganisatie met de steun van Elon Musk en enkele andere investeerders. Open AI maakte eerder al furore met de ontwikkeling van het taalmodel GPT-3 (Generative Pre-trained Transformer 3). GPT-3 is een deep-learning-model met 175 miljard parameters en kan worden gebruikt voor het beantwoorden van vragen, het genereren van tekst en het vertalen van teksten. Verder bouwend op zijn kennis van taalmodellen lanceerde OpenAI begin april 2022 een nieuw, verbluffend AI-systeem: DALL.E2.
DALL.E2 is in staat om beelden te genereren op basis van tekst. Zo kan de gebruiker bijvoorbeeld “Astronaut rijdt op een paard” invoeren, waarna het systeem een beeld genereert van een astronaut die netjes op een paard zit. Het systeem werd gecreëerd door een deep-learning-model te trainen op basis van beelden en hun tekstbeschrijving. DALL.E2 gaat een hele stap verder dan de systemen die deep fake beelden genereren doordat het systeem ook de relaties tussen objecten lijkt te begrijpen. Hierdoor wordt het mogelijk om verschillende concepten (zoals astronaut, rijden, paard) voor het eerst op een betekenisvolle manier te combineren in een beeld.
Naast het genereren van nieuwe beelden, kan het systeem ook gebruikt worden om bestaande beelden te bewerken. Zo kan men, vertrekkende van een foto van een aap, het systeem opdragen om de aap belastingen te laten betalen, waarna het systeem de foto overeenkomstig omvormt. DALL.E2 maakt het ook mogelijk om delen van een foto te markeren en te laten invullen met een ander beeld enkel en alleen op basis van een tekstuele beschrijving van de gewenste aanpassing.
De volgende video illustreert de mogelijkheden van DALL.E2.
DALL.E2 genereert de beelden in twee stappen. Ten eerste, maakt DALL.E2 gebruik van het taalmodel CLIP, dat in staat is om beelden en tekstbeschrijvingen aan elkaar te koppelen. DALL.E2 start met het genereren van een ruwe tussenoplossing die volgens CLIP de voornaamste beeldeigenschappen omvat van de tekstbeschrijving. Vervolgens past DALL.E2 een diffusiemodel toe om de tussenoplossing te verbeteren tot het beeld helemaal voldoet aan de beschrijving volgens CLIP. Diffusiemodellen zijn ‘beeldverbeteraars’ die worden getraind door aan beelden willekeurige pixels toe te voegen, waarna men het model leert om het originele beeld terug te genereren.
Bron: OpenAI