OpenAI’s nieuwe AI-beeldgenerator verlegt de grenzen met snelle details en resolutie – Ars Technica

Een reeks afbeeldingen gemaakt met behulp van OpenAI's DALL-E 3-beeldmontagemodel.

Op woensdag OpenAI Kondig aan DALL-E 3, de nieuwste versie van het AI-beeldsynthesemodel dat volledige integratie met ChatGPT biedt. DALL-E 3 geeft afbeeldingen weer door complexe beschrijvingen nauwkeurig te volgen en de creatie van tekst in de afbeelding (zoals labels en tags) af te handelen, wat een uitdaging is voor eerdere modellen. Momenteel bevindt het zich in een onderzoekspreview en zal begin oktober beschikbaar zijn voor ChatGPT Plus- en Enterprise-klanten.

Net als zijn voorganger is DALLE-3 een tekst-naar-afbeelding-generator die nieuwe afbeeldingen creëert op basis van geschreven beschrijvingen die prompts worden genoemd. Hoewel OpenAI geen technische details over DALL-E 3 heeft vrijgegeven, is het AI-model dat de kern vormt van eerdere versies van DALL-E getraind op miljoenen afbeeldingen gemaakt door menselijke kunstenaars en fotografen, waarvan sommige een licentie uit voorraad hebben. sites zoals Shutterstock. DALL-E 3 volgt waarschijnlijk dezelfde formule, maar met nieuwe trainingstechnieken en langere computationele trainingstijd.

Afgaande op de voorbeelden die OpenAI op zijn promotieblog heeft verstrekt, lijkt DALL-E 3 een radicaal capabeler fotomontagemodel te zijn dan al het andere dat beschikbaar is als het gaat om het volgen van aanwijzingen. Hoewel de voorbeelden van OpenAI zorgvuldig zijn gekozen vanwege hun effectiviteit, lijken ze getrouw en overtuigend snelle instructies te volgen om objecten met minimale vervormingen weer te geven. Vergeleken met DALL-E 2 zegt OpenAI dat DALL-E 3 kleine details zoals handen effectiever optimaliseert, waardoor vrijwel aantrekkelijke beelden worden gecreëerd zonder de noodzaak van hacking of snelle engineering.

DALL-E 3-afbeelding geleverd door OpenAI met de prompt: “Illustratie van een avocado die in de stoel van een therapeut zit en zegt: ‘Ik voel me zo leeg van binnen’ met een gat ter grootte van een gat in het midden. Therapeut, lepel, krabbelt aantekeningen.”

Open AI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Een uitgestrekt landschap volledig gemaakt van verschillende soorten vlees strekt zich uit voor de kijker. Dunne, sappige heuvels van rosbief, bomen van kippendijen, rivieren van spek en rotsen van varkensvlees creëer een surrealistisch tafereel”, maar de aanblik is smakelijk. De lucht is versierd met pepperonizon en salamiwolken.

Open AI
DALL-E 3-afbeelding geleverd door OpenAI met de prompt: “Miniatuur van een café versierd met kamerplanten. Houten balken kruisen erboven, waardoor een koud drankstation met kleine flesjes en kopjes wordt benadrukt.”

OpenAI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Een close-up van een heremietkreeft genesteld in nat zand, met zeeschuim in de buurt en details van de schaal en zandtextuur benadrukt.”

OpenAI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Papierkunst toont een meisje dat haar kat een zachte knuffel geeft. Ze zitten allebei tussen potplanten, terwijl de kat tevreden spint terwijl het meisje lacht. De scène is versierd met handgeschept papier bloemen en bladeren.”

OpenAI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Een pixelart-weergave van Coit Tower die hoog op Telegraph Hill staat, met een panoramisch uitzicht over de stad beneden en vogels die rondvliegen.”

OpenAI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Kleine aardappelkoningen dragen majestueuze kronen, zitten op tronen en houden toezicht op een enorm aardappelkoninkrijk vol aardappelthema’s en aardappelkastelen.”

Open AI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Illustratie van een menselijk hart gemaakt van transparant glas, staande op een voetstuk midden in een stormachtige zee. Zonlicht breekt door de wolken, verlicht het hart en onthult een klein universum binnenin .” “Het citaat ‘Vind het universum in jezelf’ is in vette letters op de horizon geëtst.”

OpenAI
DALL-E 3-afbeelding geleverd door OpenAI met de claim: “Vrouw van middelbare leeftijd van Aziatische afkomst, haar donkere haar met zilveren strepen, gebroken en gebarsten, ingewikkeld ingebed in een zee van gebroken porselein. Porselein schittert met spetterende verf. Patronen in een harmonieuze mix van blauw. “Briljant en mat, groen, oranje en rood, haar dans wordt gevangen in een surrealistische combinatie van beweging en stilte. Haar huidskleur, een lichte porseleinen tint, voegt een bijna mystieke kwaliteit toe aan haar vorm.”

OpenAI

Ter vergelijking: Midjourney, een concurrerend AI-beeldsynthesemodel van een andere leverancier, geeft realistische details goed weer, maar vereist nog steeds een aanzienlijke hoeveelheid niet-intuïtief sleutelen aan aanwijzingen om enige controle over de beelduitvoer te krijgen.

De DALL-E 3 lijkt ook met tekst in afbeeldingen om te gaan op een manier die zijn voorgangers niet konden (sommige concurrerende modellen zoals de Stable Diffusion XL en Diep Floyd Ze worden er beter in.) Een avocadocartoon met de quote van het personage werd bijvoorbeeld perfect gemaakt, met een boodschap met de woorden: “Illustratie van een avocado die op de stoel van een therapeut zit en zegt: ‘Ik voel me zo leeg van binnen’, met een gat ter grootte van een krater in het midden. ” Ingekapseld in een tekstballon.

OpenAI zegt met name dat DALL-E 3 “native” is gebouwd op ChatGPT en zal verschijnen als een geïntegreerde functie van ChatGPT Plus, waardoor conversatieverbeteringen aan afbeeldingen mogelijk zijn op een manier die de AI-assistent als brainstormpartner gebruikt. Dit betekent ook dat ChatGPT afbeeldingen kan genereren op basis van de context van het huidige gesprek, wat tot nieuwe nieuwe mogelijkheden zou kunnen leiden. De Bing Chat AI-assistent van Microsoft, eveneens gebouwd op OpenAI-technologie, kan sinds maart afbeeldingen in de chat maken.

De theepot die de storm veroorzaakte

Afbeelding gegenereerd door de kunstmatige intelligentie van DALL-E 3 — In zoomen / Door AI gegenereerde afbeelding DALL-E 3 van “een 3D-weergave van een koffiekopje dat op een winderige dag op een vensterbank wordt geplaatst. De storm buiten het raam wordt weerspiegeld in de koffie, met miniatuurbliksemschichten en turbulente golven zichtbaar in het kopje. De kamer is zwak verlicht, wat bijdraagt aan de dramatische sfeer.”

OpenAI

De originele versie van DALL-E verscheen in januari 2021, en OpenAI lanceerde zijn dramatisch capabeler vervolg in april 2022, waarmee een nieuw tijdperk van door AI gegenereerde beelden met zo’n verbazingwekkende tamtam werd gelanceerd dat het de aanvankelijke gesloten bètatesters boeide. DALL-E-modellen maken gebruik van een technologie genaamd Latente verspreiding Dat verfijnt ruis tot beelden die het ‘herkent’ op basis van de kennis die het verkrijgt door training op de dataset en begeleiding door de vector. Dankzij dezelfde technologie kon in augustus vorig jaar het Stable Diffusion open gewichtsmodel op de markt komen.

Gezien de manier waarop DALL-E tijdens training concepten over afbeeldingen leert door een enorme dataset van door mensen gegenereerde kunstwerken te ontginnen, is de AI-technologie voor het genereren van afbeeldingen sinds de introductie vorig jaar zeer controversieel. De technologie heeft geleid tot protesten van artiesten die vrezen dat het hun methoden op onethische wijze zal vervangen of repliceren, tot rechtszaken wegens schending van het auteursrecht op basis van gestolen afbeeldingen die als trainingsgegevens worden gebruikt zonder de houders van auteursrechten te raadplegen, en nieuwe auteursrechtelijke uitspraken van het Copyright Office. . Kantonrechter.

Als knipoog naar deze controverses zegt OpenAI dat DALL-E 3 is ontworpen om verzoeken af te wijzen waarin om een afbeelding in de stijl van een live artiest wordt gevraagd. Open AI ook Biedt een model Makers kunnen ervoor kiezen om hun afbeeldingen niet te laten gebruiken om toekomstige modellen te trainen. Het lijkt onwaarschijnlijk dat deze maatregelen kunstenaars tevreden zullen stellen die doorgaans van mening zijn dat AI-training alleen opt-in mag zijn en niet standaard in beelddatasets moet worden opgenomen.

Vergelijking tussen — In zoomen / Vergelijking van “Een expressief olieverfschilderij van een dunkende basketbalspeler, afgebeeld als een nevelexplosie” zoals gemaakt door DALL-E 2 (links) en DALL-E 3 (rechts).

OpenAI

Momenteel stelt het Amerikaanse auteursrechtbeleid dat alleen kunstwerken die door AI zijn gemaakt geen auteursrechtelijke bescherming kunnen genieten, dus technisch gezien zou elke afbeelding die met DALL-E 3 is gemaakt in het publieke domein vallen. Hoewel OpenAI dit niet expliciet erkent, staat er wel dat “de afbeeldingen die u met DALL-E 3 maakt, van u zijn om te gebruiken en dat we geen toestemming nodig hebben om ze te herdrukken, verkopen of op de markt te brengen.” Dit is een duidelijke verandering ten opzichte van vorig jaar, toen OpenAI Beperkt gebruik van afbeelding DALE-2 Gebaseerd op een licentie waarin staat dat OpenAI ‘alle generaties bezit’.

Op het gebied van veiligheid zegt OpenAI dat het, net als DALL-E 2, trefwoord- en beelddetectiefilters in DALL-E 3 heeft geïmplementeerd om het vermogen om gewelddadige, seksuele of haatdragende inhoud te produceren te beperken. Het systeem is ook geprogrammeerd om verzoeken af te wijzen die foto’s van publieke figuren op naam genereren, wat problemen veroorzaakte met de rivaliserende AI-aangedreven fotogenerator Midjourney toen deze valse arrestatiefoto’s van Donald Trump maakte.

OpenAI zegt dat het heeft samengewerkt met experts die bekend staan als het ‘Rode Team’ om potentiële risico’s, zoals schadelijke vooroordelen of het genereren van propaganda en verkeerde informatie, te identificeren en te beperken. OpenAI heeft geen enkel woord gezegd over het potentieel van zijn tool om dit te doen Buig het historische record Met nauwelijks verhulde beledigingen zegt het echter dat het experimenteert met een “source classifier”-tool die zou kunnen helpen bepalen of een afbeelding door DALL-E 3 is gemaakt of niet.

Op dit moment hebben we nog geen toegang tot DALL-E 3 om het te testen, maar OpenAI zegt dat de AI-beeldgenerator nu gesloten tests ondergaat. Het is van plan het beschikbaar te maken voor ChatGPT Plus- en Enterprise-klanten “in oktober via de API en later dit najaar in Labs.”

OpenAI’s nieuwe AI-beeldgenerator verlegt de grenzen met snelle details en resolutie – Ars Technica

De theepot die de storm veroorzaakte

Apple kondigt uitbreiding van Vision Pro naar nog twee landen aan

Hoe u de Apple Gehoortest doet met AirPods Pro 2

Apple kondigt MacBook Pro-modellen aan met M4 Pro- en M4 Max-chips, Thunderbolt 5-ondersteuning en meer

Nederland roept Israël op om het UNRWA-embargo te heroverwegen en dringt aan op een staakt-het-vuren

Dodge-maker Stellantis rapporteert een omzetdaling van 27%, wat wijst op vooruitgang bij het terugdringen van de Amerikaanse voorraden.

Rapport: De gebroeders Menendez worden mogelijk voor Kerstmis vrijgelaten uit de gevangenis

Een nieuw rapport zegt dat het gebruik van ras en etniciteit soms “schadelijk” is in medisch onderzoek

De theepot die de storm veroorzaakte

Geef een reactie Reactie annuleren

More Stories

Apple kondigt uitbreiding van Vision Pro naar nog twee landen aan

Hoe u de Apple Gehoortest doet met AirPods Pro 2

Apple kondigt MacBook Pro-modellen aan met M4 Pro- en M4 Max-chips, Thunderbolt 5-ondersteuning en meer

You may have missed

Nederland roept Israël op om het UNRWA-embargo te heroverwegen en dringt aan op een staakt-het-vuren

Dodge-maker Stellantis rapporteert een omzetdaling van 27%, wat wijst op vooruitgang bij het terugdringen van de Amerikaanse voorraden.

Rapport: De gebroeders Menendez worden mogelijk voor Kerstmis vrijgelaten uit de gevangenis

Een nieuw rapport zegt dat het gebruik van ras en etniciteit soms “schadelijk” is in medisch onderzoek