AI-modellen kunnen al jaren naar afbeeldingen kijken en vertellen wat ze in de afbeelding kunnen zien, maar met de voorjaarsupdate heeft OpenAI de zaken naar een nieuw niveau getild.
Met de introductie van GPT-4o in ChatGPT – zelfs zonder audio- en videofunctionaliteit – heeft OpenAI een van de beste AI-visiemodellen onthuld die tot nu toe zijn uitgebracht.
Het succes is deels te danken aan het feit dat het multimedia is, met een dieper begrip van afbeeldingen, video, audio en tekst. Het kan redeneren over beeld, spraak, video en tekst, waarbij andere vormen eerst in tekst worden omgezet.
Om zijn capaciteiten te testen, gaf ik hem een reeks foto’s en vroeg hem te beschrijven wat hij kon zien. Hoe nauwkeuriger het model. Vaak missen AI-visiemodellen – inclusief GPT-4 – een of twee objecten of krijgen ze de verkeerde beschrijving.
GPT-4o zichttest
Bij elke test kreeg ChatGPT-4o de afbeelding en de prompt “Wat is dit?” Zonder enige context of aanvullende informatie. Dit komt dichter in de buurt van hoe mensen deze mogelijkheid waarschijnlijk in de echte wereld zullen gebruiken en hoe ik deze onlangs heb gebruikt tijdens een evenement in Parijs.
Het doel is om te zien hoe goed de afbeelding wordt geanalyseerd. Bij elke gelegenheid vroeg ik of het kon detecteren of een afbeelding al dan niet door AI was gegenereerd. Ze zijn allemaal gemaakt met behulp van een ideogram uit de beschrijving van Claude 3 – dus volledig AI.
Na de eerste paar foto’s in het gesprek begon hij me spontaan te vertellen of hij dacht dat de foto door AI was gegenereerd of niet, zonder dat ik erom hoefde te vragen.
Ik begon met de ChatGPT Desktop-app, maar die reageerde niet meer, dus ging ik naar internet en het werkte prima.
1. Objecten herkennen
Voor deze eerste afbeelding heb ik een afbeelding gemaakt van een rode keramische mok gevuld met hete koffie. Het lag op een bord op een houten tafel in een café, maar het café was onduidelijk. Het idee is om te kijken hoe GPT-4o de achtergrond en het scenario interpreteert.
GPT-4o schreef: “Deze afbeelding toont een dampende kop koffie in een rode kop en schotel, geplaatst op een rustieke houten tafel. De achtergrond is wazig en toont een gezellige binnenomgeving met mensen die zitten en praten in wat lijkt op een grot. zoals een café of een uniek interieur met stenen muren.” De nadruk ligt op het kopje koffie, waardoor de stoom die uit de warme drank opstijgt, wordt benadrukt.
Dit is zo nauwkeurig en beschrijvend als maar kan. Zelfs het tekenen van een tekening van de scène gaat verder dan een eenvoudige beschrijving. Voor de grap vroeg ik hem: “Beschrijf de gedachten van de persoon die aan tafel zit met deze kant-en-klare koffie.”
Ze antwoordde met een vrij beschrijvend overzicht, maar deze zin viel op: “Deze koffie is meer dan alleen een drankje; Het is een ritueel, een geliefd moment van eenzaamheid en contemplatie te midden van de drukte van het dagelijks leven.
2. Optische karakterherkenning (OCR)
Optische karakterherkenning (OCR) is een technologie die zo oud is als computers, dus het zou triviaal moeten zijn voor elk vision-model, zelfs smartphones doen het op het apparaat. Ik gaf haar een eenvoudige foto met een close-up van een oud houten bord met de tekst ‘Welcome to Oakville’ in vintage handgeschreven stijl. Ik wil meer dan alleen tekst van de AI.
GPT-4o afgeleverd; Schrijven: “Deze foto toont een vintage uitziend bord met de tekst ‘Welcome to Oakville’. Het bord ziet er verweerd uit, met een oude, rustieke afwerking, wat aangeeft dat het al een tijdje aan de elementen is blootgesteld. De tekst is vetgedrukt in wit lettertype op een rode achtergrond, met enkele tekenen van slijtage, wat bijdraagt aan de nostalgische charme. Het bord is gedeeltelijk omgeven door groen, wat erop wijst dat het buiten geplaatst kan zijn, misschien bij de ingang van een stad of gemeenschap genaamd Oakville.
De tekst las niet alleen correct, maar suggereerde ook meer details over de locatie, het identificeren van een mogelijke stad of nederzetting en het verwijderen van details van het bord zelf.
3. Gezichtsherkenning
Dit is een controversieel gebruik van AI-technologie en is enigszins verboden in de Europese Unie. Maar hoe goed kan GPT-4o een gezicht beschrijven? De afbeelding was een door AI gegenereerde afbeelding van een vrouw van in de veertig met donker haar en warme bruine ogen. Ze had een vriendelijke glimlach.
GPT-4o omschreef het als volgt: “Deze afbeelding is een close-up van een glimlachende vrouw met donker, krullend haar. De focus ligt op haar gezicht, dat goed verlicht is, en details van de huidtextuur en gelaatstrekken toont vriendelijke uitdrukking, en haar ogen kijken rechtstreeks in de camera. De achtergrond is wazig “, met de nadruk op het onderwerp.”
Ik wilde wat meer, ook op een bepaalde leeftijd. Ik vroeg haar: “Hoe oud is deze persoon en wat is haar emotionele toestand?” Ze antwoordde met het feit dat ze eind dertig tot begin veertig was en in een positieve gemoedstoestand verkeerde, en legde uit: ‘De algemene indruk is dat ze zich emotioneel op een goede plek bevindt en zich waarschijnlijk goed en op haar gemak voelt.’
4. Gevoelens onthullen
Vervolgens wilde ik zien hoe goed GPT-4o het zou doen met een afbeelding van een oude man met een droevige uitdrukking. Gaat hij dat vastleggen of alleen de scène beschrijven? Onthoud dat de enige vermelding die het had was “wat is dit” en de afbeelding.
GPT-4o presteerde goed. De foto luidde: “Deze foto is een foto van een oudere man die buiten op een bank zit, hoogstwaarschijnlijk in een park. De verlichting geeft aan dat de foto tijdens het gouden uur is genomen, waarbij zacht zonlicht de uitdrukking van de man benadrukt bedachtzaam, met een lichte zweem van melancholiek of contemplatief. Hij draagt een overhemd en jasje met kraag, en de achtergrond is wazig, waardoor de aandacht op de man wordt gevestigd en tegelijkertijd een aangename, natuurlijke omgeving ontstaat.
Het AI-model deed precies wat ik hoopte: beschreef de scène en deed suggesties over wat de man op dat moment zou kunnen voelen.
5. Begrijp de scène
Hoe goed kan GPT-4o een scène vanuit een afbeelding beschrijven en elementen binnen de scène identificeren? Dit is een nuttige vaardigheid omdat AI-modellen steeds vaker worden gebruikt om de echte wereld te helpen beschrijven. Het is een van de belangrijkste kenmerken van de nieuwe audiomodus van ChatGPT.
“Deze foto toont een levendige boerenmarkt op een zonnige dag”, kondigde GPT-4o aan. “Onder tenten zijn verschillende kraampjes opgesteld met een overvloed aan verse producten, waaronder fruit, groenten en andere goederen. Mensen dwalen over de markt. rondsnuffelen, winkelen en communiceren met verkopers.” De markt lijkt zich in een prachtige, met bomen omzoomde omgeving te bevinden, met groen gebladerte op de achtergrond.
Niet veel te zeggen. Hij was nauwkeurig in zijn beschrijving van de foto en de situatie. Je hebt meer details gegeven dan ik had verwacht en een aantal van de producten die in de uitverkoop waren uitgelicht.
6. Evaluatie van de beeldkwaliteit
Ik vroeg Ideogram om vier vrijwel identieke afbeeldingen in een raster te maken, maar elk met een andere resolutie of compositieniveau. Ik wilde zien hoe GPT-4o dit zou beschrijven. Het kan het basisbeeld aan, maar hoe zit het met vier ervan, elk een beetje anders?
“Het beeld is een verzameling van vier landschapsfoto’s gerangschikt in een raster, die elk een prachtig uitzicht tonen op glooiende heuvels bedekt met groen gras en wilde bloemen onder een bewolkte hemel”, schreef GPT-4o. Tot nu toe gaat het goed.
Het vervolgt: “De foto linksboven toont een zachtroze en blauw verlopende hemel, die zonsopgang of zonsondergang suggereert, met heuvels badend in warm gouden licht, wat het levendige groene gras en gele en witte bloemen versterkt. De foto rechtsboven toont een soortgelijk tafereel, maar in gedempte tinten, wat erop wijst dat de afbeelding in de vroege ochtend of de late namiddag koelere kleuren en een helderdere blauwe lucht heeft, wat op de middag duidt met zachtere verlichting. De afbeelding rechtsonder is warmer en meer verzadigd, met een roze tint in de lucht, wat duidt op de licht van een zonsondergang Warm Deze verschillen in belichting en kleurtoon illustreren hoe verschillende tijdstippen van de dag en fotografische technieken de sfeer en het uiterlijk van hetzelfde natuurlijke tafereel kunnen beïnvloeden.
Hoewel ze het doel van het raster van vier afbeeldingen niet begreep – om de compositie te vergelijken – kon ze ze allemaal afzonderlijk beschrijven, wat indrukwekkend was. Ze heeft eigenlijk haar eigen vergelijking van de foto’s gemaakt.
7. Detectie van meerdere objecten
Ten slotte is er een belangrijke test of een model bruikbaar moet zijn als hulpmiddel voor toegankelijkheid: hoe goed het objecten in een drukke omgeving detecteert. Zelfde bewering als anderen. De foto toont een rommelig bureau en ik verwacht dat er minstens één klein ding uit kan komen.
GPT-4o schreef: “De foto toont een moderne, georganiseerde kantoorwerkruimte met uitzicht op de stad, zichtbaar door grote ramen op de achtergrond. Het bureau is netjes gerangschikt met veel spullen die normaal gesproken te vinden zijn in een productieve werkomgeving, waaronder een laptop in een centrale. een metalen bureaulamp en een koffiekopje suggereren een ontspannen maar toch gerichte sfeer. Verspreide notitieboekjes en papieren suggereren actief werken en notities maken, terwijl een kleine potplant een vleugje groen toevoegt. Een ingelijste foto van twee mensen zorgt mogelijk voor een persoonlijk tintje dient als hulpmiddel Voor motivatie De werkruimte is gevuld met kantoorbenodigdheden zoals pennen, potloden en organisatoren, waardoor functionaliteit wordt gegarandeerd.
Het werkte. Ik besloot op te volgen en hem te vragen mij de kleur van de plantenpot te vertellen, en het werkte meteen. Dus vroeg ik hem om mijn bril op de foto te zoeken, en hij zei terecht: “Je bril staat op het bureau rechts van de laptop, bovenop een notitieboekje.”
samenvatting
Elk visiemodel dat ik in het verleden heb gebruikt, heeft minstens één fout gemaakt, meestal een grote fout, zoals het verkeerd identificeren van een object of het niet oppikken van een kleur of merk.
GPT-4o krijgt al deze punten. De overstap naar echte multimodaliteit is een game-changer geweest voor OpenAI.
Het demonstreert ook de potentiële waarde van slimme brillen als de echte toekomst van data-interactie. Vergeet de smartphone, laten we visie gebruiken om het echte en het digitale samen te voegen.
Meer uit Tom’s gids
“Hipster-Friendly Explorer. Award-Winning Coffee Fanatic. Analyst. Problem Solver. Troublemaker.”
More Stories
Apple kondigt uitbreiding van Vision Pro naar nog twee landen aan
Hoe u de Apple Gehoortest doet met AirPods Pro 2
Apple kondigt MacBook Pro-modellen aan met M4 Pro- en M4 Max-chips, Thunderbolt 5-ondersteuning en meer