Interview met Greg Brockman van OpenAI: GPT-4 is niet perfect, maar jij ook niet

OpenAI heeft gisteren GPT-4 verzonden, het langverwachte AI-paradigma voor tekstgeneratie, en het is een intrigerend stuk werk.

GPT-4 verbetert zijn voorganger, GPT-3, op belangrijke punten, bijvoorbeeld door meer gegevens uit de echte wereld te geven en ontwikkelaars in staat te stellen de stijl en het gedrag ervan gemakkelijker te beschrijven. Het is ook multimedia in die zin dat het afbeeldingen kan begrijpen, waardoor het de inhoud van de afbeelding in detail kan annoteren en zelfs uitleggen.

Maar GPT-4 heeft ernstige tekortkomingen. Net als GPT-3 ‘hallucineert’ het model feiten en maakt het elementaire redeneerfouten. In een voorbeeld van OpenAI privé blogGPT-4 beschrijft Elvis Presley als “de zoon van een acteur”. (Geen van zijn ouders waren acteurs.)

Om meer grip te krijgen op de GPT-4-ontwikkelingscyclus en de mogelijkheden en beperkingen ervan, sprak TechCrunch dinsdag via een videogesprek met Greg Brockman, mede-oprichter en president van OpenAI.

Toen hem werd gevraagd GPT-4 te vergelijken met GPT-3, had Brockmann er één woord voor: anders.

“Het is totaal anders”, zei hij tegen TechCrunch. “Er zijn nog veel problemen en bugs [the model] Maak … maar je kunt echt de sprong in vaardigheid zien in zaken als calculus of wet, van echt slecht zijn op bepaalde gebieden tot echt goed zijn in vergelijking met mensen. “

Testresultaten ondersteunen zijn zaak. Op het AP Calculus BC-examen scoorde GPT-4 4 van de 5, terwijl GPT-3 1 scoorde (GPT-3.5, de tussenvorm tussen GPT-3 en GPT-4, scoort ook 4) en in a. Gesimuleerd bar-examen, slagen voor GPT-4 met een score die dicht bij de top 10% van de testpersonen ligt; De GPT-3.5-score schommelt rond de onderste 10%.

Schakelen tussen versnellingen Een van de interessantste aspecten van GPT-4 is de eerder genoemde multimedia. In tegenstelling tot GPT-3 en GPT-3.5, die alleen tekstprompts kunnen accepteren (bijvoorbeeld “Schrijf een artikel over giraffen”), kan GPT-4 een prompt ontvangen met zowel afbeeldingen als tekst om een actie uit te voeren (bijvoorbeeld een afbeelding Giraffen in de Serengeti met de vraag “Hoeveel giraffen zijn hier te zien?”).

Dat komt omdat GPT-4 op de afbeelding is getraind En tekstgegevens terwijl zijn voorgangers alleen op tekst waren getraind. OpenAI zegt dat de trainingsgegevens afkomstig waren van “een verscheidenheid aan gelicentieerde, gevestigde en openbaar beschikbare gegevensbronnen, die openbaar beschikbare persoonlijke informatie kunnen bevatten”, maar Brockman maakte bezwaar toen hem om details werd gevraagd. (OpenAI-trainingsgegevens zijn eerder in juridische problemen geweest.)

READ Waarom hebben lievelingen Casper, Allbirds en direct-to-consumer Peloton het momenteel moeilijk?

De beeldherkenningsmogelijkheden van GPT-4 zijn behoorlijk indrukwekkend. Dien bijvoorbeeld de prompt in “Wat is er zo grappig aan deze foto? Beschrijf het paneel voor paneel” plus een afbeelding met drie panelen waarop een nep-VGA-kabel is aangesloten op een iPhone, geef een GPT-4-uitsplitsing van elk afbeeldingspaneel en leg de grap (“humor in Deze foto komt van de absurditeit van het aansluiten van een verouderde VGA-connector op een kleine, moderne oplaadpoort van een smartphone”).

Slechts één lanceringspartner heeft op dit moment toegang tot de beeldanalysemogelijkheden van GPT-4 – een ondersteunende applicatie voor slechtzienden genaamd Be My Eyes. Bredere implementatie, wanneer het gebeurt, zal “langzaam en opzettelijk” zijn, aangezien OpenAI de risico’s en voordelen afweegt, zegt Brockmann.

“Er zijn politieke kwesties zoals gezichtsherkenning en hoe we omgaan met afbeeldingen van mensen die we moeten verwerken en verwerken”, zei Brockmann. “We moeten bijvoorbeeld weten waar de risicogebieden zijn – waar de rode lijnen zijn – en dat dan in de loop van de tijd duidelijk maken.”

OpenAI heeft vergelijkbare ethische dilemma’s behandeld over DALL-E 2, het tekst-naar-beeld-conversiesysteem. Na aanvankelijk de mogelijkheid te hebben uitgeschakeld, stelde OpenAI klanten in staat om gezichten van mensen te uploaden voor bewerking met behulp van een door AI aangedreven systeem voor het genereren van afbeeldingen. Destijds beweerde OpenAI dat upgrades van zijn beveiligingssysteem de functie voor gezichtsaanpassing mogelijk maakten door “potentiële schade te verminderen” door deepfakes en pogingen om seksuele, politieke en gewelddadige inhoud te creëren.

Een andere vaste plant verbiedt het gebruik van GPT-4 op onbedoelde manieren die psychologische, financiële of andere schade kunnen veroorzaken. Uren nadat het model was vrijgegeven, publiceerde het Israëlische cyberbeveiligingsbedrijf Adversa AI een blogpost Demonstratie van manieren om OpenAI-inhoudsfilters te omzeilen en GPT-4 te verkrijgen om phishing-e-mails, aanstootgevende beschrijvingen van homo’s en andere zeer aanstootgevende tekst te genereren.

Het is geen nieuw fenomeen op het gebied van taalparadigma. OpenAI’s Meta BlenderBot en ChatGPT zijn ook gevraagd om zeer aanstootgevende dingen te zeggen en zelfs gevoelige details over hun innerlijke werking te onthullen. Maar velen waren hoopvol, waaronder deze verslaggever, dat GPT-4 aanzienlijke verbeteringen zou kunnen bieden op het gebied van moderatie.

READ Het afkoelen van de kerninflatie zal de Fed minimale verlichting bieden

Toen hem werd gevraagd naar de robuustheid van GPT-4, bevestigde Brockmann dat het model zes maanden veiligheidstraining had ondergaan en dat het bij interne tests 82% minder waarschijnlijk was om te reageren op verzoeken om inhoud die niet is toegestaan onder het OpenAI-gebruiksbeleid en 40 % waarschijnlijker om reacties te produceren. realistisch” uit GPT-3.5.

“We hebben veel tijd besteed aan het proberen te begrijpen waartoe GPT-4 in staat is”, zei Brockmann. “Door het in de wereld te brengen, leren we. We voeren voortdurend updates uit, waaronder een reeks verbeteringen, zodat het model beter schaalbaar is voor elk karakter of type situatie waarin je het wilt hebben.”

Eerlijk gezegd zijn de eerste resultaten in de echte wereld niet zo veelbelovend. Samen met Adversa AI-tests is aangetoond dat Bing Chat, de chatbot van Microsoft aangedreven door GPT-4, zeer kwetsbaar is voor jailbreaking. Met zorgvuldig samengestelde input konden gebruikers de bot overtuigen om de liefde te verklaren, met kwaad te dreigen, de Holocaust te verdedigen en samenzweringstheorieën te bedenken.

Brockmann ontkende niet dat GPT-4 hier beperkt is. Maar hij benadrukte de nieuwe beperkende routeerbare tools van het model, waaronder een mogelijkheid op API-niveau die ‘systeem’-berichten worden genoemd. Systeemberichten zijn in wezen instructies die de toon zetten – en grenzen stellen – voor GPT-4-interacties. Een systeembericht kan bijvoorbeeld luiden: “Je bent een leraar die altijd in de socratische stijl reageert. Jij nooit Geef de student het antwoord, maar probeer altijd precies de juiste vraag te stellen om hem te helpen zelf te leren denken.”

Het idee is dat systeemberichten fungeren als een firewall om te voorkomen dat GPT-4 ontspoort.

“De toon, stijl en inhoud van de GPT-4 echt leren kennen, was een enorme focus voor ons”, zei Brockmann. “Ik denk dat we een beetje meer beginnen te begrijpen over hoe de engineering moet worden gedaan, over hoe je een herhaalbaar proces van dit soort kunt hebben dat voorspelbare resultaten oplevert die echt nuttig zullen zijn voor mensen.”

Brockmann wees ook op Evaals, OpenAI’s nieuwe open source softwareraamwerk voor het evalueren van de prestaties van zijn AI-modellen, als bewijs van de inzet van OpenAI om zijn modellen te “verbeteren”. Met Evalus kunnen gebruikers benchmarks ontwikkelen en uitvoeren voor het evalueren van modellen zoals GPT-4, terwijl ze hun prestaties onderzoeken – een soort crowdsourcingbenadering van modeltesten.

READ Luchtvaartmaatschappijen, overheden en bedrijven haasten zich om weer op het goede spoor te komen na de mondiale technologische ontwrichting

Met Evals kunnen we zien [use cases] waar gebruikers om geven in een systematische vorm die we kunnen testen, “zei Brockmann. “Een deel van de reden [open-sourced] Dat komt omdat we afstappen van het lanceren van elk kwartaal een nieuw model – wat eerder ook was – naar het doorvoeren van continue verbeteringen. Wat je niet meet, maak je toch niet? We maken ook nieuwe versies [of the model]We kunnen ons in ieder geval bewust zijn van wat deze veranderingen zijn.”

Ik vroeg Brockman of OpenAI ooit mensen zou compenseren voor het testen van zijn modellen met Evals. Hij deed niets, maar merkte wel op dat – voor een beperkte tijd – OpenAI gebruikers van Evals vroeg toegang gaf tot de GPT-4 API.

Tijdens het gesprek van Brockman en ik hebben we het ook gehad over het GPT-4-contextvenster, dat aangeeft welke tekst een formulier kan overwegen voordat aanvullende tekst wordt gegenereerd. OpenAI test een versie van GPT-4 die ongeveer 50 pagina’s inhoud kan “onthouden”, of vijf keer zoveel vanille als GPT-4 in zijn “geheugen” kan hebben en acht keer de capaciteit van GPT-3.

Brockman is van mening dat een uitgebreid contextvenster leidt tot nieuwe, voorheen onontgonnen toepassingen, met name in de onderneming. Hij stelt zich een AI-chatbot voor die is ontworpen voor een bedrijf dat gebruikmaakt van context en kennis uit verschillende bronnen, waaronder medewerkers van verschillende afdelingen, om vragen op een goed geïnformeerde maar gemoedelijke manier te beantwoorden.

dit Geen nieuw begrip. Maar Brockmann beweert dat GPT-4-antwoorden veel nuttiger zullen zijn dan die van chatbots en zoekmachines van vandaag.

“Vroeger wist het model niet wie je bent, waar je om geeft, enzovoort,” zei Brockmann. Dat soort geschiedenis hebben [with the larger context window] Het zal het zeker capabeler maken … het zal opladen wat mensen kunnen doen.

Lilyana Caldwelle

“Bierliefhebber. Toegewijde popcultuurgeleerde. Koffieninja. Boze zombiefan. Organisator.”

Interview met Greg Brockman van OpenAI: GPT-4 is niet perfect, maar jij ook niet

Dodge-maker Stellantis rapporteert een omzetdaling van 27%, wat wijst op vooruitgang bij het terugdringen van de Amerikaanse voorraden.

De CEO van Starbucks komt tussenbeide om een lange lijst met problemen aan te pakken

De Amerikaanse economie groeide het afgelopen kwartaal in een krachtig tempo van 2,8% dankzij de sterke consumentenbestedingen

Nederland roept Israël op om het UNRWA-embargo te heroverwegen en dringt aan op een staakt-het-vuren

Dodge-maker Stellantis rapporteert een omzetdaling van 27%, wat wijst op vooruitgang bij het terugdringen van de Amerikaanse voorraden.

Rapport: De gebroeders Menendez worden mogelijk voor Kerstmis vrijgelaten uit de gevangenis

Een nieuw rapport zegt dat het gebruik van ras en etniciteit soms “schadelijk” is in medisch onderzoek

Geef een reactie Reactie annuleren

More Stories

Dodge-maker Stellantis rapporteert een omzetdaling van 27%, wat wijst op vooruitgang bij het terugdringen van de Amerikaanse voorraden.

De CEO van Starbucks komt tussenbeide om een ​​lange lijst met problemen aan te pakken

De Amerikaanse economie groeide het afgelopen kwartaal in een krachtig tempo van 2,8% dankzij de sterke consumentenbestedingen

You may have missed

Nederland roept Israël op om het UNRWA-embargo te heroverwegen en dringt aan op een staakt-het-vuren

Dodge-maker Stellantis rapporteert een omzetdaling van 27%, wat wijst op vooruitgang bij het terugdringen van de Amerikaanse voorraden.

Rapport: De gebroeders Menendez worden mogelijk voor Kerstmis vrijgelaten uit de gevangenis

Een nieuw rapport zegt dat het gebruik van ras en etniciteit soms “schadelijk” is in medisch onderzoek

De CEO van Starbucks komt tussenbeide om een lange lijst met problemen aan te pakken