Idag tillk?nnagav OpenAI Chat-GPT 4o, eller GPT-4o, en stor uppdatering av den stora spr?kmodellen (LLM) som mer ?n 100 miljoner m?nniskor anv?nder.
Funktionerna, som kommer att rullas ut under de n?rmaste veckorna, ger tal och video till alla anv?ndare – gratis eller betalda – och den st?rsta l?rdomen ?r vilken skillnad det g?r att anv?nda r?st och video f?r att interagera med ChatGPT-4o.
F?r?ndringarna, ber?ttade OpenAI f?r tittarna p? livestreamen, syftar till att “minska friktionen” mellan “m?nniskor och maskiner” och ” bringa AI till alla.”
I en fantastisk demo h?ller teknikchefen och presentat?ren Mira Murati, tillsammans med ChatGPT-utvecklare, realtidskonversationer med ChatGPT och ber om en godnattsaga.
GPT-4o drar ?ven sk?mt med olika r?ster, fr?n lekfull till dramatisk till sjungande, p? beg?ran av OpenAI-forskaren Mark Chen.
Vi s?g videofunktioner, r?stkommunikation i realtid och simulerade k?nslor under r?stdemonstrationen.
Viktiga slutsatser om Chat-GPT 4o
- OpenAI:s Chat-GPT 4o introducerar tal- och videofunktioner, vilket g?r det m?jligt f?r anv?ndare att interagera med modellen genom r?st- och videoinmatningar.
- Uppdateringen syftar till att minska friktionen mellan m?nniskor och maskiner genom att utnyttja avancerade AI-funktioner f?r att skapa mer naturliga och s?ml?sa interaktioner.
- GPT-4o kan delta i konversationer i realtid, svara p? flera talare samtidigt och till och med simulera k?nslor, vilket ger interaktionerna djup och rikedom.
- Uppgraderingen omfattar kvalitets- och hastighetsf?rb?ttringar p? ?ver 50 spr?k samt en skrivbordsversion f?r Mac-anv?ndare.
- OpenAI erk?nner utmaningarna med missbruk av ljud- och videofunktioner i realtid och betonar att man kommer att arbeta med intressenter f?r att hantera dessa utmaningar p? ett ansvarsfullt s?tt.
- GPT-4o lanseras iterativt under de kommande veckorna, inklusive en skrivbordsapp som b?rjar med Mac.
N?r video anv?nds har ChatGPT konversationer i realtid med ingenj?rerna – l?ser matematiska ekvationer som skrivits p? papper framf?r en telefonlins samtidigt som de konverserar i realtid och p? ett lekfullt s?tt.
Titta p? OpenAI LiveStream
OpenAI s?ger att funktionerna, som kommer att rullas ut under de n?rmaste veckorna, ocks? kommer att ?ka kvaliteten och hastigheten p? ?ver 50 spr?k “f?r att ge denna upplevelse till s? m?nga m?nniskor som m?jligt”.
Uppgraderingen inkluderar ocks? en skrivbordsversion, som rullar ut idag p? Mac och ?r tillg?nglig f?r betalda anv?ndare.
Teamet pratade om universitetsl?rare som erbjuder verktyg till sina studenter eller podcastare som skapar inneh?ll f?r sina anv?ndare och hur du kan anv?nda realtidsdata i ditt arbete.
OpenAI s?ger att GPT-4o (o:et st?r f?r “Omni”) kan svara p? ljudinmatningar p? s? lite som 232 millisekunder, med ett genomsnitt p? 320 millisekunder – vilket liknar den m?nskliga svarstiden i en konversation.
?ven om funktionerna ocks? kommer att vara tillg?ngliga f?r gratisanv?ndare, diskuterade OpenAI ocks? hur Pro-anv?ndare inte l?mnas utanf?r, utan kan f? tillg?ng till upp till fem g?nger kapaciteten.
F?r?ndringarna kommer ?ven att omfatta API:et (Application Programming Interface), som s?gs vara 2x snabbare och 50 g?nger billigare.
it is available to all ChatGPT users, including on the free plan! so far, GPT-4 class models have only been available to people who pay a monthly subscription. this is important to our mission; we want to put great AI tools in the hands of everyone.
— Sam Altman (@sama) May 13, 2024
En imponerande egenskap hos r?st och video var att alla tre presentat?rerna pratade med ChatGPT samtidigt – den artificiella intelligensen (AI) lyckades urskilja alla talare och pratade tillbaka till var och en av dem.
Vissa anv?ndare p? X, tidigare Twitter, j?mf?rde den nya varianten av ChatGPT med filmen “Her”, d?r den allvetande AI-kompanjonen inte kunde skiljas fr?n en m?nsklig personlighet.
Vi s?g ocks? realtids?vers?ttning mellan italienska och engelska, baserat p? en fr?ga fr?n en anv?ndare p? Twitter.
OpenAI uppgav att “GPT-4o inneb?r nya utmaningar f?r realtidsljud och realtidsvision mot missbruk, och vi forts?tter att arbeta med olika ber?rda parter … f?r att ta reda p? hur man b?st kan f?ra dessa tekniker till v?rlden.”
Funktionerna kommer d?rf?r att rullas ut successivt under de n?rmaste veckorna, med bibeh?llna skydds?tg?rder.
Brian Jackson, Principal Research Director p? Info-Tech Research Group, ombads att kommentera:
“Efter att ha tittat p? OpenAI:s live-event idag ?r min slutsats att lanseringen av GPT-4o inneb?r b?de en betydande uppgradering av ChatGPT:s kapacitet och en inblick i f?retagets aff?rsstrategi.
“Hittills har ChatGPT orkestrerat ?ver flera modeller f?r att hantera visuell tolkning, ljudanalys och textf?rst?else. GPT-4o ?ndrar p? detta genom att samla dessa funktioner i en och samma modell.
“I en demonstration p? scenen som starkt p?minde om Spike Jonze-filmen Her fr?n 2013, hade medlemmar av OpenAI-teamet en konversation i realtid med den uppdaterade modellen. Den uppt?ckte snabbt k?nslor i anv?ndarens r?st, pausade n?r den blev avbruten och anpassade sina svar d?refter, och f?rstod en mattefr?ga ritad p? papper genom att bearbeta vyn genom en smartphonekamera.
“Det ?r som en superladdad version av Siri eller Google Assistant som lovar att st?ra v?rt koncept f?r AI-personliga assistenter.
“Ut?ver sj?lva modellen antydde OpenAI lite om sin aff?rsstrategi med utg?van. Genom att s?nka kostnaden f?r fr?gor p? den nya modellen med 50% j?mf?rt med GPT-4, sa OpenAI att det nu hade r?d att ta med den nya modellen till alla anv?ndare, inte bara betalande abonnenter.
“Detta tyder p? att OpenAI ?r mer intresserat av att dra till sig ett stort antal anv?ndare ?n av att f? s? m?nga betalande abonnenter som m?jligt och sedan f?rb?ttra sin marginal p? abonnemangstj?nsten.
“OpenAI har ocks? gjort andra funktioner som tidigare varit betalda tillg?ngliga f?r gratisanv?ndare, till exempel att s?ka information p? webben och ladda upp en fil f?r analys.
“OpenAI tog ocks? tillf?llet i akt att h?nvisa till sin Custom GPT-“butik”, som har varit tillg?nglig i flera m?nader. OpenAI ser framf?r sig en framtid d?r mikrosamh?llen bildas kring dessa Custom GPT:er.
“Det f?reslogs till exempel att en professor skulle kunna skapa en Custom GPT f?r sina studenter, eller att en podcaster g?r en f?r lyssnarna.
“Detta tyder p? en n?tverksaff?rsmodell d?r anv?ndningen av ChatGPT drivs lika mycket av en skapande gemenskap som av OpenAIs utvecklare sj?lva, liknande Apples f?rh?llande till sin iOS-utvecklargrupp.
“OpenAI s?ger att begr?nsningar f?r att fr?ga GPT-4o fortfarande kommer att finnas p? plats f?r gratisanv?ndare, s? det finns fortfarande ett visst incitament att anv?nda den betalda versionen.
“Jag f?rv?ntar mig att de nya funktionerna kommer att g?ra det till en viktig funktion f?r smartphones inom en mycket snar framtid.”
OpenAI sade i ett blogginl?gg:
“Under de senaste tv? ?ren har vi lagt ner mycket arbete p? att f?rb?ttra effektiviteten i varje lager av stacken.
“Som ett f?rsta resultat av denna forskning kan vi g?ra en modell p? GPT-4-niv? tillg?nglig i mycket st?rre utstr?ckning. GPT-4o:s kapabiliteter kommer att rullas ut successivt (med ut?kat red team-tillg?ng fr?n och med idag).
GPT-4o:s text- och bildfunktioner b?rjar rullas ut idag i ChatGPT. Vi g?r GPT-4o tillg?nglig i den fria niv?n och f?r Plus-anv?ndare med upp till 5 g?nger h?gre meddelandegr?nser. Vi kommer att rulla ut en ny version av Voice Mode med GPT-4o i alfa inom ChatGPT Plus de kommande veckorna.”
OpenAI valde en bra dag f?r den uppm?rksammade uppdateringen, som landar en dag f?re Googles I/O-utvecklarkonferens, som f?rv?ntas vara AI-tung.