Einblick in OpenAI’s GPT-4o: Alles, was wir bisher wissen

Transparenz

Am 13. Mai 2024 hat OpenAI die Einführung von Chat-GPT 4o, bzw. GPT-4o, bekannt gegeben – ein bedeutendes Update des gro?en Sprachmodells (LLM), das von über 100 Millionen Menschen genutzt wird.

Die neuen Funktionen, die in den n?chsten Wochen eingeführt werden, bieten Sprach- und Videooptionen für alle Benutzer, unabh?ngig davon, ob sie die kostenfreie oder kostenpflichtige Version von Chat GPT nutzen. Der gr??te Vorteil besteht darin, dass die Verwendung von Sprache und Video bei der Interaktion mit Chat-GPT 4o einen signifikanten Unterschied ausmacht.

OpenAI erkl?rte den Zuschauern im Livestream, dass die ?nderungen darauf abzielen, die ?Reibung“ zwischen ?Menschen und Maschinen“ zu reduzieren und KI für alle zug?nglich zu machen“.

In einer beeindruckenden Demonstration führten die Technikchefin Mira Murati und die ChatGPT-Entwickler Echtzeitgespr?che mit ChatGPT, darunter auch die Bitte um eine Gute-Nacht-Geschichte.

Auf Anfrage des OpenAI-Forschers Mark Chen machte GPT-4o sogar Witze in verschiedenen Stimmlagen – von verspielt über dramatisch bis hin zu singend.

W?hrend der Sprachvorführung wurden Videofunktionen, Echtzeit-Sprachkommunikation und simulierte Emotionen pr?sentiert.

Wichtigste Erkenntnisse

  • OpenAI’s Chat-GPT 4o führt Sprach- und Videofunktionen ein, die es Nutzern erm?glichen, mit dem Modell über Sprach- und Videoeingaben zu interagieren.
  • Das Update zielt darauf ab, die Barriere zwischen Mensch und Maschine zu verringern, indem es fortschrittliche KI-F?higkeiten nutzt, um natürlichere und nahtlosere Interaktionen zu schaffen.
  • GPT-4o kann in Echtzeit Gespr?che führen, auf mehrere Sprecher gleichzeitig reagieren und sogar Emotionen simulieren, was den Interaktionen mehr Tiefe und Vielfalt verleiht.
  • Das Upgrade beinhaltet Verbesserungen in Qualit?t und Geschwindigkeit in über 50 Sprachen sowie eine Desktop-Version für Mac-Benutzer.
  • OpenAI erkennt die Herausforderungen im Zusammenhang mit dem m?glichen Missbrauch von Echtzeit-Audio- und Videofunktionen und betont, dass es verantwortungsbewusst mit Interessenvertretern zusammenarbeiten wird, um diese anzugehen.
  • GPT-4o wird in den kommenden Wochen schrittweise eingeführt, einschlie?lich einer Desktop-App, die zun?chst für Mac verfügbar sein wird.

Bei Nutzung der Videofunktion führte ChatGPT in Echtzeit Gespr?che mit den Ingenieuren und l?ste mathematische Gleichungen, die vor einer Handykamera auf Papier geschrieben wurden, w?hrend die KI gleichzeitig spielerisch und in Echtzeit plauderte.

OpenAI kündigt an, dass die Funktionen, die in den n?chsten Wochen eingeführt werden, die Qualit?t und Geschwindigkeit in über 50 Sprachen verbessern sollen, ?um diese Erfahrung so vielen Menschen wie m?glich zug?nglich zu machen“.

Das Upgrade beinhaltet auch eine Desktop-Version, die am 13. Mai 2024 für Mac-Benutzer ver?ffentlicht wird und für zahlende Nutzer verfügbar ist.

Verschiedene Anwendungsbereiche für GPT-4o

  • Das Team tauschte Ideen darüber aus, wie Universit?tsdozenten ihren Studierenden Werkzeuge bereitstellen k?nnen, die das Lernen unterstützen, sei es durch interaktive Lernmaterialien, automatisierte Feedback-Systeme oder personalisierte Lernpfade.
  • ?hnlich k?nnen Podcaster mithilfe der neuen Funktionen von Chat-GPT 4o Inhalte für ihre Zuh?rer erstellen, die über blo?en Text hinausgehen. Sie k?nnten beispielsweise Podcasts mit interaktiven Elementen erstellen oder auf Anfragen der Zuh?rer eingehen, um ein individuelles H?rerlebnis zu schaffen.
  • Darüber hinaus wurde darüber gesprochen, wie Echtzeitdaten in verschiedenen Arbeitsbereichen genutzt werden k?nnen, sei es in der Marktforschung, der Kundenbetreuung oder der Analyse von Echtzeitereignissen, um fundierte Entscheidungen zu treffen und Prozesse zu optimieren.

OpenAI erkl?rt, dass GPT-4o (das ‘o’ steht für ‘Omni’) auf Audioeingaben in nur 232 Millisekunden reagieren kann, im Durchschnitt sogar in 320 Millisekunden – ?hnlich der menschlichen Reaktionszeit in einem Gespr?ch.

GPT-4o ist kostenlos verfügbar

W?hrend die Funktionen auch für kostenlose Benutzer verfügbar sein werden, betont OpenAI, dass Pro-Benutzer nicht benachteiligt werden, da sie bis zu fünfmal mehr Kapazit?t nutzen k?nnen.

Die ?nderungen werden sich auch auf die Application Programming Interface (API) auswirken, wobei die API laut OpenAI doppelt so schnell und um 50 % günstiger sein wird.

Was uns von Sprach- und Videofunktionen besonders beeindruckt hat, war, dass alle drei Moderator:innen gleichzeitig mit ChatGPT sprachen – die künstliche Intelligenz konnte erfolgreich alle Sprecher identifizieren und jedem von ihnen antworten.

Einige Nutzer auf X, ehemal. Twitter, verglichen die neue Variante von ChatGPT mit dem Film ?Her“, in dem eine allwissende KI von einer menschlichen Pers?nlichkeit nicht zu unterscheiden war. Au?erdem wurde w?hrend der Vorführung eine Echtzeitübersetzung zwischen Italienisch und Englisch pr?sentiert, basierend auf einer Nutzerfrage auf Twitter.

OpenAI ChatGPT 4o launch

OpenAI betonte, dass ?GPT-4o neue Herausforderungen im Umgang mit der Echtzeit Audio- und Videofunktion hinsichtlich Missbrauch mit sich bringt. Wir arbeiten weiterhin mit verschiedenen Interessengruppen zusammen, um zu ergründen, wie wir diese Technologien am besten in die Welt integrieren k?nnen.“

Demzufolge werden die Funktionen in den kommenden Wochen schrittweise eingeführt, wobei Sicherheitsvorkehrungen gewahrt bleiben.

OpenAI ?u?erte sich in einem Blogbeitrag:

?In den letzten zwei Jahren haben wir erhebliche Anstrengungen unternommen, um Effizienzverbesserungen auf jeder Ebene des Systems zu erzielen.

Als ersten Fortschritt dieses Entwicklungsprozesses k?nnen wir ein Modell auf GPT-4-Niveau viel breiter zug?nglich machen. Die F?higkeiten von GPT-4o werden iterativ eingeführt (mit erweitertem Zugang des Red-Teams ab heute).

Die Text- und Bildf?higkeiten von GPT-4o werden heute (13. Mai 2024) in ChatGPT eingeführt. Wir stellen GPT-4o in der kostenlosen Version und für Plus-Benutzer mit bis zu 5-mal h?heren Nachrichtenlimits zur Verfügung. In den kommenden Wochen werden wir eine neue Version des Voice-Modus mit GPT-4o im Alpha-Stadium innerhalb von ChatGPT Plus einführen.“

Die Wahl des Tages für das eindrucksvolle Update war geschickt von OpenAI getroffen, denn es erfolgte einen Tag vor der Entwicklerkonferenz Google I/O, die als KI-lastig erwartet wurde.

Unser Fazit

Zusammenfassend l?sst sich sagen, dass die Einführung von GPT-4o ein echter Meilenstein in der KI-Entwicklung ist. Mit dieser breiteren Verfügbarkeit der KI er?ffnen sich jede Menge spannende M?glichkeiten – aber auch einige Herausforderungen.

Denn w?hrend wir sich die technologischen Grenzen weiter verschieben und damit auch die Chancen für noch komplexere Interaktionen zwischen Mensch und Maschine, sollten wir nicht aus den Augen verlieren, dass mit dieser erweiterten Nutzung auch Herausforderungen einhergehen, insbesondere in Bezug auf Ethik und Datenschutz.

Es ist von entscheidender Bedeutung, dass wir sicherstellen, dass unsere Innovationen im Einklang mit unseren ethischen Werten und unserer Menschlichkeit stehen.

Wir stehen vor einer aufregenden Reise in die Zukunft der KI, in der wir einerseits die Potenziale voll aussch?pfen wollen, doch gleichzeitig auch sicherstellen sollten, dass wir die ethischen Standards und Prinzipien wahren. Es bleibt also weiterhin spannend zu beobachten, wie sich die Zukunft der KI gestalten wird, und welche Auswirkungen sie auf unser t?gliches Leben haben wird.

Nicoletta Hrouzek
Tech-Expertin
Nicoletta Hrouzek
Tech-Expertin

Nicolettas Technologiebegeisterung geht über Trends hinaus. Als erfahrene Autorin umspannt ihre Fachkenntnis vielf?ltige Bereiche. Ihre F?higkeit, Komplexes verst?ndlich zu vermitteln, macht sie zur Quelle für Leser, die sich in neue technologische Entwicklungen und aufstrebende M?rkte vertiefen m?chten.

',a='';if(l){t=t.replace('data-lazy-','');t=t.replace('loading="lazy"','');t=t.replace(/