Letzte Woche kündigte Google die Einführung von Gemini 1.5 an, einer aktualisierten Version des kürzlich ver?ffentlichten Modells Gemini 1.0.
Das Modell verfügt über das l?ngste Kontextfenster aller auf dem Markt erh?ltlichen Basismodelle und kann bis zu 1 Million Token in einem einzigen Prompt verarbeiten. Dies macht es ideal für die Analyse und Zusammenfassung gr??erer Textmengen.
W?hrend Gemini 1.5 Pro auf ein Kontextfenster von 128.000 Token beschr?nkt ist, kann eine begrenzte Gruppe von Entwicklern und Unternehmenskunden es mit bis zu 1 Million Token über AI Studio und Vertex AI nutzen.
Wichtigste Erkenntnisse
- Google hat Gemini 1.5 vorgestellt, das eine bemerkenswerte Kapazit?t zur Verarbeitung von bis zu 1 Million Token für ausgew?hlte Nutzer hat.
- Im Vergleich dazu liegt die Obergrenze von Claude 2.1 bei 200.000 Token oder 128.000 Token bei GPT-4.
- Gemini kann bis zu einer Stunde Video, 11 Stunden Audio, 30.000 Zeilen Code oder 700.000 W?rter in einem Prompt verarbeiten.
- Ist das neue Wettrüsten um Token?
Im Vergleich zum GPT-4-Limit von 32.000 Token bzw. 128.000 Token für Nutzer von GPT-4 Turbo scheint Google die maximale Datenmenge, die man einem LLM zur Verfügung stellen kann, massiv zu erh?hen.
Das Volumen von einer Million Token bedeutet, dass Gemini 1.5 einen einzigen Prompt aus einer der beiden folgenden Komponenten verarbeiten kann:
- 1 Stunde Video;
- 11 Stunden Audio;
- 30.000 Zeilen Code;
- 700.000 W?rter.
Zusammen mit dem am gleichen Tag von OpenAI vorgestellten Text-to-Video-Modell Sora, das bis zu einer Minute lange Videos erzeugen kann, wird deutlich, dass sich das multimodale KI-Wettrüsten auf ein noch nie dagewesenes Niveau erhitzt.
Welchen Platz nimmt Gemini 1.5 auf dem LLM-Markt ein?
Der Zeitpunkt dieser Markteinführung ist überraschend, denn sie erfolgt nur eine Woche, nachdem Google die Umbenennung von Bard angekündigt und sein leistungsst?rkstes multimodales Modell, Gemini 1.0 Ultra, ver?ffentlicht hat.
Im Kern ist Gemini 1.5 eine leistungsf?higere Version des Modells Gemini Pro, das für den Chatbot Gemini als Nachfolger von Bard verwendet wurde.
Genauer gesagt, übertraf 1.5 Pro 1.0 Pro bei 87 % der Benchmarks, die bei Google zur Messung der Leistung von gro?en Sprachmodellen (LLM) herangezogen werden, w?hrend die Performance auf einem ?hnlichen Niveau wie bei 1.0 Ultra lag, aber weniger Rechenressourcen ben?tigte.
Beeindruckend, wenn man bedenkt, dass Ultra das erste Modell war, das menschliche Experten beim Massive Multitask Language Understanding-Benchmark (MMLU) überflügeln konnte.
Sundar Pichai, CEO von Google und Alphabet, erkl?rte in einem Beitrag auf X: ?Dieses Modell der n?chsten Generation verwendet einen Mixture-of-Experts-Ansatz (MoE) für effizienteres Training und qualitativ hochwertigere Antworten.“
Was bedeutet ein MoE-Ansatz? Laut Demis Hassabis, dem CEO von Google DeepMind, ?funktioniert ein traditioneller Transformer als ein gro?es neuronales Netzwerk, w?hrend MoE-Modelle in kleinere neuronale Expertennetzwerke unterteilt sind“.
?Abh?ngig von der Art des Inputs lernen MoE-Modelle, selektiv nur die relevantesten Expertenpfade in ihrem neuronalen Netzwerk zu aktivieren. Diese Spezifizierung steigert die Effizienz des Modells massiv“, so Hassabis in dem angekündigten Blogbeitrag.
Mit dieser Architektur kann Gemini 1.5 komplexe Aufgaben schneller lernen und besser trainiert werden. Das eigentliche Verkaufsargument für das Modell ist jedoch sein gr??eres Kontextfenster.
Mit der F?higkeit, bis zu 1 Million Token zu unterstützen, übertrifft es sogar die 128.000er-Grenze von GPT-4 Turbo bei weitem.
Darüber hinaus verarbeitet das Modell auch Videoinhalte – eine Demo zeigt das Modell bei der Analyse von Handlungspunkten in Sherlock Jr. (1924), einem 45-minütigen Stummfilm von Buster Keaton.
Google DeepMind Research Scientist Machel Reid sagte: ?In einem Test haben wir eine ganze Code-Basis eingefügt, und es hat eine Dokumentation dafür geschrieben, was wirklich cool war.“
?Und in einem anderen Test konnte es Fragen über den Film Sherlock Jr. aus dem Jahr 1924 korrekt beantworten, nachdem wir dem Modell den gesamten 45-minütigen Film zum ?Anschauen‘ gegeben hatten.“
Das Rennen um multimodale KI
Die Ver?ffentlichung von Gemini 1.5 macht deutlich, dass das Rennen um die multimodale KI schneller als je zuvor ist.
Für Google ist es sinnvoll, das Eisen zu schmieden, solange es hei? ist, und mit der Ver?ffentlichung von Gemini schnell nachzuziehen, anstatt auf die Innovation von OpenAI zu warten.
Im Laufe 2023 baute Google rasch ein multimodales KI-?kosystem auf. Bereits im Mai 2023 schrieb Pichai über die Entwicklung eines Basismodells der n?chsten Generation namens Gemini, das ?von Grund auf multimodal“ sein sollte.
Im Dezember kündigte der Tech-Riese dann die offizielle Einführung von Gemini an, das in drei Gr??en erh?ltlich ist: Ultra, Pro und Nano.
Die Pro-Version von Gemini wurde zun?chst in Bard integriert, bevor der Forschungsassistent schlie?lich im Februar 2024 in Gemini umbenannt wurde.
Im Dezember stellte Google auch sein Text-zu-Bild-Diffusionsmodell Imagen 2 vor, das den Grundstein für das im Februar ver?ffentlichte Bildgenerierungstool ImageFX legte. Au?erdem wurde das Text-zu-Musik-Tool MusicFX eingeführt.
Das Streben von OpenAI nach Multimodalit?t war nicht weniger chaotisch. Nach dem Start von GPT-4 im M?rz 2023 kündigte das KI-Labor im September die Entwicklung von GPT-4V an, das ChatGPT mit der F?higkeit zur Bildanalyse ausstattete.
Dank der Integration von DALL-E 3 haben ChatGPT Plus- und Enterprise-Abonnenten seit Oktober Zugriff auf die Bilderstellungsfunktionen von ChatGPT.
Nur einen Monat sp?ter, im November, kündigte das Unternehmen auf der Entwicklerkonferenz DevDay in San Francisco sein GPT-4-Turbo-Modell, Text-zu-Sprache sowie die M?glichkeit zur Erstellung eigener GPTs an.
Im Jahr 2024 wurde dieses Angebot mit der Einführung des GPT Store im Januar und von Sora im Februar weiter ausgebaut.
Zum jetzigen Zeitpunkt scheint der Schwerpunkt auf der schrittweisen Integration multimodaler Funktionen in die Flaggschiffmodelle der einzelnen Anbieter zu liegen.
Fazit
Eine kontinuierliche Entwicklung stellt die Voraussetzung für eine Vorreiterrolle auf dem multimodalen KI-Markt dar.
Zwar ist OpenAI nach wie vor die Nummer eins, aber mit der Einführung von Gemini 1.0 und Gemini 1.5 wird diese Dominanz allm?hlich abgebaut.
Auf lange Sicht wird es wohl darauf ankommen, wer dieses Innovationstempo durchhalten kann – und ob Verbraucher und Unternehmen einen Nutzen darin sehen, die Tools in ihre Arbeitsabl?ufe zu integrieren.