Uruchomienie ChatGPT w listopadzie 2022 roku wstrz?sn??o fundamentami Google. Popularny chatbot stanowi? bowiem tak du?e zagro?enie dla dzia?alno?ci firmy, ?e musia?a ona og?osi? stan alarmowy i zacz??a intensywnie inwestowa?, aby dogoni? galopuj?cy rynek generatywnej AI.
Dzia?ania na tym polu zaowocowa?y wydaniem nie tylko Google Bard, ale równie? Google Gemini, które zosta?o uruchomione w ?rod?, 6 grudnia 2023 roku.
W nadchodz?cych miesi?cach b?dziemy ?ledzi? dalszy rozwój projektu. Istnieje bowiem powa?na szansa, ?e model Gemini przejmie koron? popularno?ci AI, która do tej pory znajdowa?a si? w r?kach ChatGPT.
Czym jest Google Gemini?
Google Gemini to zestaw du?ych modeli j?zykowych (LLM), które wykorzystuj? techniki szkoleniowe zaczerpni?te z AlphaGo, w tym uczenie przez wzmacnianie (reinforcement learning) czy drzewo wyszukiwania.
Gemini ma wi?c potencja?, aby zdetronizowa? ChatGPT i zaj?? pozycj? dominuj?cego rozwi?zania generatywnej AI na ?wiecie.
Nowy projekt jest wynikiem miesi?cy pracy, które nast?pi?y po po??czeniu laboratoriów AI Google Brain i DeepMind w celu stworzenia nowego zespo?u badawczego o nazwie Google DeepMind, a tak?e po wprowadzeniu Barda i jego nowej generacji modelu j?zykowego PaLM 2 LLM.
Co potrafi Google Gemini?
Dzi?ki swojej multimodalno?ci model mo?e mie? bardzo wiele zastosowań, takich jak analizowanie wykresów, identyfikacja obiektów na zdj?ciu, odczytywanie pisma odr?cznego, rozwi?zywanie zagadek i rebusów, tworzenie tre?ci, zapisywanie danych w ró?nych formatach i wiele wi?cej.
Porównanie Gemini do ChatGPT jest wi?c jak najbardziej na miejscu.
Do tej pory w ofercie znalaz?o si? ju? kilka rodzajów modeli, takich jak:
- Gemini Pro,
- Gemini Ultra,
- Gemini Nano,
- Gemini Flash.
Przy przewidywaniach, ?e rynek generatywnej AI osi?gnie warto?? 1,3 bln $ do 2032 roku, domy?lamy si?, dlaczego firma Google inwestuje pe?n? par? w t? przestrzeń. Chce utrzyma? pozycj? lidera w rozwoju AI, a sztuczna inteligencja Gemini ma w tym pomóc.
Wszystko, co wiemy o Gemini
W maju Sundar Pichai, CEO Google i Alphabet, opublikowa? wpis na blogu, w którym przedstawi? ogólny zarys LLM, wyja?niaj?c:
?Gemini zosta?o stworzone od podstaw, tak aby by?o multimodalne, wysoce efektywne w integracji narz?dzi i interfejsów API oraz zbudowane z my?l? o przysz?ych innowacjach, takich jak pami?? i planowanie.”
Pichai zaznaczy? równie?:
?Cho? to dopiero pocz?tek, ju? teraz widzimy imponuj?ce mo?liwo?ci multimodalne, które nie wyst?powa?y w poprzednich modelach. Po dopracowaniu i rygorystycznych testach bezpieczeństwa, Gemini b?dzie dost?pne w ró?nych rozmiarach i mo?liwo?ciach, podobnie jak PaLM 2.”
Z kolei Demis Hassabis, CEO Google DeepMind, w wywiadzie dla Wired zauwa?y?, ?e Gemini b?dzie ???czy?o niektóre z mocnych stron systemów typu AlphaGo z niesamowitymi mo?liwo?ciami j?zykowymi du?ych modeli.”
Aktualnie ka?dy mo?e przetestowa? mo?liwo?ci Gemini w wersji darmowej lub p?atnej (Gemini Advanced).
Czy Gemini odbierze koron? ChatGPT?
Jednym z najwa?niejszych tematów wokó? premiery Gemini jest pytanie, czy nowy model j?zykowy ma to, czego potrzeba, aby zdetronizowa? ChatGPT, który w tym roku przekroczy? liczb? 100 milionów aktywnych u?ytkowników miesi?cznie.
Zacznijmy od tego, ?e pocz?tkowo Google wykorzystywa?o zdolno?ci Gemini do generowania tekstu i obrazów, aby wyró?ni? si? na tle GPT-4.
Jednak nie trwa?o to d?ugo, poniewa? 25 wrze?nia 2023 roku OpenAI og?osi?o, ?e u?ytkownicy b?d? mogli wprowadza? zapytania g?osowe i obrazowe równie? do ChatGPT.
Natomiast teraz, gdy OpenAI eksperymentuje z podej?ciem do modelu multimodalnego i po??czy?o ChatGPT z internetem, by? mo?e najgro?niejszym wyró?nikiem mi?dzy konkurencyjnymi modelami jest ogromna baza danych szkoleniowych Google.
Gemini mo?e bowiem przetwarza? dane pochodz?ce z ró?nych ?róde? i us?ug firmy, w tym Google Search, YouTube, Google Books, Google Cloud czy Google Scholar.
Wykorzystanie w?asnych danych do szkolenia modeli Gemini mo?e zapewni? im wyra?n? przewag? w zakresie zaawansowania analiz i wniosków, które AI wyci?gnie z podanych informacji.
Prawdopodobieństwo takiego rozwoju sytuacji jest tym wi?ksze, im bardziej prawdziwe s? wczesne doniesienia, jakoby Gemini by? szkolony na dwa razy wi?kszej liczbie tokenów od GPT-4.
Po??czenie si? zespo?ów Google DeepMind i Brain w tym roku te? nie mo?e by? lekcewa?one, poniewa? stawia OpenAI w bezpo?redniej konkurencji z grup? badaczy AI ?wiatowej klasy, w tym wspó?za?o?ycielem Google Sergeyem Brinem i g?ównym naukowcem AI DeepMind oraz ekspertem w dziedzinie uczenia maszynowego Paulem Barhamem.
Jest to do?wiadczony zespó?, który doskonale rozumie, jak stosowa? techniki takie jak uczenie przez wzmacnianie i drzewo wyszukiwania, aby tworzy? programy AI gromadz?ce informacje zwrotne i z czasem doskonal?ce swoje rozwi?zywanie problemów.
Wiedz? t? zespó? DeepMind wykorzysta?, aby nauczy? AlphaGo pokonania mistrza ?wiata w Go w 2016 roku.
Wy?cig zbrojeń w dziedzinie AI
Po??czenie zdolno?ci multimodalnych, uczenia przez wzmacnianie, mo?liwo?ci generowania tekstu i obrazów oraz w?asnych danych Google to wszystkie sk?adniki, których Gemini potrzebuje, aby przewy?szy? GPT-4.
Dane szkoleniowe Google s? tutaj kluczowym czynnikiem ró?nicuj?cym. W końcu zwyci?stwo w wy?cigu zbrojeń w dziedzinie du?ych modeli j?zykowych b?dzie w du?ej mierze zale?a?o od tego, kto szkoli swoje modele na najwi?kszym i najbogatszym zestawie danych.
Jednak bior?c pod uwag?, ?e OpenAI podobno pracuje nad nowym multimodalnym modelem LLM nast?pnej generacji o nazwie Gobi, nie mo?emy jeszcze odebra? firmie pozycji giganta generatywnej AI. Pozostaje nam tylko zada? pytanie, kto lepiej zrealizuje koncepcj? multimodalnej sztucznej inteligencji?
Jedno jest pewne: rywalizacja na linii Google Gemini/ChatGPT zaogni si? w nadchodz?cych miesi?cach.