Einblicke: Der Wandel der GPT-Modelle in der KI, von GPT-1 bis GPT-4, aufgeschlüsselt

Transparenz
DAS WICHTIGSTE IM üBERBLICK

Die GPT-Serie hat die KI-Landschaft ver?ndert. Jedes aufeinanderfolgende Modell zeigt Fortschritte bei den F?higkeiten, wobei die Trainingsberechnungen (ausgedrückt in FLOPs) die immensen zugewiesenen Ressourcen demonstrieren. In einer kürzlich durchgeführten Studie wurde jedoch festgestellt, dass sich die Ergebnisse von GPT-4 und GPT-3.5 im Laufe der Zeit ver?ndert haben, was darauf schlie?en l?sst, dass ihre Leistung insgesamt gesunken ist. Forscher aus Princeton bestritten diese Ergebnisse und verwiesen auf Verzerrungen in den Datens?tzen und Bewertungen, was die Herausforderungen bei der Bewertung von Sprachmodellen verdeutlicht.

Künstliche Intelligenz (KI) hat sich seit dem Start der Chat Generative Pre-trained Transformer (GPT)-Reihe im Jahr 2018 stark ver?ndert.

Die nachfolgenden Modelle brachten Verbesserungen, Upgrades und Herausforderungen und weckten das Interesse von Enthusiasten, Forschern und Benutzern.

Von der grundlegenden Texterstellung bei GPT-1 bis zu den vielf?ltigen F?higkeiten von GPT-4 ist der Fortschritt offensichtlich. Kontinuierliche Studien untersuchen die Aktionen dieser Modelle und beleuchten ihre sich ver?ndernden F?higkeiten und m?glichen Probleme.

Dieser Artikel befasst sich mit dem Wachstum und der Untersuchung der generativen, vorgebildeten Chat-Transformer-Modelle. Er konzentriert sich auf ihre Leistungsergebnisse und Erkenntnisse aus verschiedenen Tests.

Die Entwicklung der Generative Pre-Trained Transformer Serie

Ein wesentlicher Aspekt für das Verst?ndnis der Fortschritte in der GPT-Serie ist die Trainingsberechnung, die oft in FLOP (Gleitkommaoperationen) gemessen wird. Ein FLOP steht für grundlegende mathematische Operationen wie Addition, Subtraktion, Multiplikation oder Division, die mit zwei Dezimalzahlen durchgeführt werden.

In der Gr??enordnung entspricht ein petaFLOP einer Billiarde (10^15) FLOP. Dieses Ma? an Rechenleistung verdeutlicht die enormen Ressourcen, die in die Ausbildung dieser Modelle investiert wurden.

Einführung von GPT im Jahr 2018

GPT-1, das im Juni 2018 eingeführt wurde, markierte den Beginn der generativen vortrainierten Transformator-Modellreihe. Damit wurde der Grundstein für das heutige ChatGPT gelegt.

GPT-1 zeigte das Potenzial des unüberwachten Lernens im Sprachverst?ndnis, indem es das n?chste Wort in S?tzen anhand von Büchern als Trainingsdaten vorhersagte.

GPT wurde mit 17.600 petaFLOPs trainiert.

Der Sprung zu GPT-2 im Jahr 2019

Im Februar 2019 erschien GPT-2 als ein bedeutendes Upgrade der generativ vortrainierten Transformer-Serie. Sie wies erhebliche Verbesserungen bei der Texterstellung auf und produzierte koh?rente, mehrteilige Inhalte.

Aufgrund von Bedenken hinsichtlich eines m?glichen Missbrauchs wurde die ?ffentliche Freigabe von GPT-2 jedoch zun?chst zurückgehalten. Nach einer sorgf?ltigen Risikobewertung durch OpenAI wurde es schlie?lich im November 2019 ver?ffentlicht.

GPT-2 wurde mit 1,49 Millionen petaFLOPs trainiert.

Das revolution?re GPT-3 im Jahr 2020

GPT-3, ein monumentaler Sprung im Juni 2020. Seine fortschrittliche Texterstellung fand Anwendung beim Verfassen von E-Mails, Artikeln, Gedichten und sogar bei der Generierung von Programmiercode. Es zeigte seine F?higkeiten bei der Beantwortung von Sachfragen und der übersetzung von Sprachen.

GPT-3 wurde mit 314 Millionen petaFLOPs trainiert.

Die Auswirkungen von GPT-3.5

GPT-3.5 ist eine verbesserte Version von GPT-3, die im Jahr 2022 ver?ffentlicht wurde. Dieses generative, vortrainierte Transformatormodell hat weniger Parameter und nutzt eine Feinabstimmung für besseres maschinelles Lernen (ML). Dies beinhaltet Verst?rkungslernen mit menschlichem Feedback, um die Algorithmen genauer und effektiver zu machen.

Bei der Entwicklung von GPT-3.5 wurden auch ethische Werte berücksichtigt, um sicherzustellen, dass die von ihm betriebene KI für den Menschen sicher und zuverl?ssig ist.

Dieses Modell wird von OpenAI zur kostenlosen Nutzung angeboten. Die Anzahl der für das Training verwendeten petaFLOPs ist nicht verfügbar.

Einführung des multimodalen GPT-4 im Jahr 2023

GPT-4, die jüngste Version, setzt den Trend zu bemerkenswerten Fortschritten fort und führt unter anderem folgende Verbesserungen ein:

  • Verbesserte Anpassung des Modells, so dass es die Absichten der Nutzer besser verstehen kann;
  • Geringeres Risiko, anst??ige oder sch?dliche Inhalte zu produzieren;
  • Erh?hte sachliche Genauigkeit;
  • Verbesserte Steuerbarkeit, die es erm?glicht, sein Verhalten auf der Grundlage von Benutzeraufforderungen anzupassen;
  • Internetkonnektivit?t, eine neue Funktion, die eine Internetsuche in Echtzeit erm?glicht.

Dieses Modell wird ChatGPT Plus-Abonnenten angeboten.

GPT-4 wurde mit 21 Milliarden petaFLOPs trainiert.

GPT-3.5 vs. GPT-4: Eine Forschungsstudie

An der Stanford University und der University of California, Berkeley, wurde eine Forschungsarbeit ver?ffentlicht, die die Ver?nderungen der Ergebnisse von GPT-4 und GPT-3.5 im Laufe der Zeit aufzeigt. Das Papier legt nahe, dass die Leistung dieser generativen, vortrainierten Transformatormodelle insgesamt abgenommen hat.

Lingjiao Chen, Matei Zaharia und James Zou untersuchten die Modelle von OpenAI, indem sie den API-Zugang nutzten, um die Modelle von M?rz und Juni 2023 zu untersuchen. Sie führten Tests durch, um die Entwicklung und Anpassungsf?higkeit der generativen vortrainierten Transformer-Modelle im Laufe der Zeit zu verstehen.

Primzahlen vs. zusammengesetzte Zahlen

Die Forscher wollten überprüfen, ob GPT-4 und GPT-3.5 erkennen k?nnen, ob Zahlen Primzahlen sind oder nicht. Für diesen Test verwendeten sie 1.000 Fragen, von denen die H?lfte Primzahlen aus einer Liste waren, die aus einer anderen Arbeit stammte. Die andere H?lfte wurde aus Zahlen zwischen 1.000 und 20.000 ausgew?hlt.

Eine Methode namens Chain-of-Thought (CoT) wurde verwendet, um die generativ vorgebildeten Transformatoren beim Denken zu unterstützen. Bei dieser Methode wird die Aufgabe zerlegt, indem erstens geprüft wird, ob eine Zahl gerade ist, zweitens ihre Quadratwurzel gefunden wird und drittens geprüft wird, ob sie durch kleinere Primzahlen geteilt werden kann.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 84% Genauigkeit
  • Juni 2023: 51% Genauigkeit

GPT-3.5:

  • M?rz 2023: 49,6% Genauigkeit
  • Juni 2023: 76,2% Genauigkeit

Glückliche Zahlen

Mit diesem Test sollte geprüft werden, wie gut ChatGPT glückliche Zahlen innerhalb eines bestimmten Bereichs erkennen kann. Eine glückliche Zahl ist, wenn man die Quadrate ihrer Ziffern addiert und am Ende 1 erh?lt.

Zum Beispiel ist 13 eine glückliche Zahl, weil 1 zum Quadrat plus 3 zum Quadrat 10 ergibt, und dann 1 zum Quadrat 1.

Die Studie konzentrierte sich auf diese Frage, weil sie im Gegensatz zu anderen Fragen, die mit Ja oder Nein beantwortet werden k?nnen, eindeutig ist. Au?erdem handelt es sich um einfache Mathematik.

Für diesen Test wurden 500 Fragen erstellt. Bei jeder Frage wurde gefragt, wie viele glückliche Zahlen in einem bestimmten Bereich liegen. Die Gr??e des Bereichs variierte, und der Startpunkt wurde aus Zahlen zwischen 500 und 15.000 ausgew?hlt. Der Test verwendete CoT, um das logische Denken zu f?rdern.

Dies sind die Ergebnisse:

GPT-4:

  • M?rz 2023: 83,6% Genauigkeit
  • Juni 2023: 35,2% Genauigkeit

GPT-3.5:

  • M?rz 2023: 30,6% Genauigkeit
  • Juni 2023: 48,2 % Genauigkeit

Sensible/gef?hrliche Fragen

In diesem Test wurde untersucht, wie die generativen, vortrainierten Transformer-Modelle mit sensiblen Fragen umgehen. Zu diesem Zweck wurde ein Satz von 100 heiklen Fragen erstellt, die sch?dlich oder kontrovers sein k?nnten. Daher sollten die Modelle direkte Antworten vermeiden.

Die Forscher verwendeten eine manuelle Kennzeichnung, um zu sehen, ob ein Modell eine Frage direkt beantwortet.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 21,0 % Antwortquote
  • Juni 2023: 5,0 % Antwortquote

GPT-3.5:

  • M?rz 2023: 2,0% Rücklaufquote
  • Juni 2023: 8,0 % Rücklaufquote

Meinungsumfragen

In diesem Test wurde anhand des OpinionQA-Datensatzes untersucht, wie sich die Meinungsverzerrungen der Sprachmodelle im Laufe der Zeit ver?ndern. Dieser Datensatz enthielt 1.506 Meinungsfragen aus führenden ?ffentlichen Umfragen. Es handelte sich um Multiple-Choice-Fragen, bei denen die Modelle aufgefordert wurden, die beste Einzeloption auszuw?hlen.

Das Hauptziel war es, zu sehen, ob die generativen, vortrainierten Transformer-Modelle in der Lage waren, Meinungen abzugeben.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 97,6% Antwortquote
  • Juni 2023: 22,1 % Rücklaufquote

GPT-3.5:

  • M?rz 2023: 94,3% Rücklaufquote
  • Juni 2023: 96,7% Rücklaufquote

Wissensintensive Multi-hop-Fragen

Um zu untersuchen, wie gut gro?e Sprachmodelle (LLMs) komplexe Multi-Hop-Fragen beantworten k?nnen, verwendeten die Forscher einen Ansatz namens LangChain HotpotQA Agent. Dieser Ansatz bestand darin, LLMs Wikipedia durchsuchen zu lassen, um Antworten auf komplizierte Fragen zu finden.

Der Agent wurde dann mit der Aufgabe betraut, auf jede Anfrage im HotpotQA-Datensatz zu antworten.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 1,2% exakte übereinstimmung
  • Juni 2023: 37,8 % exakte übereinstimmung

GPT-3.5:

  • M?rz 2023: 22,8% exakte übereinstimmung
  • Juni 2023: 14,0% exakte übereinstimmung

Generierung von Code

Um die Codegenerierungsf?higkeiten von LLMs ohne das Risiko einer Datenkontamination zu bewerten, wurde ein neuer Datensatz kuratiert, der die letzten 50 als “einfach” eingestuften Probleme von LeetCode verwendet. Diese Probleme sind mit L?sungen und Diskussionen versehen, die im Dezember 2022 ver?ffentlicht wurden.

Die generativen vortrainierten Transformationsmodelle wurden mit diesen Problemen zusammen mit den Originalbeschreibungen und Python-Codevorlagen pr?sentiert.

Der von den LLMs generierte Code wurde direkt dem LeetCode Online-Richter zur Bewertung vorgelegt. Wenn der generierte Code von der Jury akzeptiert wurde, bedeutete dies, dass der Code die Python-Regeln einhielt und die von der Jury festgelegten Tests erfolgreich bestand.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 52,0% direkt ausführbar
  • Juni 2023: 10,0 % direkt ausführbar

GPT-3.5:

  • M?rz 2023: 22,0 % direkt ausführbar
  • Juni 2023: 2,0 % direkt ausführbar

Medizinische Prüfung

Mit diesem Test sollten die Fortschritte von GPT-4 und GPT-3.5 in einem speziellen Bereich bewertet werden – dem USMLE, einer wichtigen medizinischen Prüfung für amerikanische ?rzte. Diese Prüfung war ein Ma?stab für die Bewertung der medizinischen Kenntnisse von LLMs. Die Methodik bestand darin, die generativen, vortrainierten Transformer-Modelle die USMLE-Prüfung ablegen zu lassen und dann ihre Leistungen zu vergleichen.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 86,6 % Trefferquote
  • Juni 2023: 82,4% Genauigkeitsrate

GPT-3.5:

  • M?rz 2023: 58,5% Genauigkeitsrate
  • Juni 2023: 57,7% Genauigkeitsrate

Visuelles Denkverm?gen

Dieser Test sollte zeigen, wie gut LLMs mit visuellen Aufgaben zurechtkommen. Unter Verwendung des ARC-Datensatzes, einem beliebten Instrument für solche Tests, wurden die LLMs gebeten, Gitter auf der Grundlage vorgegebener Muster zu erstellen. Diese Gitter verwendeten Farben, die in 2-D-Arrays dargestellt wurden. Von 467 getesteten Mustern verglichen sie die Antworten der LLMs mit den richtigen, um ihre Genauigkeit zu messen.

Dies waren die Ergebnisse:

GPT-4:

  • M?rz 2023: 24,6 % exakte Trefferquote
  • Juni 2023: 27,2 % exakte Trefferquote

GPT-3.5:

  • M?rz 2023: 10,9% exakte Trefferquote
  • Juni 2023: 14,3% exakte Trefferquote

Schlussfolgerung

Die Ergebnisse zeigen eine Verschiebung der Leistung. Bei beiden generativen vortrainierten Transformer-Modellen gab es bei vielen Aufgaben Ver?nderungen in der Genauigkeit, wobei sich einige Aufgaben verbesserten und andere verschlechterten.

Zum Beispiel schnitt GPT-4 bei schwierigen Fragen besser ab, hatte aber Probleme bei Codierung und Mathematik. Andererseits hatte GPT-3.5 bei einigen Aufgaben gemischte Ergebnisse.

Die Forschung zeigt, dass sich die LLMs weiter entwickeln. Kontinuierliche überwachung und Bewertung sind von entscheidender Bedeutung, insbesondere bei kritischen Anwendungen. Die Daten unterstreichen die überwachung von Ver?nderungen und die Herausforderung einer konsistenten Leistung bei Aufgaben.

L?sst die Leistung von GPT-4 wirklich nach? Ein genauerer Blick

W?hrend die Stanford-Studie Bedenken hinsichtlich der Leistung von GPT-4 aufwirft, haben andere Experten eine andere Sichtweise dargelegt.

Arvind Narayanan, Informatikprofessor an der Princeton University, und Sayash Kapoor, Doktorand an der Universit?t Princeton, haben sich mit den Ergebnissen der Studie befasst und folgendes festgestellt.

Chatbots verstehen

Chatbots wie GPT-4 haben zwei Hauptmerkmale: F?higkeiten (was sie tun k?nnen) und Verhalten (wie sie sich verhalten). W?hrend die F?higkeiten in einer intensiven Vortrainingsphase festgelegt werden, kann das Verhalten in der anschlie?enden, h?ufigeren Feinabstimmungsphase angepasst werden.

Nach dem Vortraining fungiert das Modell im Wesentlichen als Autocomplete-Tool. Seine F?higkeit, auf chat?hnliche Weise zu interagieren, ergibt sich aus der Feinabstimmung.

Bewertung der Codegenerierung

In der Studie wurde festgestellt, dass die neuere GPT-4-Version manchmal Nicht-Code-Text in ihre Ausgaben einfügt. Anstatt die Genauigkeit des Codes zu prüfen, wurde nur überprüft, ob er direkt ausführbar war. Dies bedeutet, dass die Bemühungen des Modells, umfassendere Antworten zu liefern, als negativ bewertet wurden.

Bewertung mathematischer Probleme

In der Studie wurden mathematische Probleme verwendet, bei denen es um die Identifizierung von Primzahlen ging. Allerdings handelte es sich bei allen getesteten Zahlen um Primzahlen. Diese Auswahl an Daten beeinflusste die Ergebnisse.

Tats?chlich testeten Narayanan und Kapoor die Modelle mit 500 zusammengesetzten Zahlen und stellten fest, dass ein Gro?teil der Leistungsverschlechterung auf diese Auswahl der Bewertungsdaten zurückzuführen war.

In der M?rz-Version sagte GPT-4 h?ufig Primzahlen voraus, w?hrend die Juni-Version in der Regel davon ausgeht, dass es sich um zusammengesetzte Zahlen handelt. Die Forscher betrachteten dies als einen signifikanten Leistungsabfall, vor allem weil sie nur Primzahlen auswerteten. Interessanterweise zeigt GPT-3.5 das gegenteilige Verhalten.

GPT models comparison chart
Quelle: AI Snake Oil

In Wahrheit schnitten alle vier Modelle ?hnlich schlecht ab, wie die obige Grafik zeigt. Ihre Vorhersagen wurden durch ihre anf?ngliche Kalibrierung beeinflusst. In den meisten F?llen überprüfte keines der Modelle tats?chlich, ob die Zahlen Teiler hatten – sie taten nur so, indem sie alle zu überprüfenden Faktoren auflisteten, ohne sie tats?chlich zu überprüfen.

Letztendlich kamen Narayanan und Kapoor zu dem Schluss, dass die Arbeit keinen schlüssigen Beweis dafür liefert, dass die F?higkeiten von GPT-4 nachgelassen haben. Sie verdeutlicht jedoch die m?glichen unbeabsichtigten Folgen der Feinabstimmung, einschlie?lich erheblicher Verhaltens?nderungen.

Die Bewertung von Sprachmodellen bleibt eine schwierige Aufgabe, und es ist von entscheidender Bedeutung, solche Bewertungen mit einem umfassenden Verst?ndnis der F?higkeiten und Verhaltensweisen der Modelle anzugehen.

Die Quintessenz

Die Reihe der generativen, vortrainierten Transformatoren sticht im Bereich der KI hervor. Doch mit neuen Ideen kommt auch die Notwendigkeit regelm??iger überprüfungen.

Der in Studien aufgezeigte Leistungsverlauf dieser Modelle deutet auf wechselnde Ergebnisse beim maschinellen Lernen hin. Einige sehen einen Rückgang der F?higkeiten, w?hrend andere sich auf die Prüfung von Details konzentrieren.

Dennoch ist das Wachstum der GPT-Modelle von gro?er Bedeutung für den weiteren Weg der KI. Und es ist wichtig, einen flexiblen Blick auf die H?hen und Tiefen dieser Tools zu haben.

Verwandte Begriffe

In Verbindung stehende Artikel

Maria Webb
Tech Journalistin
Maria Webb
Tech Journalistin

Maria Webb ist eine erfahrene Contentspezialistin mit mehr als 5 Jahren Erfahrung im Journalismus und arbeitet derzeit als Technologiejournalistin für Business2Community und Techopedia, wobei sie sich auf datengestützte Artikel spezialisiert hat. Ihr besonderes Interesse gilt den Themen KI und Posthumanismus. Marias journalistische Laufbahn umfasst zwei Jahre als Statistikjournalistin bei Eurostat, wo sie überzeugende datenzentrierte Nachrichtenartikel verfasste, und drei Jahre bei Newsbook.com.mt, wo sie über lokale und internationale Nachrichten berichtete.

',a='';if(l){t=t.replace('data-lazy-','');t=t.replace('loading="lazy"','');t=t.replace(/