Small Language Model (SLM)

Transparenz

Was ist ein Small Language Model (SLM)?

Small Language Model (SLM), zu Deutsch ?kleines Sprachmodell, ist ein leichtgewichtiges Modell der generativen KI.

Die Bezeichnung ?klein bezieht sich in diesem Zusammenhang auf die Gr??e des neuronalen Netzes des Modells, die Anzahl der Parameter, die das Modell zur Entscheidungsfindung verwendet, sowie die Datenmenge, auf der das Modell trainiert wird.

SLMs ben?tigen weniger Rechenleistung und Speicherplatz als gro?e Sprachmodelle (engl. Large Language Models, LLMs). Daher eignen sie sich sowohl für lokale als auch für ger?teinterne Implementierungen.

Small Language Model (SLM) einfach erkl?rt

Gro?e Sprachmodelle wie ChatGPT und Google Bard sind ressourcenintensiv. Sie verfügen über komplexe Deep-Learning-Architekturen, ben?tigen umfangreiche Trainingsdaten, erfordern erhebliche Mengen an Speicherplatz und verbrauchen unglaublich viel Strom.

Bis vor kurzem stellten diese Ressourcenanforderungen eine Eintrittsbarriere dar und verschafften Big Tech einen gro?en Vorteil auf dem schnell wachsenden Markt für künstliche Intelligenz (KI).

Mit der Entwicklung von SLMs werden diese Hürden allm?hlich abgebaut, so dass Start-ups und andere kleine Unternehmen ihre eigenen Sprachmodelle erstellen und einführen k?nnen.

Vorteile und Grenzen

SLMs k?nnen mit relativ kleinen Datens?tzen trainiert werden. Ihre einfacheren Architekturen sind besser erkl?rbar, und ihr geringer Platzbedarf erm?glicht den Einsatz auf mobilen Ger?ten.

Einer der Hauptvorteile von kleinen Sprachmodellen ist die M?glichkeit, SLMs so zu konzipieren, dass sie Daten lokal verarbeiten.

Diese Option ist besonders wichtig für Endger?te des Internet der Dinge (IoT) und Unternehmen, die strenge Datenschutz– und Sicherheitsrichtlinien einhalten müssen.

Die Verwendung kleiner Sprachmodelle ist jedoch mit einem Nachteil verbunden. Da SLMs auf kleineren Datens?tzen trainiert werden, ist ihre Wissensbasis begrenzter als die von LLMs.

Zudem weisen sie tendenziell ein engeres Verst?ndnis von Sprache und Kontext auf, was im Vergleich zu gr??eren Modellen zu weniger genauen und/oder weniger detaillierten Antworten führen kann.

Aspekt Kleine Sprachmodelle Gro?e Sprachmodelle
Gr??e K?nnen weniger als 15 Millionen Parameter haben. K?nnen Hunderte von Milliarden von Parametern haben.
Computertechnische Anforderungen K?nnen Prozessoren für mobile Ger?te verwenden. K?nnen Hunderte von GPU-Prozessoren erfordern.
Leistung K?nnen einfache Aufgaben bew?ltigen. K?nnen komplexe, vielf?ltige Aufgaben bew?ltigen.
Einsatz Leichtere Bereitstellung in Umgebungen mit eingeschr?nkten Ressourcen. Für die Bereitstellung ist oft eine umfangreiche Infrastruktur erforderlich.
Training K?nnen eine Woche lang trainiert werden. Training kann Monate dauern.

Kleine Sprachmodelle vs. spezialisierte Sprachmodelle

Das Akronym SLM kann verwirrend sein, da es sowohl für ?kleines Sprachmodell als auch für ?spezialisiertes Sprachmodell stehen kann.

Viele kleinere Sprachmodelle k?nnen au?erdem als spezialisierte Sprachmodelle bezeichnet werden, was die Verwirrung noch verst?rkt.

Spezialisierte Sprachmodelle werden eigens für bestimmte Bereiche oder Aufgaben trainiert oder fein abgestimmt. Diese Art von Modellen ist so konzipiert, dass sie in einem definierten Bereich von juristischem Fachjargon bis hin zu medizinischen Diagnosen gut funktionieren.

Damit es nicht zu Missverst?ndnissen kommt, sollte man beachten, dass kleine Modelle durch Folgendes gekennzeichnet sind:

  • die Anzahl der verwendeten Parameter;
  • die Gr??e ihres Footprints;
  • die Menge der zum Trainieren ben?tigten Daten.

Spezialisierte Modelle zeichnen sich durch ihr Thema oder ihr Fachgebiet aus.

Nicht alle kleinen Sprachmodelle sind spezialisiert und viele spezialisierte Modelle sind recht gro?.

Beispiele

DistilBERT: DistilBERT ist eine kleinere, schnellere und leichtere Version von BERT, dem bahnbrechenden Modell für Verarbeitung natürlicher Sprache (NLP).

Orca 2: Microsoft entwickelte Orca 2 durch Feinabstimmung des Llama 2-Modells von Meta mit hochwertigen synthetischen Daten. Mit diesem Ansatz konnte Microsoft ein Leistungsniveau erreichen, das mit dem gr??erer Modelle konkurriert oder dieses sogar übertrifft, insbesondere bei Zero-Shot-Reasoning-Aufgaben.

Phi 2: Phi 2 von Microsoft ist ein Transformer-basiertes SLM, das sowohl bei Cloud- als auch bei Edge-Implementierungen effizient und vielseitig sein soll. Laut Microsoft zeigt Phi 2 modernste Leistung für mathematisches Denken, Common Sense, Sprachverst?ndnis und logisches Schlussfolgern.

BERT Mini, Small, Medium und Tiny: Dabei handelt es sich um kleinere Versionen des BERT-Modells von Google, die je nach Ressourcenbeschr?nkung herunterskaliert werden. Sie bieten eine Reihe von Gr??en, vom Mini mit nur 4,4 Millionen Parametern bis zum Medium mit 41 Millionen Parametern.

GPT-Neo und GPT-J: Diese SLM-Modelle sind vereinfachte Versionen der GPT-Modelle von OpenAI.

MobileBERT: Wie der Name schon sagt, ist MobileBERT für mobile Ger?te konzipiert.

t5-small: Das Modell des Text-zu-Text-Transformers (T5) von Google gibt es in verschiedenen Gr??en. t5-small wurde entwickelt, um ein ausgewogenes Verh?ltnis zwischen Leistung und Ressourcenverbrauch zu gew?hrleisten.

Verwandte Begriffe

Margaret Rouse
Redaktion
Margaret Rouse
Redaktion

Margaret Rouse ist eine preisgekr?nte technische Autorin und Dozentin. Sie ist für ihre F?higkeit bekannt, komplexe technische Themen simpel und nachvollziehbar zu erkl?ren. In den letzten zwanzig Jahren sind ihre Erkl?rungen auf TechTarget-Websites erschienen und sie wurde in Artikeln der New York Times, des Time Magazine, USA Today, ZDNet, PC Magazine und Discovery Magazine als Quelle und Expertin zitiert. Wenn Sie einen Vorschlag für eine neue Definition haben oder eine technische Erkl?rung verbessern m?chten, schicken Sie einfach Margaret eine E-Mail oder kontaktieren Sie sie auf LinkedIn oder Twitter.

',a='';if(l){t=t.replace('data-lazy-','');t=t.replace('loading="lazy"','');t=t.replace(/