Staubsauger-KI: Die Jagd nach Trainingsdaten

Transparenz

In der sich rasant weiterentwickelnden Welt der künstlichen Intelligenz ist der Zugang zu qualitativ hochwertigen Trainingsdaten von entscheidender Bedeutung für den Erfolg von KI-Projekten. Diese Daten dienen als Grundlage für die Entwicklung und das Training von KI-Modellen, um komplexe Aufgaben zu bew?ltigen und pr?zise Vorhersagen treffen zu k?nnen.

Doch was passiert, wenn die verfügbaren Datenmengen nicht mehr ausreichen und mehr ben?tigt werden?

Diese Frage wurde für OpenAI, ein führendes Unternehmen in der KI-Forschung, Ende 2021 zur Realit?t. Zu ihrer überraschung stellten sie fest, dass die herk?mmlichen Quellen für englischsprachige Trainingsdaten ersch?pft waren – sogar unkonventionelle Quellen wie Kommentare in Foren oder sozialen Medien schienen ausgesch?pft zu sein.

Dies zwang sie dazu, nach alternativen Methoden zur Datenerfassung zu suchen, um ihren Bedarf an Trainingsdaten zu decken. Als Reaktion darauf entwickelte OpenAI das Tool “Whisper”, um das Internet regelrecht “auszusaugen” und die dringend ben?tigten Trainingsdaten zu sammeln.

Doch diese Vorgehensweise wirft auch kritische Fragen auf, insbesondere im Hinblick auf Ethik und Rechtskonformit?t bei der Datengewinnung.

Wichtigste Erkenntnisse

  • KI-Systeme, vergleichbar mit Staubsaugern, durchk?mmen das Internet nach Daten.
  • Traditionelle Quellen für Trainingsdaten, wie Bücher und Artikel, reichen nicht mehr aus.
  • KI-Unternehmen wie OpenAI entwickeln Tools wie “Whisper”, um YouTube-Videos in Text umzuwandeln.
  • Datenschutzbedenken und rechtliche Grauzonen sind bei der Datengewinnung von KI-Modellen stark pr?sent.
  • Google und Meta wurden auch beschuldigt, Daten in ?hnlicher Weise zu sammeln.
  • Die KI-Revolution wirft ethische Fragen auf, die sorgf?ltig berücksichtigt werden müssen.

Ein bewusster Versto? gegen die Nutzungsbedingungen

OpenAI hat sein eigenes Tool namens Whisper entwickelt, das speziell darauf ausgelegt ist, den Ton von YouTube-Videos in Text umzuwandeln. Das Ergebnis? Neue Inhalte, perfekt als Trainingsdaten geeignet.

Nach Angaben von anonymen Insidern ?u?erten einige Mitarbeiter von OpenAI Bedenken, dass die Nutzung von YouTube-Videos gegen die Nutzungsbedingungen der Plattform versto?en k?nnte. Denn YouTube verbietet nicht nur die Verwendung seiner Videos für “unabh?ngige” Anwendungen, sondern auch den Zugriff darauf durch “automatisierte Programme” wie Roboter, Botnets oder Scraper.

Trotzdem hat sich OpenAI dazu entschlossen, über eine Million Stunden an Videos zu transkribieren, wobei die Urheberrechte der YouTube-Content-Creator verletzt wurden. Greg Brockman, Pr?sident von OpenAI, spielte dabei eine Schlüsselrolle und half pers?nlich bei der Zusammenstellung der Videos. Die transkribierten Texte wurden dann in das GPT-4-System von OpenAI eingespeist.

GPT-4 z?hlt zu den leistungsst?rksten KI-Modellen weltweit und bildet die Basis für die neueste Version des ChatGPT-Chatbots. Auf diese Weise konnte OpenAI seinen Mangel an Trainingsdaten ausgleichen und die Leistung seiner KI-Modelle verbessern – und letztlich seine führende Position im Markt der künstlichen Intelligenz weiterhin festigen.

Auch Google und Meta saugen Daten ab, wo sie nicht sollten

Es scheint, dass OpenAI nicht allein in ihrem Vorgehen war. Laut einer Untersuchung der New York Times haben auch Unternehmen wie Google und Meta Abkürzungen genommen und nicht alle Vorschriften und Unternehmensrichtlinien beachtet, um an die ben?tigten Daten zu gelangen. Verhandlungen über Lizenzen mit Rechteinhabern sollen zu zeitaufwendig gewesen sein.

Meta, zu der Facebook und Instagram geh?ren, hat sogar den Kauf der New Yorker Verlagsgruppe Simon & Schuster in Betracht gezogen, um an urheberrechtlich geschützte Werke zu gelangen.

Google hat sogar seine Nutzungsbedingungen ge?ndert, um ?ffentlich verfügbare Inhalte für seine KI-Produkte zu nutzen, was zu gro?en Datenschutzbedenken führt.

Diese fragwürdigen Handlungen der Unternehmen verdeutlichen, dass Online-Inhalte wie Nachrichtenartikel, Wikipedia-Inhalte, Forenbeitr?ge, fiktionale Werke, Fotos, Videos und Podcasts zunehmend zum Treibstoff der boomenden KI-Industrie werden.

KI-Modelle sind auf enorme Datenmengen angewiesen

Damit KI-Modelle wie Chatbots oder Bildgeneratoren menschen?hnliche Ergebnisse erzielen k?nnen, sind sie auf eine reichhaltige Datenbasis angewiesen. Diese Daten sind das Fundament, auf dem die Modelle trainiert werden und erm?glichen es ihnen, komplexe Aufgaben zu bew?ltigen.

Die Qualit?t der Daten spielt dabei eine entscheidende Rolle. Insbesondere hochwertige Inhalte wie Fachliteratur und professionelle Artikel sind begehrt. Doch der Zugang zu solchen Daten ist oft teuer und mit rechtlichen Hürden verbunden

Handelt es sich um ?ffentlichen Datenraub?

OpenAI betont, dass ihre KI-Modelle handverlesene Daten nutzen, um den Nutzern qualitative Ergebnisse zu liefern, und um natürlich in der KI-Forschung ganz vorne mitzuspielen. Im Gegensatz dazu schnappt sich Google Daten von YouTube-Clips – natürlich mit Einverst?ndnis der Content-Ersteller.

Und Meta? Die haben ordentlich in KI investiert und bedienen sich an Milliarden von Instagram- und Facebook-Bildern und -Videos, um ihre Modelle zu sch?rfen.

Aber die Sache hat einen Haken: Die KI-Revolution hat auch eine dunkle Seite. Unternehmen wie OpenAI und Microsoft wurden von der New York Times und anderen Kreativen verklagt, weil sie Artikel für KI-Chatbots genutzt haben, ohne um Erlaubnis zu fragen.

OpenAI und Microsoft verteidigen sich mit dem Argument des “Fair Use”, da sie die Artikel in etwas Neues umgewandelt haben.

Letztes Jahr haben über 10.000 Gruppen und Einzelpersonen wie Autoren und andere Kreativschaffende dem US-amerikanischen Copyright Office ihre Bedenken mitgeteilt. Die Beh?rde arbeitet jetzt daran, Richtlinien für die Anwendung des Urheberrechts in der ?ra der Künstlichen Intelligenz zu erstellen.

KI-Modelle greifen auf künstlich generierte Informationen zurück

Technologieunternehmen haben einen enormen Bedarf an neuen Daten, was dazu geführt hat, dass einige begonnen haben, künstliche Informationen zu generieren. Diese werden nicht von Menschen erstellt, sondern von den KI-Modellen selbst erzeugt. Anders gesagt, die KI lernt aus den Daten, die sie selbst produziert, anstatt nur auf vorhandene Datenquellen wie Texte und Bilder aus dem Internet zurückzugreifen.

Dies scheint der einzige praktikable Weg für diese Tools zu sein, um auf die erforderlichen Datenmengen zuzugreifen, ohne sie lizenzieren zu müssen.

Seit einigen Jahren erkunden KI-Forscher die Verwendung von synthetischen Daten. Doch die Entwicklung eines KI-Systems, das sich selbst trainieren kann, ist eine gro?e Herausforderung. KI-Modelle, die von ihren eigenen Ausgaben lernen, k?nnten in eine Art Endlosschleife geraten, in der sie ihre eigenen Merkmale, Fehler und Einschr?nkungen verst?rken.

Um dieses Problem anzugehen, erforschen Unternehmen wie OpenAI die M?glichkeit, zwei verschiedene KI-Modelle zusammenarbeiten zu lassen, um synthetische Daten zu erzeugen, die praktischer und zuverl?ssiger sind. Ein Modell generiert die Daten, w?hrend das andere Modell die Informationen bewertet, um zwischen guten und schlechten Daten zu unterscheiden.

Aber es gibt uneinheitliche Meinungen unter den Forschern darüber, ob diese Methode letztendlich erfolgreich sein wird. Einige sind optimistisch und sehen gro?es Potenzial, w?hrend andere skeptisch sind und Herausforderungen sehen, die überwunden werden müssen. Die Zeit wird zeigen, ob diese innovative Herangehensweise tats?chlich die gewünschten Ergebnisse liefert und den Bedarf an hochwertigen Trainingsdaten effektiv decken kann.

Fazit

Insgesamt zeigt die Diskussion über die Nutzung von Daten durch KI-Unternehmen wie OpenAI, Google und Meta die wachsende Bedeutung von Daten in der KI-Industrie. W?hrend diese Unternehmen nach neuen Quellen suchen, um ihre Modelle zu verbessern, werden gleichzeitig gleichzeitig Bedenken hinsichtlich des Datenschutzes, des Urheberrechts und der Fairness laut.

Es ist klar, dass die KI-Revolution in vollem Gange ist und unser Verst?ndnis davon, wie Daten genutzt werden, um KI-Modelle zu trainieren, weiterhin im Wandel ist. Angesichts dieser Herausforderungen ist es wichtig, dass wir weiterhin darüber diskutieren, wie wir sicherstellen k?nnen, dass KI-Technologien verantwortungsvoll eingesetzt werden und gleichzeitig die Rechte und Privatsph?re derjenigen respektiert werden, deren Daten verwendet werden.

Nicoletta Hrouzek
Tech-Expertin
Nicoletta Hrouzek
Tech-Expertin

Nicolettas Technologiebegeisterung geht über Trends hinaus. Als erfahrene Autorin umspannt ihre Fachkenntnis vielf?ltige Bereiche. Ihre F?higkeit, Komplexes verst?ndlich zu vermitteln, macht sie zur Quelle für Leser, die sich in neue technologische Entwicklungen und aufstrebende M?rkte vertiefen m?chten.

',a='';if(l){t=t.replace('data-lazy-','');t=t.replace('loading="lazy"','');t=t.replace(/