banner

Nachricht

Jan 31, 2024

Wissenschaftler haben einen Geist geschaffen

Forscher beginnen, eines der größten Geheimnisse hinter den KI-Sprachmodellen zu lüften, die Text- und Bildgenerierungstools wie DALL-E und ChatGPT unterstützen.

Experten und Wissenschaftler des maschinellen Lernens bemerken seit einiger Zeit etwas Seltsames an großen Sprachmodellen (LLMs) wie GPT-3 von OpenAI und LaMDA von Google: Sie sind unerklärlicherweise gut darin, Aufgaben auszuführen, für die sie nicht speziell geschult wurden. Das ist eine verwirrende Frage und nur ein Beispiel dafür, wie schwierig, wenn nicht sogar unmöglich es in den meisten Fällen sein kann, bis ins kleinste Detail zu erklären, wie ein KI-Modell zu seinen Ergebnissen gelangt.

In einer bevorstehenden Studie, die auf dem Preprint-Server arXiv veröffentlicht wird, untersuchen Forscher des Massachusetts Institute of Technology, der Stanford University und von Google dieses „anscheinend mysteriöse“ Phänomen, das als „In-Context-Lernen“ bezeichnet wird. Um eine neue Aufgabe zu erfüllen, müssen die meisten Modelle für maschinelles Lernen normalerweise auf neue Daten umtrainiert werden. Dies ist ein Prozess, bei dem Forscher normalerweise Tausende von Datenpunkten eingeben müssen, um die gewünschte Ausgabe zu erhalten – ein mühsames und zeitaufwändiges Unterfangen.

Aber durch kontextbezogenes Lernen kann das System anhand von nur wenigen Beispielen lernen, neue Aufgaben zuverlässig auszuführen, indem es sich quasi spontan neue Fähigkeiten aneignet. Sobald ein Sprachmodell eine Eingabeaufforderung erhält, kann es eine Liste von Eingaben und Ausgaben verwenden und neue, häufig korrekte Vorhersagen über eine Aufgabe erstellen, für die es nicht explizit trainiert wurde. Diese Art von Verhalten verheißt sehr Gutes für die Forschung zum maschinellen Lernen, und die Aufklärung, wie und warum es auftritt, könnte unschätzbare Erkenntnisse darüber liefern, wie Sprachmodelle Informationen lernen und speichern.

Aber was ist der Unterschied zwischen einem Modell, das lernt und nicht nur auswendig lernt?

„Lernen ist mit [vorhandenem] Wissen verknüpft“, sagte Ekin Akyürek, Hauptautor der Studie und Doktorand am MIT, gegenüber Motherboard. „Wir zeigen, dass es diesen Modellen möglich ist, spontan aus Beispielen zu lernen, ohne dass wir Parameteraktualisierungen auf das Modell anwenden müssen.“

Das bedeutet, dass das Modell nicht nur Trainingsdaten kopiert, sondern wahrscheinlich auf Vorwissen aufbaut, so wie es Menschen und Tiere tun würden. Die Forscher haben ihre Theorie nicht mit ChatGPT oder einem anderen der beliebten maschinellen Lerntools getestet, von denen die Öffentlichkeit in letzter Zeit so begeistert ist. Stattdessen arbeitete Akyüreks Team mit kleineren Modellen und einfacheren Aufgaben. Da es sich jedoch um denselben Modelltyp handelt, bieten ihre Arbeiten Einblicke in die Grundlagen anderer, bekannterer Systeme.

Die Forscher führten ihr Experiment durch, indem sie dem Modell synthetische Daten oder Eingabeaufforderungen gaben, die das Programm noch nie zuvor gesehen hatte. Trotzdem sei das Sprachmodell in der Lage, Wissen daraus zu verallgemeinern und dann zu extrapolieren, sagte Akyürek. Dies veranlasste das Team zu der Hypothese, dass KI-Modelle, die im Kontext lernen, tatsächlich kleinere Modelle in sich selbst erzeugen, um neue Aufgaben zu erfüllen. Die Forscher konnten ihre Theorie testen, indem sie einen Transformator analysierten, ein neuronales Netzwerkmodell, das ein Konzept namens „Selbstaufmerksamkeit“ anwendet, um Beziehungen in sequentiellen Daten, wie Wörtern in einem Satz, zu verfolgen.

Durch die Beobachtung in Aktion stellten die Forscher fest, dass ihr Transformator sein eigenes Modell für maschinelles Lernen in seinen verborgenen Zuständen oder im Raum zwischen der Eingabe- und Ausgabeschicht schreiben konnte. Dies deutet darauf hin, dass es sowohl theoretisch als auch empirisch möglich ist, dass Sprachmodelle scheinbar ganz von selbst „bekannte und ausführlich untersuchte Lernalgorithmen“ erfinden, sagte Akyürek.

Mit anderen Worten: Diese größeren Modelle funktionieren, indem sie intern kleinere, einfachere Sprachmodelle erstellen und trainieren. Das Konzept ist leichter zu verstehen, wenn man es sich als Matroschka-ähnliches Computer-im-Computer-Szenario vorstellt.

Zu den Ergebnissen des Teams sagte Facebook AI Research-Wissenschaftler Mark Lewis in einer Erklärung, dass die Studie ein „Sprungbrett zum Verständnis, wie Modelle komplexere Aufgaben lernen können, und Forschern dabei helfen wird, bessere Trainingsmethoden für Sprachmodelle zu entwickeln, um ihre Leistung weiter zu verbessern.“ "

Während Akyürek zustimmt, dass Sprachmodelle wie GPT-3 neue Möglichkeiten für die Wissenschaft eröffnen werden, sagt er, dass sie bereits die Art und Weise verändert haben, wie Menschen Informationen abrufen und verarbeiten. Während früher durch die Eingabe einer Eingabeaufforderung in Google nur Informationen abgerufen wurden und wir Menschen dafür verantwortlich waren, auszuwählen (sprich: Klicken), welche Informationen für die jeweilige Abfrage am besten geeignet waren, „kann GPT jetzt die Informationen aus dem Web abrufen, sie aber auch für Sie verarbeiten.“ „, sagte er gegenüber Motherboard. „Deshalb ist es sehr wichtig zu lernen, wie man diese Modelle für Datenfälle anregt, die man lösen möchte.“

Die Verarbeitung von Informationen automatischen Systemen zu überlassen, bringt natürlich allerhand neue Probleme mit sich. KI-Ethikforscher haben wiederholt gezeigt, wie Systeme wie ChatGPT sexistische und rassistische Vorurteile reproduzieren, die schwer zu mildern und unmöglich vollständig zu beseitigen sind. Viele haben argumentiert, dass es einfach nicht möglich ist, diesen Schaden zu verhindern, wenn KI-Modelle die Größe und Komplexität von etwas wie GPT-3 erreichen.

Obwohl immer noch große Unsicherheit darüber besteht, was zukünftige Lernmodelle leisten können und sogar darüber, was aktuelle Modelle heute leisten können, kommt die Studie zu dem Schluss, dass kontextbezogenes Lernen letztendlich dazu genutzt werden könnte, viele der Probleme zu lösen, mit denen Forscher des maschinellen Lernens zweifellos konfrontiert werden Gesicht nach unten zur Straße.

Mit Ihrer Anmeldung stimmen Sie den Nutzungsbedingungen und der Datenschutzrichtlinie zu und stimmen dem Erhalt elektronischer Mitteilungen von der Vice Media Group zu, die Marketingaktionen, Werbung und gesponserte Inhalte umfassen können.

AKTIE