Weniger Rechenaufwand für zuverlässige KI-Antworten
ETH-Forschende haben eine Methode entwickelt, die die Antworten einer KI laufend zuverl?ssiger macht. Ihr Algorithmus w?hlt dafür sehr gezielt die Daten aus. Zudem erreichen auch bis zu 40-mal kleinere KI die gleiche Output-Leistung wie die besten grossen KI.
- Vorlesen
- Anzahl der Kommentare

In Kürze
- Der neue SIFT-Algorithmus von ETH-Informatikern verringert mithilfe von gezielt ausgesuchten und auf die Fragestellung spezialisierten Anreicherungsdaten laufend die Unsicherheit von KI-Antworten.
- Der Algorithmus erkennt dabei die Informationen, die einen Zusammenhang mit der Frage aufweisen und w?hlt gezielt diejenigen Daten für die KI-Verarbeitung aus, welche die Unsicherheit verringern und die Antworten verbessern.
- Von der Methode profitieren insbesondere Anwender:innen, die ihre eigenen Spezial-Daten mit einem generellen KI-Modell kombinieren und die ben?tigte Rechenleistung reduzieren wollen.
ChatGPT und Konsorten bringen uns mit der Treffsicherheit ihrer Antworten h?ufig zum Staunen, aber leider auch immer wieder zum Zweifeln. Das grosse Problem der m?chtigen KI-Antwortmaschinen (künstliche Intelligenz): Sie servieren uns mit der gleichen Selbstverst?ndlichkeit perfekte Antworten und offensichtlichen Nonsens. Eine der grossen Herausforderungen liegt darin, wie die den KI zugrundeliegenden grossen Sprachmodelle (LLM) mit Unsicherheit umgehen. Es war bis danhin sehr schwierig zu beurteilen, ob die auf Textverarbeitung und -erzeugung ausgerichteten LLMs ihre Antworten auf einem soliden Datenfundament generieren oder ob sie sich auf unsicherem Daten-Boden bewegen.
Forschende vom Institut für maschinelles Lernen am Department für Informatik der ETH Zürich haben nun eine Methode entwickelt, mit der sich die Unsicherheit einer KI gezielt verringern l?sst. ?Unser Algorithmus kann das generelle Sprachmodell der KI gezielt mit zus?tzlichen Daten aus dem jeweiligen Themenbereich einer Fragestellung anreichern. In Kombination mit der konkreten Frage k?nnen wir dann spezifisch jene Zusammenh?nge aus den Tiefen des Modells und aus den Anreicherungsdaten hervorholen, aus denen sich mit grosser Wahrscheinlichkeit eine korrekte Antwort generieren l?sst?, erkl?rt Jonas Hübotter von der Learning & Adaptive Systems Group, der die neue Methode im Rahmen seines Doktorats entwickelt hat.
KI mit spezifischen Daten anreichern
?Die Methode eignet sich besonders für Unternehmen, Wissenschaftlerinnen oder andere Anwender, die eine generelle KI in einem Spezialgebiet nutzen wollen, das von den Trainingsdaten der KI nur teilweise oder gar nicht abgedeckt wurde.? erg?nzt Andreas Krause, der Leiter der Forschungsgruppe und Vorsteher des ETH AI Center.
Die Anwender k?nnen dafür zum Beispiel ihre lokal gespeicherten Daten in ein grosses Sprachmodell (LLM) wie Llama einfliessen lassen. Der sogenannte SIFT-Algorithmus (Selecting Informative data for Fine-Tuning) der ETH-Informatiker kann dann aus den zus?tzlich zur Verfügung gestellten Daten gezielt diejenigen Informationen heraussuchen, die einen m?glichst engen Zusammenhang mit der Fragestellung aufweisen.
Beziehungsvektoren im multidimensionalen Raum
Um zusammenh?ngende Informationen zu finden, nutzt der Algorithmus die Struktur anhand der die Sprachinformationen im Large Language Model (LLM) der KI angeordnet sind. Die Modelle teilen die Sprachinformationen ihrer Trainingsdaten in Wortteile auf. Die Bedeutungs- und die Verwendungsbeziehungen zwischen den Wortteilen werden dann als Verbindungspfeile – fachsprachlich Vektoren - in einem vieldimensionalen Raum angeordnet. Die bis zu mehreren tausend Dimensionen des Raums entstehen dabei aus den Beziehungsparametern, die das LLM w?hrend dem Training mit den generellen Daten selbst?ndig identifiziert.
Winkel als Mass des Zusammenhangs
Beziehungs-Pfeile, die in diesem Vektorraum in die gleiche Richtung zeigen, weisen einen grossen Zusammenhang auf. Je gr?sser der Winkel zwischen zwei Vektoren ist, desto weniger haben zwei Informationseinheiten miteinander zu tun.
Der SIFT-Algorithmus der ETH-Forschenden nutzt nun die Richtung des Beziehungsvektors der Input-Anfrage (Prompt), um diejenigen Informationsbeziehungen zu identifizieren, die einen engen Zusammenhang mit der Frage aufweisen aber sich gleichzeitig inhaltlich erg?nzen. ?Der Winkel zwischen den Vektoren entspricht der inhaltlichen Relevanz und wir k?nnen anhand der Winkel gezielt diejenigen Daten ausw?hlen, welche die Unsicherheit verringern?, führt Hübotter aus.
Weniger ?berlagerungen durch Redundanz
Das bisher gebr?uchlichste Vorgehen zur Auswahl der für die Antwort geeigneten Informationen, das sogenannte Nearest-Neighbor-Verfahren, tendiert demgegenüber dazu, vor allem vielfach vorhandene redundante Informationen anzusammeln. Der Unterschied zwischen den zwei Methoden wird am Beispiel eines Anfrage-Prompts deutlich, der aus mehreren Informationsteilen zusammengesetzt ist.
Für die Beantwortung der zweiteiligen Frage ?Wie alt ist Roger Federer und wie viele Kinder hat er?? sieht das Nearest-Neighbor-Verfahren ?hnliche Informationen wie ?Roger Federer ist 43 Jahre alt? und ?Roger Federers Geburtstag ist der 8. August 1981? als gleichermassen relevant an. Informationen zu seinen Kindern, relevant für den zweiten Teil der Frage, fehlen mitunter. Sie werden von den in den Trainingsdaten der KI viel h?ufiger vorkommenden Geburtsdatumsinformationen überlagert. Der SIFT-Algorithmus berücksichtigt hingegen, inwieweit sich die einbezogenen Informationen erg?nzen, deren Informationsvektoren also in unterschiedliche Richtung zeigen. Dadurch lassen sich relevante Informationen für beide Teilaspekte der Frage identifizieren.
Zuverl?ssigere Antworten mit viel kleineren Modellen
Die gezielte Informationsauswahl verbessert aber nicht nur die Antwortwortqualit?t. Sie l?sst sich auch zur Verringerung des immer gr?sser werdenden Rechenaufwands von KI-Anwendungen nutzen. Durch die indirekte Messung der Unsicherheit kann beispielsweise das Modell selbst entscheiden, wie viele Daten noch n?tig sind, um eine hinreichend zuverl?ssige Antwort geben zu k?nnen. Der Rechenaufwand einer LLM l?sst sich so systematisch an die Komplexit?t der Frage und die Verfügbarkeit relevanter Informationen anpassen
Da SIFT die Gewichtung der Pfeilrichtungen w?hrend der Datenauslese laufend dynamisch an seine Berechnungen adaptiert, wird zudem das angereicherte Modell im Verlauf der Nutzung immer zuverl?ssiger. Dieses sogenannte Training im Betrieb kann dazu genutzt werden, um mit kleineren Modellen die gleiche Output-Leistung zu erreichen. ?In Tests mit Standard-Datens?tzen haben wir mit einem SIFT-Tuning die besten aktuellen KI selbst mit bis zu 40-mal kleineren Modellen übertroffen?, unterstreicht Hübotter.
Zusatznutzen relevanter Daten identifizieren
Zus?tzliche Anwendungsm?glichkeiten des SIFT-Algorithmus er?ffnen sich für die Bewertung von Daten, wie Krause ausführt: ?Wir k?nnen nachverfolgen, welche der Anreicherungsdaten durch SIFT ausgew?hlt werden. Sie stehen in einem engen Zusammenhang mit der Fragestellung und sind darum in diesem Themenbereich überdurchschnittlich relevant. Dies k?nnte unter anderem in der Medizin genutzt werden, um beispielsweise zu untersuchen, welche Laboranalysen oder welche Messergebnisse bei einer spezifischen Diagnose bedeutsam sind, und welche weniger.?
Seinen Ansatz stellt Hübotter derzeit an der ?International Conference on Learning Representations? (ICLR) in Singapur vor. Bereits im Dezember gewannen die ETH-Forschenden für ihre Methode den Preis für den besten wissenschaftlichen Artikel an der ?NeurIPS Annual Conference on Neural Information Processing Systems? (NeurIPS) am Workshop “Finetuning in Modern Machine Learning”.
Literaturhinweis
Hübotter, J, Bongni, S, Hakimi, I, Krause, A. Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs. In: Proc. International Conference on Learning Representations (ICLR), 2025. DOI: externe Seite https://doi.org/10.48550/arXiv.2410.08020 (Preprint-Publikation auf ArXive)