Seiten

Seiten

Sonntag, 12. Januar 2025

Die “Erschöpfung” von Firmen wie Open AI und Google.

Menschliche Daten seien erschöpft behauptet Elon Musk und auch Chefwissenschaftler von OpenAI, Ilya Sutskever. Zumindest wenn es um das Training von KI geht und da zeigt sich auch schon ein Problem dieser Aussage. 

Sie ist schlichtweg falsch. Genauer musste es heißen:

Menschliche Daten für das Training von KI’s liegen kaum noch digital und international, sowie öffentliche zugänglich vor. Dabei ignorieren wir all die Daten die fragmentiert, nur lokal oder schlichtweg nur in Schriftform vorliegen.


Das Problem mit synthetischen Daten:

Schon heute werden KI’s oder im englischen AI, mit synthetischen Daten trainiert. Das heißt, KI’s erschaffen Daten, um damit KI’s zu trainieren. Das ganze klingt absurd, macht aber durchaus Sinn, wenn wir bedenken, dass Daten oft fragmentiert vorliegen. Hier ergänzen wir einfach nur gewisse Punkte oder stellen einen logischen Zusammenhang zwischen Informationen her. Das kann auch eine KI ohne Probleme.

Oder wir erstellen mögliche Szenarien, mit der KI logisches Denken erlernt, nutzen diese dann um KI’s das autonome Fahren beizubringen oder können sie in der Medizin einsetzen. Die Gefahr dabei ist, wie auch bei menschlichen Versagen, das Fehler beim Erstellen dieser Szenarien passieren. Vielleicht hatte die KI nicht alle notwendigen Daten oder einige davon wurden mit Absicht ignoriert. Das passiert schon jetzt und das noch viel größere Probleme: Bei einer KI können wir keine Fehleranalyse starten, das Problem kann oft gar nicht mehr nachvollzogen werden. Das liegt daran, das wir schon jetzt keine Ahnung mehr haben, wie KI’s zu den Antworten kommen die sie uns geben, das wiederum liegt an der Natur einer KI selbst.

Ein naheliegender Schluss wäre da also, KI’s nur teilweise mit synthetischen Daten zu füttern. Sobald diese Daten der einzige Bezugspunkt für eine KI wird, sind damit einige Gefahren verbunden.

Synthetische Daten basieren immer auf existierenden Modellen, die zwangsläufig Verzerrungen und Fehler enthalten. Wenn KI-Modelle mit solchen Daten trainiert werden, können sich diese Fehler verstärken.

Auch entsteht ein geschlossener Kreislauf. Die KI könnte sich zunehmend von der realen Welt entfernen.

Ein besonders kritischer Punkt ist, dass bereits heute synthetische Daten unbemerkt in den Datenpool gelangen, etwa durch KI-generierte Texte, Bilder oder Videos im Internet. Diese „unsichtbare Kontamination“ macht es fast unmöglich, echte von synthetischen Daten zu unterscheiden.


Was mit “erschöpft” eigentlich gemeint ist:

 Die Aussage “menschliche Daten seien erschöpft” hat meines Erachtens nur eine wirkliche Grundlage: Daten sind teuer.

Auch unterliegen viele Daten gewissen Gesetzen, wie der DSGVO, aber auch wirtschaftliche Interessen privater Unternehmen, schränken den Zugang zu großen Datenmengen ein.

Letztendlich läuft jedoch alles an einem Punkt zusammen:

Daten die in der realen Welt existieren, zu sammeln, zu kuratieren und aufzubereiten ist teuer, zeitintensiv und technisch anspruchsvoll. 

Das sie nicht mehr existieren ist jedoch schlichtweg falsch.


Zusammenfassung: 

Die Datenwelt ist riesig, aber fragmentiert.

Dadurch ist die Aufbereitung mit viel Aufwand verbunden.

Synthetische Daten können dabei jedoch helfen.

Eine sinnvolle Zukunft für die KI-Entwicklung kann nicht auf synthetischen Daten allein basieren. Stattdessen muss der Fokus auf einer Kombination liegen:

1. Erweiterung des Zugangs zu echten Daten: Internationale Kooperationen und Investitionen sind notwendig, um ungenutzte Datenquellen zu erschließen und global zugänglich zu machen.

2. Bessere Datenkuratierung: Der Aufwand, echte Daten zu sammeln und aufzubereiten, ist hoch, aber unverzichtbar, um Verzerrungen zu minimieren und die Qualität der Modelle zu sichern.

3. Gezielter Einsatz synthetischer Daten: Synthetische Daten können nützlich sein, sollten aber nur als Ergänzung dienen – nicht als Ersatz für echte Daten.


Fazit:

Wer wenn nicht Firmen wie Google, hätte überhaupt das Geld internationale Bemühungen zu fördern, um Informationen besser zugänglich zu machen.

Eine Vereinfachung der Umstände mit Sätzen wie: “Menschliche Daten sind erschöpft” ignoriert diese Verantwortung und dient meiner Meinung eher als Ausrede.

Wer KI’s ausschließlich mit synthetischen Daten trainiert, fördert fehlerhafte Modelle.




Keine Kommentare:

Kommentar veröffentlichen