banner
Heim / Nachricht / Die meisten KI-Trainingsdaten könnten bis zum nächsten Jahr synthetisch sein
Nachricht

Die meisten KI-Trainingsdaten könnten bis zum nächsten Jahr synthetisch sein

Jun 09, 2023Jun 09, 2023

Mit synthetischen Daten können KI-Modelle auf einem größeren Datensatz trainiert werden, als dies mit rein organischen Daten möglich wäre.

Von Ryan Morrison

Die meisten Daten, die zum Trainieren von Modellen für maschinelles Lernen verwendet werden, werden synthetisch sein und automatisch generiert, prognostiziert ein neuer Bericht von Gartner. Im Jahr 2021 waren nur 1 % aller KI-Trainingsdaten synthetisch, aber Analysten gehen davon aus, dass dieser Wert bis Ende 2024 auf 60 % ansteigen könnte. Governance und Wachsamkeit gegenüber Vorurteilen seien unerlässlich, um zu verhindern, dass diese Daten den gleichen Herausforderungen ausgesetzt seien wie organische Daten, sagte ein Experte gegenüber Tech Monitor.

Synthetische Daten werden von KI generiert, um fehlende Lücken in realen Informationen wie medizinischer Bildgebung oder Informationen zu bestimmten Krankheitsmustern zu schließen. In einer neuen Studie zu Trends in der Datenwissenschaft, die diese Woche veröffentlicht wurde, prognostiziert Gartner, dass bis 2024 mehr als 60 % aller KI-Modell-Trainingsdaten synthetisch sein werden, was seiner Meinung nach zu besseren KI-Systemen führen wird.

Dieser Übergang von organischen zu synthetischen Trainingsdaten ist Teil eines umfassenderen Wandels hin zu datenzentrierter KI, wie sie beispielsweise zur Erstellung großer Sprach- und Basismodelle verwendet wird. „Lösungen wie KI-spezifisches Datenmanagement, synthetische Daten und Datenkennzeichnungstechnologien zielen darauf ab, viele Datenherausforderungen zu lösen, darunter Zugänglichkeit, Volumen, Datenschutz, Sicherheit, Komplexität und Umfang“, heißt es in dem Bericht von Gartner.

Ein aktueller Bericht von GlobalData ergab, dass Start-ups im Bereich synthetischer Daten „die Landschaft der Datengenerierung neu definieren“. Kiran Raj, Praxisleiter für disruptive Technologie bei GlobalData, beschrieb es als „Hauptschlüssel für die Zukunft der KI“ und sagte, dass die Start-ups die Fesseln der Datenqualität und -regulierung durchbrechen würden. „Da die Nachfrage nach zuverlässigen, kostengünstigen, zeiteffizienten und die Privatsphäre wahrenden Daten immer weiter zunimmt, stellen sich Start-ups eine Zukunft vor, die auf synthetischen Daten basiert und eine neue Ära des Fortschritts beim maschinellen Lernen einläutet“, sagte Raj.

Es hat das Potenzial, positive Auswirkungen auf eine Reihe von Sektoren zu haben. Im Gesundheitswesen wird es bereits zur Anreicherung realer Patientendaten zur Schulung von Ärzten, zur Verbesserung der Arzneimittelforschung und zur Optimierung von Systemen eingesetzt. Im Finanzdienstleistungssektor trägt es dazu bei, Risiken zu mindern und Betrug aufzudecken. Und im Einzelhandel werden Nachfrageprognosen, personalisiertes Marketing und Betrugserkennung verbessert.

Zu den weiteren wichtigen Trends, die Gartner festgestellt hat, gehört eine Verlagerung hin zur Edge-Verarbeitung für KI. Dem Bericht zufolge wird die Verarbeitung von Daten zum Zeitpunkt ihrer Entstehung Unternehmen dabei helfen, Einblicke in Echtzeit zu gewinnen und neue Muster zu erkennen. Es wird auch einfacher, immer strengere Datenschutzanforderungen zu erfüllen. Die Organisation prognostiziert, dass bis 2025 mehr als 55 % der Datenanalyse durch neuronale Netze in einem Edge-System erfolgen werden.

Die Analysten von Gartner gehen davon aus, dass verantwortungsvolle KI stärker in den Vordergrund rücken wird. Dazu gehört, sicherzustellen, dass Technologie als positive Kraft und nicht als Bedrohung für die Gesellschaft eingesetzt wird. Dazu gehört, sicherzustellen, dass Unternehmen bei der Einführung von KI ethische Entscheidungen treffen, die den gesellschaftlichen Wert, das Risiko, das Vertrauen, die Rechenschaftspflicht und die Transparenz berücksichtigen. Dies sind die Kernanforderungen, die vielen der KI-Vorschriften zugrunde liegen, die weltweit, auch im Vereinigten Königreich, entwickelt werden.

Organisationen sollten einen „risikoproportionalen Ansatz“ bei der Investition und dem Einsatz von KI verfolgen, warnten die Analysten. Dazu gehört, bei der Anwendung von Lösungen und Modellen Vorsicht walten zu lassen und Zusicherungen von Anbietern einzuholen, um sicherzustellen, dass sie ihre eigenen Risiken und Compliance-Verpflichtungen verwalten. Dies wird dazu beitragen, sie vor finanziellen Verlusten und rechtlichen Schritten zu schützen.

Einige Stiftungsmodell- und generative KI-Organisationen bieten eine gewisse Entschädigung für diese Risiken an. Adobe sagt, dass es die Kosten im Zusammenhang mit Urheberrechtsansprüchen aus der Verwendung seines generativen KI-Bildmodells Firefly decken wird. Dies liegt daran, dass das Unternehmen davon überzeugt ist, dass das Modell ausschließlich auf lizenzierten und autorisierten Daten trainiert wird, die keine urheberrechtlich verdächtigen Ergebnisse erzeugen.

Peter Krensky, leitender Analyst bei Gartner, sagte: „Da die Einführung von maschinellem Lernen in allen Branchen weiterhin rasant zunimmt, entwickelt sich der Datenbereich von einem reinen Fokus auf Vorhersagemodelle hin zu einer stärker demokratisierten, dynamischeren und datenzentrierteren Disziplin.“ Befeuert wird dies mittlerweile auch durch die Begeisterung für generative KI. Während potenzielle Risiken entstehen, entstehen auch viele neue Fähigkeiten und Anwendungsfälle für Datenwissenschaftler und ihre Organisationen.“

Caroline Carruthers, Datenexpertin und Mitbegründerin des globalen Datenberatungsunternehmens Carruthers and Jackson, erklärte gegenüber Tech Monitor, dass synthetische Daten ein unschätzbares Werkzeug für das Training von KI-Modellen seien, insbesondere dort, wo keine großen Datensätze verfügbar seien. „Es wurde am effektivsten im Gesundheitssektor eingesetzt, wo Daten zu seltenen Krankheiten durch synthetische Daten ergänzt wurden, um die Modellierung von Behandlungsoptionen zu verbessern“, sagt sie.

Carruthers sagte, dass es zwar „einen klaren Wert in der Erweiterung begrenzter Datensätze mit synthetischen Daten gibt, es aber eine Reihe von Risiken gibt“, einschließlich der Möglichkeit, dass Vorurteile, die in kleineren Datensätzen vorherrschen, durch synthetische Daten, die diese als Grundlage nutzen, verstärkt werden könnten. Sie fügt hinzu: „Unterm Strich stehen synthetische Daten vor den gleichen Herausforderungen wie organische Daten, wenn es um die Notwendigkeit einer Governance und die Wachsamkeit gegenüber möglichen Verzerrungen geht.“