CoLDa
Kontakt
CoLDa
Motivation
Der Einsatz von maschinellen Lernansätzen innerhalb der Industrie und Wirtschaft verzeichnet einen stetigen Zuwachs. Diese Entwicklung ist neben der Verfügbarkeit großer Trainingsdaten sowie der Innovationen im Bereich der Modellarchitekturen auch der immens gestiegenen Rechenleistung zu verdanken. Diese neuen Bedingungen ermöglichen es den Unternehmen schon heute, ausgewählte Szenarien ihres täglichen Aufgabenbereichs durch maschinelles Lernen zu unterstützen.
Ein entscheidender Faktor für die Ergebnisgüte der zu entwickelnden Modelle, liegt in der Qualität der Datengrundlage. Um ein Modell zu trainieren, benötigen die konventionellen Ansätze des maschinellen Lernens dabei die Zentralisierung der Trainingsdaten auf einer Maschine oder in einem Rechenzentrum. Dieses Vorgehen stellt allerdings eine Herausforderung dar, wenn innerhalb der Trainingsdaten Informationen fehlen, die lediglich an bestimmten Standorten vorkommen und aufgrund ihrer Sensibilität auch nicht ohne Weiteres zentralisiert werden können. Die Gründe einer solchen Datensensibilität können Vielfältigkeit sein, resultieren in der Praxis jedoch typischerweise aus gesetzlichen Bestimmungen und Datenschutzanforderungen (z.B. bei personenbezogenen Daten) sowie internen Bedenken der Unternehmen (z.B. bei Geschäftsgeheimnissen).
Eine Möglichkeit, die Schutzwürdigkeit der lokal verwalteten Daten zu wahren und diese dennoch für das Training innerhalb eines maschinellen Lernansatzes zu verwendet, wird durch Federated Learning (FL) bereitgestellt. Im Rahmen dieses verteilten Lernansatzes werden die Daten unmittelbar an ihrem jeweiligen Verwaltungsstandort für das Training eines lokalen Modells verwendet, anstatt sie an einem zentralen Ort zusammenzuführen. Die aus diesen lokalen Trainingsiterationen resultierenden Modellparameter werden anschließend unter Nutzung unterschiedlicher Algorithmen zu einem globalen Modell aggregiert. Auf diese Weise könnten sensible Unternehmensdaten für maschinelles Lernen genutzt werden, ohne ihre Schutzwürdigkeit zu gefährden.
Zielsetzung
Das Ziel des Forschungsprojektes CoLDa (Collaborative Machine Learning for Data Value Creation) besteht in der praxisnahen Erforschung und Weiterentwicklung von Federated Machine Learning im Einsatzgebiet der Datenintegration sowie der natürlichen Sprachverarbeitung (Natural Language Processing / NLP).
Die Datenintegration ist für Unternehmen und Organisationen entscheidend, um heterogene Datensilos zu verknüpfen und die Datenqualität zu erhöhen. Dies ist eine Voraussetzung, um KI- und Digitalisierungsprojekte durchführen zu können. Der Datenintegrationsprozess erfordert nach wie vor einen hohen manuellen Aufwand, welcher durch den Einsatz von KI drastisch reduziert werden kann. Für den Einsatz von KI innerhalb des Datenintegrationsprozesses werden allerdings große Mengen an Trainingsdaten benötigt, die häufig nicht von einem Unternehmen oder einer Organisation allein bereitgestellt werden können. Um eine adäquate Datengrundlage bereitstellen zu können, müsste ein Austausch von Daten stattfinden, welcher in der Praxis aufgrund der Datensensibilität jedoch nicht möglich. Um diese Herausforderungen zu lösen, soll untersucht werden, wie Federated Learning innerhalb des Datenintegrationsprozesses eingesetzt werden kann, um diesen künftig weiter zu automatisieren. Zu diesem Zweck soll ein Vorgehensmodell konzeptioniert und als Prototyp umgesetzt und evaluiert werden.
Analog zur Datenintegration ist auch der Einsatz natürlicher Sprachverarbeitung (NLP) innerhalb der Unternehmen mit Herausforderungen hinsichtlich der Datensensibilität konfrontiert – vorwiegend durch die eingeschränkte Zugänglichkeit von domänen-spezifischen Textdaten und Labeln. Obwohl heutige Language-Modelle durch fortschrittliche Architekturen und immense Mengen öffentlich zugänglicher Textdaten gute Performance in unterschiedlichen NLP-Aufgaben erzielen konnten, so besteht bei individuellen bzw. domänenspezifischen Problemstellungen und Texten häufig die Herausforderung, eine geeignete (Trainings-)Datengrundlage nutzen zu können. Dies ist insbesondere dann der Fall, wenn sich ein Unternehmen oder eine öffentliche Einrichtung aus unterschiedlichen Abteilungen und Zweigstellen zusammensetzt, die ihre individuell anfallenden Textdaten aufgrund sensibler Informationen nicht ohne Weiteres untereinander austauschen können (z.B. im Fall von E-Mails, internen Berichten, Rechnungen, Belegen, Lieferscheinen etc.). Um diese Textinhalte dennoch nutzbar zu machen, können sie mit Hilfe von Ansätzen des Federated Learning unmittelbar an ihrem jeweiligen Entstehungs- oder Verwaltungsstandort für das Training eines Modells verwendet werden, ohne den jeweiligen Standort dabei verlassen zu müssen. Auf diese Weise können neue Vokabularien, Satzstrukturen, Semantiken, kontextuelle Zusammenhänge oder auch Text-Klassifikationen erlernt werden, die möglicherweise nur an dem jeweiligen Standort vorkommen und somit von einem zentral entwickelten Modell nicht berücksichtigt worden wären. Um bewerten zu können, inwieweit die lokal erlernten Strukturen die Qualität eines globalen NLP-Modells positiv beeinflussen, sollen ausgewählte Klassifikationsaufgaben aus dem Bereich des NLP prototypisch implementiert und evaluiert werden.
Laufzeit und Partner
Das Forschungsprojekt CoLDa wird im Rahmen einer dreijährigen Kooperation mit dem DLR (Deutsches Zentrum für Luft- und Raumfahrt) umgesetzt und endet am 31.12.2025