{"id":12,"date":"2023-02-20T13:17:20","date_gmt":"2023-02-20T12:17:20","guid":{"rendered":"https:\/\/colda.uol.de\/?page_id=12"},"modified":"2023-05-09T13:48:30","modified_gmt":"2023-05-09T11:48:30","slug":"start","status":"publish","type":"page","link":"https:\/\/colda.uol.de\/en\/","title":{"rendered":"Start"},"content":{"rendered":"<h2 class=\"wp-block-heading\"><strong>Motivation<\/strong><\/h2>\n\n\n\n<p>Der Einsatz von maschinellen Lernans\u00e4tzen innerhalb der Industrie und Wirtschaft verzeichnet einen stetigen Zuwachs. Diese Entwicklung ist neben der Verf\u00fcgbarkeit gro\u00dfer Trainingsdaten sowie der Innovationen im Bereich der Modellarchitekturen auch der immens gestiegenen Rechenleistung zu verdanken. Diese neuen Bedingungen erm\u00f6glichen es den Unternehmen schon heute, ausgew\u00e4hlte Szenarien ihres t\u00e4glichen Aufgabenbereichs durch maschinelles Lernen zu unterst\u00fctzen.&nbsp;<\/p>\n\n\n\n<p>Ein entscheidender Faktor f\u00fcr die Ergebnisg\u00fcte der zu entwickelnden Modelle, liegt in der Qualit\u00e4t der Datengrundlage. Um ein Modell zu trainieren, ben\u00f6tigen die konventionellen Ans\u00e4tze des maschinellen Lernens dabei die Zentralisierung der Trainingsdaten auf einer Maschine oder in einem Rechenzentrum. Dieses Vorgehen stellt allerdings eine Herausforderung dar, wenn innerhalb der Trainingsdaten Informationen fehlen, die lediglich an bestimmten Standorten vorkommen und aufgrund ihrer Sensibilit\u00e4t auch nicht ohne Weiteres zentralisiert werden k\u00f6nnen. Die Gr\u00fcnde einer solchen Datensensibilit\u00e4t k\u00f6nnen Vielf\u00e4ltigkeit sein, resultieren in der Praxis jedoch typischerweise aus gesetzlichen Bestimmungen und Datenschutzanforderungen (z.B. bei personenbezogenen Daten) sowie internen Bedenken der Unternehmen (z.B. bei Gesch\u00e4ftsgeheimnissen).&nbsp;<\/p>\n\n\n\n<p>Eine M\u00f6glichkeit, die Schutzw\u00fcrdigkeit der lokal verwalteten Daten zu wahren und diese dennoch f\u00fcr das Training innerhalb eines maschinellen Lernansatzes zu verwendet, wird durch Federated Learning (FL) bereitgestellt. Im Rahmen dieses verteilten Lernansatzes werden die Daten unmittelbar an ihrem jeweiligen Verwaltungsstandort f\u00fcr das Training eines lokalen Modells verwendet, anstatt sie an einem zentralen Ort zusammenzuf\u00fchren. Die aus diesen lokalen Trainingsiterationen resultierenden Modellparameter werden anschlie\u00dfend unter Nutzung unterschiedlicher Algorithmen zu einem globalen Modell aggregiert. Auf diese Weise k\u00f6nnten sensible Unternehmensdaten f\u00fcr maschinelles Lernen genutzt werden, ohne ihre Schutzw\u00fcrdigkeit zu gef\u00e4hrden.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Goal<\/strong><\/h2>\n\n\n\n<p>Das Ziel des Forschungsprojektes CoLDa (Collaborative Machine Learning for Data Value Creation) besteht in der praxisnahen Erforschung und Weiterentwicklung von Federated Machine Learning im Einsatzgebiet der Datenintegration sowie der nat\u00fcrlichen Sprachverarbeitung (Natural Language Processing \/ NLP).&nbsp;<\/p>\n\n\n\n<p>Die Datenintegration ist f\u00fcr Unternehmen und Organisationen entscheidend, um heterogene Datensilos zu verkn\u00fcpfen und die Datenqualit\u00e4t zu erh\u00f6hen. Dies ist eine Voraussetzung, um KI- und Digitalisierungsprojekte durchf\u00fchren zu k\u00f6nnen. Der Datenintegrationsprozess erfordert nach wie vor einen hohen manuellen Aufwand, welcher durch den Einsatz von KI drastisch reduziert werden kann. F\u00fcr den Einsatz von KI innerhalb des Datenintegrationsprozesses werden allerdings gro\u00dfe Mengen an Trainingsdaten ben\u00f6tigt, die h\u00e4ufig nicht von einem Unternehmen oder einer Organisation allein bereitgestellt werden k\u00f6nnen. Um eine ad\u00e4quate Datengrundlage bereitstellen zu k\u00f6nnen, m\u00fcsste ein Austausch von Daten stattfinden, welcher in der Praxis aufgrund der Datensensibilit\u00e4t jedoch nicht m\u00f6glich ist. Um diese Herausforderungen zu l\u00f6sen, soll untersucht werden, wie Federated Learning innerhalb des Datenintegrationsprozesses eingesetzt werden kann, um diesen k\u00fcnftig weiter zu automatisieren. Zu diesem Zweck soll ein Vorgehensmodell konzeptioniert und als Prototyp umgesetzt und evaluiert werden.\u00a0<\/p>\n\n\n\n<p>Analog zur Datenintegration ist auch der Einsatz nat\u00fcrlicher Sprachverarbeitung (NLP) innerhalb der Unternehmen mit Herausforderungen hinsichtlich der Datensensibilit\u00e4t konfrontiert \u2013 vorwiegend durch die eingeschr\u00e4nkte Zug\u00e4nglichkeit von dom\u00e4nen-spezifischen Textdaten und Labeln. Obwohl heutige Language-Modelle durch fortschrittliche Architekturen und immense Mengen \u00f6ffentlich zug\u00e4nglicher Textdaten gute Performance in unterschiedlichen NLP-Aufgaben erzielen konnten, so besteht bei individuellen bzw. dom\u00e4nenspezifischen Problemstellungen und Texten h\u00e4ufig die Herausforderung, eine geeignete (Trainings-)Datengrundlage nutzen zu k\u00f6nnen. Dies ist insbesondere dann der Fall, wenn sich ein Unternehmen oder eine \u00f6ffentliche Einrichtung aus unterschiedlichen Abteilungen und Zweigstellen zusammensetzt, die ihre individuell anfallenden Textdaten aufgrund sensibler Informationen nicht ohne Weiteres untereinander austauschen k\u00f6nnen (z.B. im Fall von E-Mails, internen Berichten, Rechnungen, Belegen, Lieferscheinen etc.). Um diese Textinhalte dennoch nutzbar zu machen, k\u00f6nnen sie mit Hilfe von Ans\u00e4tzen des Federated Learning unmittelbar an ihrem jeweiligen Entstehungs- oder Verwaltungsstandort f\u00fcr das Training eines Modells verwendet werden, ohne den jeweiligen Standort dabei verlassen zu m\u00fcssen. Auf diese Weise k\u00f6nnen neue Vokabularien, Satzstrukturen, Semantiken, kontextuelle Zusammenh\u00e4nge oder auch Text-Klassifikationen erlernt werden, die m\u00f6glicherweise nur an dem jeweiligen Standort vorkommen und somit von einem zentral entwickelten Modell nicht ber\u00fccksichtigt worden w\u00e4ren. Um bewerten zu k\u00f6nnen, inwieweit die lokal erlernten Strukturen die Qualit\u00e4t eines globalen NLP-Modells positiv beeinflussen, sollen ausgew\u00e4hlte Klassifikationsaufgaben aus dem Bereich des NLP prototypisch implementiert und evaluiert werden.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Duration and partners<\/strong>&nbsp;<\/h2>\n\n\n\n<p>Das Forschungsprojekt CoLDa wird im Rahmen einer dreij\u00e4hrigen Kooperation mit dem DLR (Deutsches Zentrum f\u00fcr Luft- und Raumfahrt) umgesetzt und endet am 31.12.2025.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><\/h2>","protected":false},"excerpt":{"rendered":"<p>Motivation Der Einsatz von maschinellen Lernans\u00e4tzen innerhalb der Industrie und Wirtschaft verzeichnet einen stetigen Zuwachs. Diese Entwicklung ist neben der Verf\u00fcgbarkeit gro\u00dfer Trainingsdaten sowie der Innovationen im Bereich der Modellarchitekturen auch der immens gestiegenen Rechenleistung zu verdanken. Diese neuen Bedingungen erm\u00f6glichen es den Unternehmen schon heute, ausgew\u00e4hlte Szenarien ihres t\u00e4glichen Aufgabenbereichs durch maschinelles Lernen zu &hellip; <\/p>\n<p class=\"link-more\"><a href=\"https:\/\/colda.uol.de\/en\/\" class=\"more-link\">Continue reading<span class=\"screen-reader-text\"> &#8222;Start&#8220;<\/span><\/a><\/p>","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-12","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/pages\/12","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/comments?post=12"}],"version-history":[{"count":9,"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/pages\/12\/revisions"}],"predecessor-version":[{"id":116,"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/pages\/12\/revisions\/116"}],"wp:attachment":[{"href":"https:\/\/colda.uol.de\/en\/wp-json\/wp\/v2\/media?parent=12"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}