Integration von Anonymisierungsverfahren in ETL-Prozesse für semistrukturierte Daten
Betreuer / Ansprechpartner
- Hannes Grunert
Charakter
- Konzeption
- Prototypische Implementierung
Vorkenntnisse
- Pflicht: Vorlesung Data Warehouses
Beschreibung
Im Zuge eines ETL-Prozesses (Extraktion, Transformation, Laden) werden Daten aus einem oder mehreren Zielsystemen in ein Zielsystem integriert. Werden hierbei personenbezogene Daten verarbeitet, so müssen diese ggf. anonymisiert werden, um Datenschutzaspekten zu genügen. Da die Anonymisierung nicht erst im Zielsystem erfolgen kann und eine pauschale, von der Datenanalyse losgelöste, Anonymisierung evtl. zu restriktiv ist, sollte die Anonymisierung erst während des ETL-Prozesses erfolgen.
Im Rahmen dieser Masterarbeit soll untersucht werden, inwieweit sich Anonymisierungsverfahren in den ETL-Prozess integrieren lassen und wenn ja, an welcher Stelle dies bestenfalls geschehen sollte. Im Speziellen soll das Verfahren anhand der Transformation von semistrukturierten XML-Daten hin zu relationalen Daten im CSV-Format erprobt werden.
Arbeitsschritte
- Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
- ETL-Prozess
- Anonymisierungsverfahren
- Semistrukturierte Daten
- Konzeption
- Auswahl geeigneter Anonymisierungsverfahren
- Modifikation des ETL-Prozesses
- Implementierung des Verfahrens
- Allgemein
- Speziell für XML-Dateien
- Test und Validierung des Verfahrens
Technologien
- Programmiersprachen: Java, XSLT, XPath
Literatur
- Hannes Grunert: Vertrauenswürdige, adaptive Anfrageverarbeitung in dynamischen Sensornetzwerken zur Unterstützung assistiver Systeme, Doktorarbeit, Universität Rostock, 2022
Weitere Literatur wird zu Beginn der Arbeit bekannt gegeben.