Integration von Anonymisierungsverfahren in ETL-Prozesse für semistrukturierte Daten

Betreuer / Ansprechpartner

  • Hannes Grunert

    Charakter

      • Konzeption
      • Prototypische Implementierung

      Vorkenntnisse

        • Pflicht: Vorlesung Data Warehouses

        Beschreibung

        Im Zuge eines ETL-Prozesses (Extraktion, Transformation, Laden) werden Daten aus einem oder mehreren Zielsystemen in ein Zielsystem integriert. Werden hierbei personenbezogene Daten verarbeitet, so müssen diese ggf. anonymisiert werden, um Datenschutzaspekten zu genügen. Da die Anonymisierung nicht erst im Zielsystem erfolgen kann und eine pauschale, von der Datenanalyse losgelöste, Anonymisierung evtl. zu restriktiv ist, sollte die Anonymisierung erst während des ETL-Prozesses erfolgen.

        Im Rahmen dieser Masterarbeit soll untersucht werden, inwieweit sich Anonymisierungsverfahren in den ETL-Prozess integrieren lassen und wenn ja, an welcher Stelle dies bestenfalls geschehen sollte. Im Speziellen soll das Verfahren anhand der Transformation von semistrukturierten XML-Daten hin zu relationalen Daten im CSV-Format erprobt werden.

        Arbeitsschritte

        • Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
          • ETL-Prozess
          • Anonymisierungsverfahren
          • Semistrukturierte Daten
        • Konzeption
          • Auswahl geeigneter Anonymisierungsverfahren
          • Modifikation des ETL-Prozesses
        • Implementierung des Verfahrens
          • Allgemein
          • Speziell für XML-Dateien
        • Test und Validierung des Verfahrens

        Technologien

          • Programmiersprachen: Java, XSLT, XPath

          Literatur

            • Hannes Grunert: Vertrauenswürdige, adaptive Anfrageverarbeitung in dynamischen Sensornetzwerken zur Unterstützung assistiver Systeme, Doktorarbeit, Universität Rostock, 2022
            • Weitere Literatur wird zu Beginn der Arbeit bekannt gegeben.