Implementierung und Parallelisierung Selbstorganisierender Karten in SQL
Betreuer / Ansprechpartner
- Hannes Grunert
Charakter
- Konzeption
- Prototypische Implementierung
Vorkenntnisse
- Pflicht: Vorlesung Data Science bzw. Vorlesung Data Warehouses
- Optional: Vorlesung Digitale Bibliotheken und Multimedia-Information-Retrieval
Beschreibung
Neben k-means und DBSCAN stellen Selbstorganisierende Karten (self-organizing maps, SOM) eine weitere Möglichkeit dar, Daten zu clustern. Gegenwärtig existieren nur wenige, nicht-performante Implementierungen dieses Algorithmus.
Im Rahmen dieser Masterarbeit soll eine Umsetzung Selbstorganisierender Karten in SQL konzipiert und implementiert werden. Dazu sollen geeignete Darstellungen der Eingabevektoren und der Kartenschicht untersucht werden, eine rekursive Umsetzung des Algorithmus des Verfahrens realisiert und abschließend die Parallelisierung des Verfahrens angestrebt werden. Eine Evaluation des Ansatzes schließt die Arbeit ab.
Arbeitsschritte
- Einarbeitung in das Gebiet / Literaturanalyse / Stand der Technik
- Selbstorganisierende Karten
- Parallelisierung von Machine-Learning-Verfahren
- Konzeption
- Auswahl geeigneter Datenstrukturen
- Aufbau der Selbstorganisierenden Karte
- Möglichkeiten zur Parallelisierung
- Implementierung des Konzepts
- Test und Validierung des Verfahrens
Technologien
- Programmiersprachen nach Wahl; bevorzugt Java und SQL
Literatur
- Jürgen Cleve, Uwe Lämmel: Data Mining, de Gruyter, 2. Auflage, 2020
- Kohonen, Teuvo, and Self-Organizing Maps. "Springer series in information sciences." Self-organizing maps 30 (1995).