Moduldatenbank - Modul Data Science

Data Science

Modulbezeichnung (engl.): Data Science

Code: PIM-DS

3V+1U (4 Semesterwochenstunden)

Studiensemester: 1

Pflichtfach: ja

Arbeitssprache:
Deutsch

Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen

Prüfungsart:
Klausur, Dauer 120 min.

[letzte Änderung 29.07.2024]

DFI-DS (P610-0280) Informatik, Master, Ordnung 01.10.2018 , 1. Semester, Pflichtfach
KIM-DS (P221-0051) Kommunikationsinformatik, Master, Ordnung 01.10.2019 , Wahlpflichtfach, informatikspezifisch
PIM-DS (P221-0051) Praktische Informatik, Master, Ordnung 01.10.2017 , 1. Semester, Pflichtfach
PIM-DS (P221-0051) Praktische Informatik, Master, Ordnung 01.10.2026 , 1. Semester, Pflichtfach
TIM-DS Technische Informatik, Master, Ordnung 01.10.2026 , Wahlpflichtfach, informatikspezifisch

Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.

Empfohlene Voraussetzungen (Module):
Keine.

Als Vorkenntnis empfohlen für Module:
PIM-DL Deep Learning

[letzte Änderung 15.11.2021]

Modulverantwortung:
Prof. Dr. Klaus Berberich

Dozent/innen:
Prof. Dr. Klaus Berberich

[letzte Änderung 29.07.2024]

Lernziele:
Nach erfolgreichem Absolvieren dieses Moduls können Studierende moderne Verfahren der Datenanalyse und des Maschinellen Lernens beschreiben, erklären, auswählen und anwenden, um aus Daten belastbare Erkenntnisse für praktisch relevante Fragestellungen abzuleiten.

Sie erläutern gängige Vorgehensmodelle der Datenanalyse (z. B. CRISP-DM) und können unterschiedliche Merkmalsarten (nominal, ordinal, metrisch) identifizieren, klassifizieren, aufbereiten und für Analyseprozesse nutbar machen.

Für eine konkrete Problemstellung sind die Studierenden in der Lage, eine geeignete Modellklasse (z. B. Regressions-, Klassifikations- oder Clusterverfahren) auszuwählen, und mithilfe moderner Werkzeuge (z. B. scikit-learn, PyTorch, Jupyter Notebook) passende Modelle zu entwickeln, zu trainieren, zu validieren und systematisch zu optimieren.

Sie analysieren und bewerten die relevanten Gütemaße zur Modellbewertung (z. B. Accuracy, F1, ROC-AUC, RMSE, Silhouette) und können diese fundiert interpretieren. Die gewonnenen Ergebnisse bereiten sie adressatengerecht durch geeignete Visualisierungen, Plots, Dashboards oder Reports auf und kommunizieren sie zielgruppenorientiert.

Darüber hinaus reflektieren die Studierenden zentrale Aspekte der ethischen, fairen und verantwortungsvollen Nutzung von Daten und können Modelle auch im Hinblick auf ihre Interpretierbarkeit analysieren, bewerten und einordnen (z. B. mittels SHAP, LIME oder Permutation Feature Importance).

[letzte Änderung 26.11.2025]

Inhalt:
1. Einführung in Data Science
1.1 Was ist Data Science?
1.2 Vorgehensmodelle

2. Mathematische Grundlagen
2.1 Multivariate Funktionen
2.2 Lineare Algebra
2.3 Wahrscheinlichkeitsrechnung
2.4 Statistik

3. Regression
3.1 Lineare Regression
3.2 Merkmalstransformation
3.3 Regularisierung
3.4 Bewertung von Regressionsmodellen

4. Klassifikation
4.1 Logistische Regression
4.2 k-Nächste Nachbarn
4.3 Entscheidungsbäume und Random Forests
4.4 Naive Bayes
4.5 Ensemble Learning (Bagging, Boosting, Gradient Boostin)
4.6 Bewertung von Klassifikationsmodellen

5. Clustering und Dimensionsreduktion
5.1 Partitionierungsverfahren (k-Means, k-Medoids)
5.2 Hierarchisches Clustering
5.3 Dichtebasiertes Clustering (DBSCAN, HDBSCAN)
5.4 Bewertung und Interpretation von Clustern (Purity, Silhouette)
5.5 Dimensionsreduktion (PCA, t-SNE, UMAP)

6. Muster- und Assoziationsanalyse
6.1 Finden häufiger Mengen (Apriori, FP-Growth)
6.2 Bestimmen von Assoziationsregeln

7. Neuronale Netze
7.1 Mehrschichtperzeptron (MLP)
7.2 Convolutional Neural Networks (CNNs)
7.3 Rekurrente und sequentielle Modelle (RNN, LSTM, GRU)
7.4 Moderne Architekturen (Transformer)

8. Datenvisualisierung und Kommunikation
8.1 Visualisierungsgrundlagen
8.2 Werkzeuge (matplotlib, seaborn)
8.3 Storytelling mit Daten
8.4 Aufbereitung für verschiedene Zielgruppen

[letzte Änderung 26.11.2025]

Weitere Lehrmethoden und Medien:
Folien, Videos, Jupyter Notebooks sowie vorlesungsbegleitende praktische und theoretische Übungen

[letzte Änderung 26.11.2025]

Literatur:
Aggarwal C.: Data Mining - The Textbook, Springer, 2015

Bishop C.: Deep Learning: Foundations and Concepts, Springer, 2023

Chollet F.: Deep Learning with Python, Manning, 2025

Goodfellow, I., Bengio, Y., Courville, A.: Deep Learning, MIT Press, 2016

James G., Witten D, Hastie T., Tibshirani R. und Taylor J.: An Introduction to Statistical Learning: with Applications in Python, Springer, 2023

Provost F. und Fawcett T.: Data Science for Business, O´Reilly, 2013

Raschka S., Liu Y. und Mirjalili V.: Machine Learning with PyTorch and Scikit-Learn: Develop machine learning and deep learning models with Python, Packt Publishing, 2023

Zaki Mohammed J. und Meira Wagner Jr: Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, 2020

[letzte Änderung 26.11.2025]

Modul angeboten in Semester:
WS 2024/25, WS 2023/24, WS 2022/23, WS 2021/22, WS 2020/21, ...

[Sun Jul 26 02:14:34 CEST 2026, CKEY=pds, BKEY=pim2, CID=PIM-DS, LANGUAGE=de, DATE=26.07.2026]