Moduldatenbank - Modul Data Science

Data Science

Code: DFMM-202

4V (4 Semesterwochenstunden)

Studiensemester: 2

Pflichtfach: ja

Arbeitssprache:
Deutsch

Prüfungsart:
Projektarbeit (Wiederholung: jährlich)

[letzte Änderung 26.06.2020]

DFMM-202 (P620-0138) Management Sciences, Master, ASPO 01.10.2019 , 2. Semester, Pflichtfach

Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.

Empfohlene Voraussetzungen (Module):
Keine.

Als Vorkenntnis empfohlen für Module:

Modulverantwortung:
Prof. Dr. Stefan Selle

Dozent/innen:
Prof. Dr. Stefan Selle

[letzte Änderung 26.06.2020]

Lernziele:
Nach der Teilnahme an diesem Modul sind die Studierenden in der Lage...
- grundlegende Begriffe im Bereich Data Science und künstliche Intelligenz auseinanderzuhalten [2] und zu erklären [2],
- Zusammenhänge im Bereich Data Science und künstliche Intelligenz zu identifizieren [4],
- den Referenz-Datenanalyseprozess zu verstehen [2] und anzuwenden [3],
- Datenanalyseverfahren und zugehörige Methoden anzuwenden [3] und deren Ergebnisse zu bewerten [6],
- in selbstorganisierten Teams zu arbeiten,
- Arbeitsergebnisse zu verdichten und zu präsentieren [1],
- Projektergebnisse zu kritisieren [6] und einzuschätzen [6].

[letzte Änderung 25.09.2024]

Inhalt:
1. Einführung & Grundbegriffe
Data Science, Data Literacy, Business Intelligence (BI), Data Warehouse (DWH), Data Mining (DM), Knowledge Discovery in Databases (KDD), Big Data, Predictive Analytics, Machine Learning (ML), Überwachtes Lernen (Supervised Learning), Nicht-überwachtes Lernen (Unsupervised Learning), Bestärkendes Lernen (Reinforcement Learning), Klassifikation, Regression, Clusteranalyse, Assoziationsanalyse, Künstliche Intelligenz (KI), Turing-Test, Datenschutz, Datensicherheit, Datenethik

2. Datengrundlagen & Datenanalyseprozess
Daten, Datentypen, Datenformate, Skalenniveaus, Datenqualität, Explorative Datenanalyse (EDA), Korrelationsanalyse, CRISP-DM, Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment

3. Modellierung & Auswertung
k-Nearest Neighbor, Test-Design, Partitionierung, Sampling, Kreuzvalidierung, Stratifiziertes Sampling, Min-Max-Normierung, Manhattan-Distanz, Euklidische Distanz, Gütemaße, Genauigkeit, Konfusionsmatrix, Spezifität & Sensitivität, Präzision & Recall, F-Maß, Receiver Operating Characteristic (ROC), Area under ROC curve (AURC)

4. Datenvorbereitung
Feature Engineering, One Hot Encoding, Binning, Skalierungen, Standardisierung, Transformation, Textoperationen, Fluch der Dimensionalität, Overfitting, Rauschen

5. Klassifikationsmethoden
Naive Bayes, Entscheidungsbäume, Support Vector Machine, Logistische Regression, Ensemble Learning [Random Forest, Gradient Boosted Trees]

6. Regressionsmethoden
Interpolation vs. Extrapolation, Prognose, Regressionsanalyse vs. Korrelationsanalyse, Korrelationskoeffizient, Anscombe-Quartett, Methode der kleinsten Quadrate, Bestimmtheitsmaß, Fehlermaße [MSE, RMSE, MAE, MAPE], lineare Regression, polynomiale Regression, Regularisierung, Ridge, LASSO, Elastic-Net, CART

7. Künstliche Neuronale Netze
Perzeptron, Aktivierungsfunktion, Multilayer-Perzeptron, Backpropagation, Gradientenverfahren, Resilient Backpropagation (RProp), Deep Learning, Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM), Transformer

[letzte Änderung 25.09.2024]

Weitere Lehrmethoden und Medien:
Inverted / Flipped Classroom durch E-Learning-Unterstützung (z.B. LMS Moodle): Speziell aufbereitete Unterlagen (z.B. Skript) / Medien (z.B. Videos) zum Selbststudium zu Fach- und Methodenwissen.

Laborpraktikum mit Übungen: Selbstständiges Arbeiten am PC zur Lösung konkreter Aufgabenstellungen mit betriebswirtschaftlichem Bezug durch Anwendung gelernter Methoden mit Hilfe geeigneter Werkzeuge (z.B. KNIME Analytics Platform).

Projektarbeit: Fallstudien werden in selbstorganisierten Teams bearbeitet, die Ergebnisse präsentiert, diskutiert und reflektiert (z.B. durch das Führen eines Projekttagebuchs im E-Portfolio Mahara).

[letzte Änderung 25.09.2024]

Literatur:
Tom Alby: Data Science in der Praxis: Data Science in der Praxis - Eine verständliche Einführung in alle wichtigen Data-Science-Verfahren, Rheinwerk Computing, Bonn, 2022.

Udo Bankhofer und Jürgen Vogel: Datenanalyse und Statistik – Eine Einführung für Ökonomen im Bachelor, Gabler Springer Verlag, Wiesbaden, 2008.

Michael R. Berthold, Christian Borgelt, Frank Höppner, Frank Klawonn, Rosario Silipo: Guide to Intelligent Data Science – How to Intelligently Make Use of Real Data, 2nd edition, Springer, Berlin, 2020.

Ian Goodfellow, Yoshua Begnio, Aaron Courville: Deep Learning, The MIT Press, Cambridge (MA), 2016.

Joel Grus: Einführung in Data Science: Grundprinzipien der Datenanalyse mit Python, 2. Auflage, O’Reilly / dpunkt Verlag, Heidelberg, 2019.

Uwe Haneke, Stephan Trahasch, Michael Zimmer, Carsten Felden: Data Science – Grundlagen, Architekturen und Anwendungen, dpunkt Verlag, Heidelberg, 2019.

Steffen Herbold: Data-Science-Crashkurs – Eine interaktive und praktische Einführung, dpunkt Verlag, Heidelberg, 2022.

Annalyn Ng und Kenneth Soo: Data Science – Was ist das eigentlich?! – Algorithmen des maschinellen Lernens verständlich erklärt, Springer Verlag, Berlin, 2018.

Forster Provost & Tom Fawcett: Data Science for Business. What you need to know about Data Mining and Data-Analytic Thinking, O’Reilly Verlag, Sebastopol, 2013.

Thomas A. Runkler: Data Mining – Methoden und Algorithmen intelligenter Datenanalyse, Vieweg+Teubner Verlag, Wiesbaden, 2010.

Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal: Data Mining – Practical Machine Learning Tools and Techniques, 4th edition, Morgan Kaufmann, Burlington, 2016.

[letzte Änderung 25.09.2024]

[Wed Nov 19 20:49:29 CET 2025, CKEY=dds, BKEY=dms3, CID=DFMM-202, LANGUAGE=de, DATE=19.11.2025]