Moduldatenbank - Modul Data Engineering

ID	Lernergebnis
L1	Theoretisch-analytische Fertigkeiten
L2	Befähigung zu wissenschaftlicher Arbeit
L3	Abstraktes, analytisches, über den Einzelfall hinausgehendes und vernetztes Denken
L4	Vermittlung der Fähigkeit, sich schnell methodisch und systematisch in neue Themengebiete einzuarbeiten
L7	Technische und organisatorische Rahmenbedingungen beim Entwurf von Kommunikationsnetzen anwenden können
L8	Anwendung von Spezialkenntnissen in einem Teilgebiet

ID	Skill
S7	Systemisches Denken	Beschreibt die Kompetenz, komplexe Sachverhalte und Systeme (z.B. psychologische, soziale und technische) in seine Elemente bzw. Subsysteme zerlegen und klassifizieren zu können und zwischen ihnen kausale Zusammenhänge und Widersprüche aufdecken zu können. Sie umfasst die Fähigkeit zur Planung, Umsetzung und Bewertung von Systemen, ihrer Subsysteme und Einflussfaktoren.
S8	Kritisches Denken	Umfasst die Kompetenz, veränderbare Variablen eines Sachverhalts zu erkennen, Folgen von veränderten Einflussfaktoren zu prognostizieren und Ideen, Informationen und Prozesse gemäß logischem Aufbau und Wahrheitsgehalt, z.B. anhand wissenschaftlicher oder anderer hochwertiger Quellen, zu prüfen.
S13	Lösungskompetenz	Setzt sich aus mehreren anderen Future Skills zusammen, die eine Person befähigen komplexe Problemstellungen zu verstehen, zu analysieren und Lösungen zu entwickeln, und die, je nach Kontext der Problemstellung und Phase des Lösungsprozesses variieren können.
S18	Digitale und KI-Kompetenzen	Digitale und KI Kompetenzen sind die Kompetenzen, die eine Person befähigen digitale Medien, KI-Anwendungen und Technologien zu nutzen, zu gestalten und zielführende Anwendungsmöglichkeiten zu erkennen. Dazu gehört auch den Einfluss der digitalen Medien und Technologien auf die Arbeitswelt und den Alltag zu verstehen und deren Potentiale und Grenzen einschätzen zu können und Informationen kritisch mithilfe digitaler Hilfsmittel auf deren Wahrheitsgehalt zu prüfen.
S20	Kooperationskompetenz	Kooperationskompetenz ist die Kompetenz, mit Einzelpersonen und homogenen sowie heterogenen Gruppen, zusammenarbeiten zu können, hierbei Differenzen auszuhalten und beizulegen, Konsens zu schaffen und offen für Kompromisse zu sein. Dies beinhaltet Teammitglieder zu leiten, Arbeitsprozesse im Team planen, durchführen und abzuschließen zu können, sowie Kontakte zum Aufbau eines persönlichen Netzwerks zu knüpfen.

Skill

Definition

Systemisches Denken

Beschreibt die Kompetenz, komplexe Sachverhalte und Systeme (z.B. psychologische, soziale und technische) in seine Elemente bzw. Subsysteme zerlegen und klassifizieren zu können und zwischen ihnen kausale Zusammenhänge und Widersprüche aufdecken zu können. Sie umfasst die Fähigkeit zur Planung, Umsetzung und Bewertung von Systemen, ihrer Subsysteme und Einflussfaktoren.

Kritisches Denken

Umfasst die Kompetenz, veränderbare Variablen eines Sachverhalts zu erkennen, Folgen von veränderten Einflussfaktoren zu prognostizieren und Ideen, Informationen und Prozesse gemäß logischem Aufbau und Wahrheitsgehalt, z.B. anhand wissenschaftlicher oder anderer hochwertiger Quellen, zu prüfen.

S13

Lösungskompetenz

Setzt sich aus mehreren anderen Future Skills zusammen, die eine Person befähigen komplexe Problemstellungen zu verstehen, zu analysieren und Lösungen zu entwickeln, und die, je nach Kontext der Problemstellung und Phase des Lösungsprozesses variieren können.

S18

Digitale und KI-Kompetenzen

Digitale und KI Kompetenzen sind die Kompetenzen, die eine Person befähigen digitale Medien, KI-Anwendungen und Technologien zu nutzen, zu gestalten und zielführende Anwendungsmöglichkeiten zu erkennen. Dazu gehört auch den Einfluss der digitalen Medien und Technologien auf die Arbeitswelt und den Alltag zu verstehen und deren Potentiale und Grenzen einschätzen zu können und Informationen kritisch mithilfe digitaler Hilfsmittel auf deren Wahrheitsgehalt zu prüfen.

S20

Kooperationskompetenz

Kooperationskompetenz ist die Kompetenz, mit Einzelpersonen und homogenen sowie heterogenen Gruppen, zusammenarbeiten zu können, hierbei Differenzen auszuhalten und beizulegen, Konsens zu schaffen und offen für Kompromisse zu sein. Dies beinhaltet Teammitglieder zu leiten, Arbeitsprozesse im Team planen, durchführen und abzuschließen zu können, sowie Kontakte zum Aufbau eines persönlichen Netzwerks zu knüpfen.

Data Engineering

Modulbezeichnung (engl.): Data Engineering

Code: KIM-DE

3V+1U (4 Semesterwochenstunden)

Studiensemester: 2

Pflichtfach: ja

Arbeitssprache:
Deutsch

Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen

Prüfungsart:
Klausur, Dauer 120 min.

[letzte Änderung 29.07.2024]

DFI-DE (P610-0286) Informatik, Master, ASPO 01.10.2018 , 2. Semester, Pflichtfach
KIM-DE (P222-0050) Kommunikationsinformatik, Master, ASPO 01.10.2019 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, ASPO 01.10.2017 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, SO 01.10.2026 , 2. Semester, Pflichtfach

Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.

Empfohlene Voraussetzungen (Module):
Keine.

Als Vorkenntnis empfohlen für Module:

Modulverantwortung:
Prof. Dr. Klaus Berberich

Dozent/innen: Prof. Dr. Klaus Berberich

[letzte Änderung 27.09.2016]

Lernziele:
Nach erfolgreichem Absolvieren des Moduls Data Engineering verfügen die Studierenden über ein fundiertes Verständnis moderner Datenplattformen, Datenmodelle und Verarbeitungskonzepte. Sie kennen die grundlegenden Bausteine relationaler, analytischer und nichtrelationaler Datenhaltung, einschließlich konzeptioneller Modellierung, relationaler Algebra, Normalisierung und wesentlicher Anfragesprachen. Zudem verstehen sie die Prinzipien zeitgemäßer Datenarchitekturen wie Data Lakes, Lakehouses und Data Mesh sowie den vollständigen Data Lifecycle von der Ingestion über Speicherung und Transformation bis hin zu Serving, Governance und Observability.

Die Studierenden wenden relationale und multidimensionale Modellierungsmethoden an, entwickeln SQL-Abfragen und implementieren ETL- und ELT-Pipelines einschließlich Datenbereinigung, Deduplikation und Orchestrierung. Sie arbeiten mit Batch- und Streaming-Technologien und nutzen grundlegende Verfahren aus dem Information Retrieval und der Vektorsuche (z. B. ANN), um strukturierte und unstrukturierte Daten effizient zu verarbeiten.

Weiterhin analysieren sie Datenmodelle, Anfragepläne, Datenqualitätsprobleme und Komponenten moderner Plattformen im Hinblick auf Effizienz, Skalierbarkeit und Konsistenz. Sie bewerten verschiedene Datenbanktechnologien (SQL, NoSQL, NewSQL), Datenformate (JSON, Parquet, Protobuf), Integrationsstrategien sowie Optimierungs- und Governance-Mechanismen (Metadata Management, Lineage, Privacy, Security, Observability) hinsichtlich ihrer Eignung für konkrete Anforderungen.

Abschließend entwerfen und implementieren die Studierenden vollständige Datenpipelines und Data-Warehouse- bzw. Lakehouse-Strukturen, integrieren Qualitätssicherungs- und Monitoring-Konzepte und nutzen Such- sowie Ähnlichkeitsverfahren auf Basis moderner Embeddings. Damit sind sie in der Lage, komplexe datenintensive Anwendungen fachlich fundiert zu planen, technisch umzusetzen und kritisch zu beurteilen.

[letzte Änderung 27.11.2025]

Inhalt:
1. Einführung Data Engineering
1.1 Was ist Data Engineering?
1.2 Datenplattformen im Überblick
1.3 Data Lifecycle
1.4 Anwendungsszenarien

2. Grundlagen Relationaler Datenbanken
2.1 Konzeptuelle Modellierung (ERM)
2.2 Relationales Modell & Algebra
2.3 Relationale Entwurfstheorie
2.4 Structured Query Language

3. Data Warehouses
3.1 OLAP vs. OLTP
3.2 Data Cubes
3.3 Konzeptuelle Modellierung (Star/Snowflake)
3.4 Anfragesprachen
3.5 Implementierungsaspekte

4. Moderne Datenplattformen
4.1 Data Lakes & Lakehouses
4.2 Data Mesh & Fabric
4.3 Batch Processing
4.4 Stream Processing
4.5 Datenformate (JSON, Parquet, Protobuf)
4.6 Anfragebearbeitung und -optimierung
4.7 Implementierungsaspekte

5. Data Integration
5.1 Datenpipelines
5.2 ETL & ELT
5.3 Deduplikation
5.4 Orchestrierung
5.5 Implementierungsaspekte

6. Data Management & Governance
6.1 Metadata Management
6.2 Data Lineage
6.3 Data Quality
6.4 Data Privacy & Security
6.5 Data Observability
6.6 Implementierungsaspekte

7. NoSQL & NewSQL
7.1 Key-Value-Stores
7.2 Extensible Record Stores
7.3 Dokumentenorientierte Datenbanken
7.4 Graphdatenbanken
7.5 Zeitreihendatenbanken
7.6 Implementierungsaspekte

8. Information Retrieval und Vektorsuche
8.1 Klassische Retrieval-Modelle (VSM, BM25)
8.2 Moderne Retrieval-Modelle (ColBERT, SPLADE)
8.3 Evaluation (Precision, Recall, nDCG)
8.4 Nächste-Nachbarn-Suche (ANN)
8.5 Implementierungsaspekte

[letzte Änderung 27.11.2025]

Weitere Lehrmethoden und Medien:
Folien, Videos, Jupyter Notebooks sowie vorlesungsbegleitende theoretische und praktische Übungen

[letzte Änderung 27.11.2025]

Literatur:
Alonso O. and Baeza-Yates R.: Information Retrieval: Advanced Topics and Techniques, ACM 2024

Garcia-Molina H., Widom J. und Ulmman J.: Database Systems: The Complete Book, Pearson Education, 2013

Inmon, W. H.: Building the Data Warehouse, Wiley, 2005

Kemper A. und Eickler A.: Datenbanksysteme - Eine Einführung, De Gruyter, 2015

Linstedt D. und Olschimke M.: Building a Scalable Data Warehouse with Data Vault 2.0, Morgan Kaufmann, 2015

Kimball R. und Ross M.: The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2013

Kleppmann M.: Designing Data-Intensive Applications, O´Reilly, 2017

Leskovec J., Rajaraman A. und Ullman J.: Mining of Massive Datasets, Cambridge University Press, 2020

Manning C., Raghavan P. und Schütze H.: Introduction to Information Retrieval, Cambridge University Press, 2008.

Reis J. und Housley M.: Fundamentals of Data Engineering: Plan and Build Robust Data Systems, O’Reilly, 2022

Saake G. und Sattler K.-U.: Datenbanken: Implementierungstechniken, mitp Professional, 2011

[letzte Änderung 27.11.2025]

Modul angeboten in Semester:
SS 2025, SS 2024, SS 2023, SS 2022, SS 2021, ...

[Sat May 30 06:07:20 CEST 2026, CKEY=kde, BKEY=kim2, CID=KIM-DE, LANGUAGE=de, DATE=30.05.2026]