Moduldatenbank - Modul Big Data

Big Data

Modulbezeichnung (engl.): Big Data

Code: KI878

3V+1U (4 Semesterwochenstunden)

Studiensemester: 2

Pflichtfach: nein

Arbeitssprache:
Englisch

Prüfungsart:
Klausur

[letzte Änderung 17.02.2016]

KI878 Kommunikationsinformatik, Master, Ordnung 01.04.2016 , 2. Semester, Wahlpflichtfach, informatikspezifisch
PIM-WI71 Praktische Informatik, Master, Ordnung 01.10.2011 , 2. Semester, Wahlpflichtfach, informatikspezifisch

Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 5 Creditpoints 150 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 105 Stunden zur Verfügung.

Empfohlene Voraussetzungen (Module):
Keine.

Als Vorkenntnis empfohlen für Module:

Modulverantwortung:
Prof. Dr. Klaus Berberich

Dozent/innen: Prof. Dr. Klaus Berberich

[letzte Änderung 10.02.2016]

Lernziele:
Over the last decade, a number of novel systems has emerged to cope
with the massive amounts of data available today. Our objective in
this lecture is threefold: students should (i) learn which systems are
out there, (ii) be able to use them effectively, and (iii) understand
the challenges, principles, and methods behind them.

[letzte Änderung 17.02.2016]

Inhalt:
1. Distributed Data Processing

- MapReduce
- Spark
- Bulk Synchronous Parallel
- Locality-Sensitive Hashing
- Algorithms in MapReduce (e.g., PageRank and Breadth-First Search)
- Systems: Hadoop, Hive, Pig, Pregel

2. Distributed Data Management

- Bloom Filters
- Distributed Hash Tables (e.g., Chord and Pastry)
- Distributed Transactions (e.g., 2-Phase Commit, CAP-Theorem)
- Consensus Protocols (e.g., Paxos)
- Systems: HBase, Cassandra, Riak, Redis

3. Data Streams

- Data synopses (e.g., Count-Min Sketches, KMVs)
- Continuous Query Language (CQL)
- Systems: Storm, Spark Streaming

[letzte Änderung 17.02.2016]

Literatur:
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman: Mining of Massive Datasets, Cambridge University Press, 2014
http://www.mmds.org

Jimmy Lin and Cris Dyer: Data-Intensive Text Processing with MapReduce, Morgan & Claypool, 2010
https://lintool.github.io/MapReduceAlgorithms/

[letzte Änderung 17.02.2016]

[Sat Aug 1 06:28:36 CEST 2026, CKEY=kbd, BKEY=kim, CID=KI878, LANGUAGE=de, DATE=01.08.2026]