htw saar
Zurück zur Hauptseite

Version des Moduls auswählen:

Big Data

Modulbezeichnung: Big Data
Studiengang: Praktische Informatik, Master, ASPO 01.10.2011
Code: PIM-WI71
SWS/Lehrform: 3V+1U (4 Semesterwochenstunden)
ECTS-Punkte: 5
Studiensemester: 2
Pflichtfach: nein
Arbeitssprache:
Deutsch
Prüfungsart:
Klausur
Zuordnung zum Curriculum:
KI878 Kommunikationsinformatik, Master, ASPO 01.04.2016, 2. Semester, Wahlpflichtfach, informatikspezifisch
PIM-WI71 Praktische Informatik, Master, ASPO 01.10.2011, 2. Semester, Wahlpflichtfach, informatikspezifisch
Arbeitsaufwand:
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 5 Creditpoints 150 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 105 Stunden zur Verfügung.
Empfohlene Voraussetzungen (Module):
Keine.
Als Vorkenntnis empfohlen für Module:
Modulverantwortung:
Prof. Dr. Klaus Berberich
Dozent: Prof. Dr. Klaus Berberich

[letzte Änderung 10.02.2016]
Lernziele:
Over the last decade, a number of novel systems has emerged to cope
with the massive amounts of data available today. Our objective in
this lecture is threefold: students should (i) learn which systems are
out there, (ii) be able to use them effectively, and (iii) understand
the challenges, principles, and methods behind them.
 


[letzte Änderung 17.02.2016]
Inhalt:
1. Distributed Data Processing
 
- MapReduce
- Spark
- Bulk Synchronous Parallel
- Locality-Sensitive Hashing
- Algorithms in MapReduce (e.g., PageRank and Breadth-First Search)
- Systems: Hadoop, Hive, Pig, Pregel
 
2. Distributed Data Management
 
- Bloom Filters
- Distributed Hash Tables (e.g., Chord and Pastry)
- Distributed Transactions (e.g., 2-Phase Commit, CAP-Theorem)
- Consensus Protocols (e.g., Paxos)
- Systems: HBase, Cassandra, Riak, Redis
 
3. Data Streams
 
- Data synopses (e.g., Count-Min Sketches, KMVs)
- Continuous Query Language (CQL)
- Systems: Storm, Spark Streaming


[letzte Änderung 17.02.2016]
Literatur:
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman: Mining of Massive Datasets, Cambridge University Press, 2014
http://www.mmds.org
 
Jimmy Lin and Cris Dyer: Data-Intensive Text Processing with MapReduce, Morgan & Claypool, 2010
https://lintool.github.io/MapReduceAlgorithms/


[letzte Änderung 17.02.2016]
[Tue May 21 21:18:44 CEST 2019, CKEY=kbd, BKEY=pim, CID=PIM-WI71, LANGUAGE=de, DATE=21.05.2019]