| 
 | 
| Modulbezeichnung (engl.): 
Big Data | 
 | 
| Code:  PIM-WI71 | 
| 
3V+1U (4 Semesterwochenstunden) | 
| 
5 | 
| Studiensemester: 2 | 
| Pflichtfach: nein | 
Arbeitssprache:  
Deutsch | 
Prüfungsart:  
Klausur
  
[letzte Änderung 17.02.2016] 
 | 
 
KI878 Kommunikationsinformatik, Master, ASPO 01.04.2016
, 2. Semester, Wahlpflichtfach, informatikspezifisch 
PIM-WI71 Praktische Informatik, Master, ASPO 01.10.2011
, 2. Semester, Wahlpflichtfach, informatikspezifisch 
 | 
| 
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 5 Creditpoints 150 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 105 Stunden zur Verfügung.
 | 
Empfohlene Voraussetzungen (Module):  
Keine. 
 | 
Als Vorkenntnis empfohlen für Module:  
 | 
Modulverantwortung:  
Prof. Dr. Klaus Berberich | 
Dozent/innen:  Prof. Dr. Klaus Berberich
  
[letzte Änderung 10.02.2016] 
 | 
Lernziele:  
Over the last decade, a number of novel systems has emerged to cope with the massive amounts of data available today. Our objective in this lecture is threefold: students should (i) learn which systems are out there, (ii) be able to use them effectively, and (iii) understand the challenges, principles, and methods behind them.  
 
  
[letzte Änderung 17.02.2016] 
 | 
Inhalt:  
1. Distributed Data Processing   - MapReduce - Spark - Bulk Synchronous Parallel - Locality-Sensitive Hashing - Algorithms in MapReduce (e.g., PageRank and Breadth-First Search) - Systems: Hadoop, Hive, Pig, Pregel   2. Distributed Data Management   - Bloom Filters - Distributed Hash Tables (e.g., Chord and Pastry) - Distributed Transactions (e.g., 2-Phase Commit, CAP-Theorem) - Consensus Protocols (e.g., Paxos) - Systems: HBase, Cassandra, Riak, Redis   3. Data Streams   - Data synopses (e.g., Count-Min Sketches, KMVs) - Continuous Query Language (CQL) - Systems: Storm, Spark Streaming
 
  
[letzte Änderung 17.02.2016] 
 | 
Literatur:  
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman: Mining of Massive Datasets, Cambridge University Press, 2014 http://www.mmds.org   Jimmy Lin and Cris Dyer: Data-Intensive Text Processing with MapReduce, Morgan & Claypool, 2010 https://lintool.github.io/MapReduceAlgorithms/
 
  
[letzte Änderung 17.02.2016] 
 |