htw saar Piktogramm QR-encoded URL
Zurück zur Hauptseite Version des Moduls auswählen:
Lernziele hervorheben XML-Code

flag



Information Retrieval

Modulbezeichnung:
Bezeichnung des Moduls innerhalb des Studiengangs. Sie soll eine präzise und verständliche Überschrift des Modulinhalts darstellen.
Information Retrieval
Modulbezeichnung (engl.): Information Retrieval
Studiengang:
Studiengang mit Beginn der Gültigkeit der betreffenden ASPO-Anlage/Studienordnung des Studiengangs, in dem dieses Modul zum Studienprogramm gehört (=Start der ersten Erstsemester-Kohorte, die nach dieser Ordnung studiert).
Praktische Informatik, Bachelor, ASPO 01.10.2022
Code: PIB-IRET
SAP-Submodul-Nr.:
Die Prüfungsverwaltung mittels SAP-SLCM vergibt für jede Prüfungsart in einem Modul eine SAP-Submodul-Nr (= P-Nummer). Gleiche Module in unterschiedlichen Studiengängen haben bei gleicher Prüfungsart die gleiche SAP-Submodul-Nr..
P221-0080
SWS/Lehrform:
Die Anzahl der Semesterwochenstunden (SWS) wird als Zusammensetzung von Vorlesungsstunden (V), Übungsstunden (U), Praktikumsstunden (P) oder Projektarbeitsstunden (PA) angegeben. Beispielsweise besteht eine Veranstaltung der Form 2V+2U aus 2 Vorlesungsstunden und 2 Übungsstunden pro Woche.
2V+2PA (4 Semesterwochenstunden)
ECTS-Punkte:
Die Anzahl der Punkte nach ECTS (Leistungspunkte, Kreditpunkte), die dem Studierenden bei erfolgreicher Ableistung des Moduls gutgeschrieben werden. Die ECTS-Punkte entscheiden über die Gewichtung des Fachs bei der Berechnung der Durchschnittsnote im Abschlusszeugnis. Jedem ECTS-Punkt entsprechen 30 studentische Arbeitsstunden (Anwesenheit, Vor- und Nachbereitung, Prüfungsvorbereitung, ggfs. Zeit zur Bearbeitung eines Projekts), verteilt über die gesamte Zeit des Semesters (26 Wochen).
5
Studiensemester: 5
Pflichtfach: nein
Arbeitssprache:
Englisch
Prüfungsart:
Klausur, Dauer 90 min. /Projektarbeit

[letzte Änderung 29.07.2024]
Verwendbarkeit / Zuordnung zum Curriculum:
Alle Studienprogramme, die das Modul enthalten mit Jahresangabe der entsprechenden Studienordnung / ASPO-Anlage.

DFIW-IRET (P610-0540) Informatik und Web-Engineering, Bachelor, ASPO 01.10.2019 , 3. Semester, Pflichtfach, informatikspezifisch
KI584 (P610-0253) Kommunikationsinformatik, Bachelor, ASPO 01.10.2014 , 5. Semester, Wahlpflichtfach, informatikspezifisch
KIB-IRET Kommunikationsinformatik, Bachelor, ASPO 01.10.2021 , 5. Semester, Wahlpflichtfach, technisch
KIB-IRET Kommunikationsinformatik, Bachelor, ASPO 01.10.2022 , 5. Semester, Wahlpflichtfach, technisch
PIBWI29 Praktische Informatik, Bachelor, ASPO 01.10.2011 , 5. Semester, Wahlpflichtfach, informatikspezifisch
PIB-IRET (P221-0080) Praktische Informatik, Bachelor, ASPO 01.10.2022 , 5. Semester, Wahlpflichtfach, informatikspezifisch

geeignet für Austauschstudenten mit learning agreement
Arbeitsaufwand:
Der Arbeitsaufwand des Studierenden, der für das erfolgreiche Absolvieren eines Moduls notwendig ist, ergibt sich aus den ECTS-Punkten. Jeder ECTS-Punkt steht in der Regel für 30 Arbeitsstunden. Die Arbeitsstunden umfassen Präsenzzeit (in den Vorlesungswochen), Vor- und Nachbereitung der Vorlesung, ggfs. Abfassung einer Projektarbeit und die Vorbereitung auf die Prüfung.

Die ECTS beziehen sich auf die gesamte formale Semesterdauer (01.04.-30.09. im Sommersemester, 01.10.-31.03. im Wintersemester).
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 5 Creditpoints 150 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 105 Stunden zur Verfügung.
Empfohlene Voraussetzungen (Module):
Keine.
Als Vorkenntnis empfohlen für Module:
Modulverantwortung:
Prof. Dr. Klaus Berberich
Dozent/innen: Prof. Dr. Klaus Berberich

[letzte Änderung 10.11.2016]
Lernziele:
Students know about basic methods from Information Retrieval. This
includes retrieval models (e.g., Vector Space Model and Binary Independence Model), link analysis
(e.g., PageRank), and effectiveness measures (e.g., Precision/Recall
and MAP). They can apply/implement those methods in practice. In
addition, students are aware of readily available information
retrieval systems (e.g., Apache Lucene/Solr).


[letzte Änderung 04.07.2024]
Inhalt:
Information Retrieval is pervasive and its applications range from
finding contacts or e-mails on your smartphone to web-search engines
that index billions of web pages. This course covers the most
important methods from Information Retrieval. We will look into how
these methods are defined formally, including the mathematics behind
them, but also see how they can be implemented efficiently in
practice. As part of the project work, we will implement a small
search engine from scratch.
 
1. Introduction
- History
- Applications
- Overview of the Course
 
2. Natural Language
- Documents and Terms
- Stopwords and Stemming/Lemmatization
- Synonyms, Polysems, Compounds
 
3. Retrieval Models
- Boolean Retrieval
- Vector Space Model with TF.IDF Term Weighting
- Language Models
 
4. Indexing Methods
- Inverted Index
- Compression (d-Gaps, Variable-Byte Encoding)
- Index Pruning
 
5. Query Processing
- Holistic Methods (DAAT, TAAT)
- Top-k Methods (NRA, WAND)
 
6. Evaluation
- Cranfield Paradigm
- Benchmark Initiatives (TREC, CLEF, NTCIR)
- Traditional Effectiveness Measures (Precision, Recall, MAP)
- Non-Traditional Effectiveness Measures (nDCG, ERR)
 
7. Web Retrieval
- Crawling
- Near-Duplicate Detection
- Link Analysis (PageRank, HITS)
- Web Spam
 
8. Information Retrieval Systems
- Indri
- Terrier
- Anserini
- Apache Lucene/Solr
- ElasticSearch
 


[letzte Änderung 04.07.2024]
Literatur:
Stefan Büttcher, Charles L. A. Clarke, Gordon V. Cormack: Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2010.
 
Reginald Ferber: Information Retrieval: Suchmodelle und Data-Mining Verfahren für Textsammlungen und das Web, dpunkt, 2003.
(online verfügbar unter: http://information-retrieval.de/irb/ir.html)
 
W. Bruce Croft, T. Strohman, D. Metzler: Search Engines Information Retrieval in Practice: Information Retrieval in Practice, Pearson, 2009
(online verfügbar unter: https://ciir.cs.umass.edu/irbook/)
 
Christopher D. Manning, Prabhakar Ragahavan, and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008.
(online verfügbar unter: http://nlp.stanford.edu/IR-book/)
 
 
 


[letzte Änderung 04.07.2024]
Modul angeboten in Semester:
WS 2022/23, WS 2021/22, WS 2020/21, WS 2019/20
[Mon Dec  2 23:49:59 CET 2024, CKEY=kir, BKEY=pi2, CID=PIB-IRET, LANGUAGE=de, DATE=02.12.2024]