Fachschaft Informatik

Prüfungsprotokolle


Prüfungsprotokolle lesen



Protokolle (2 gefunden)

Nr.PrüferFach
715 Leser Prof. Information Retrieval

Protokoll

= Datum der Prüfung
16.03.2015

= Benötigte Lernzeit als Empfehlung
2 Wochen bei regelmäßigem Besuch der Veranstaltungen

= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien und Lehrbuch "Introduction to Information Retrieval [Manning, Schütze]

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
sehr angenehme Prüfung, kleiner Smalltalk von Herr Lesers Seite um Nervostität zu nehmen.
Beisitzer war ruhig und hat protokolliert.
Fragen haben sich sehr auf Vorlesungsfolien bezogen; er fragt allerdings auch nach möglichen Implementierungen - man sollter also zu den meisten Verfahren auch eine Idee haben, wie man diese effizient implementiert.

= Prüfungsfragen
Was muss man mit den Dokumenten machen, bevor man sie indexieren kann?
-Preprocessingverfahren aufzählen
-Lemmatizing vs Stemming Pro & Contra aufzählen

Annahme Preprocessing ist fertig - Wie kann man die Indexierung effizient implementieren?
-Gesucht war eigentlich der block-based-Ansatz aus der Vorlesung - der fiel mir aber nicht komplett ein, also habe ich mir schnell einen alternativen Algorithmus ausgedacht, der auch akzeptiert wurde - daraufhin wurde allerdings gefragt, wie man diesen denn effizient parallelisieren könne

Was ist Language Modelling?
-Definition und Beispielanwendungen aufzählen
Wie wird es implementiert?
-N-Gramm-Frequenzen zählen, man benötigt einen Test-Corpus
Welchen Corpus benutzt T9?
-vorgegebener Corpus sowie gesammelte Nutzereingaben
Welches Problem tritt beim Language Modelling auf?
-Data Sparsity
Warum löst ein größerer Corpus das Problem nicht und warum tritt es auf?
-große N-Gramme besitzen exponentiell viele Kombinationen an Wörtern, kann durch größere Corpora nicht wirklich abgedeckt werden (Annahme Alphabet Größe 100, sowieso 4-Gramm - wie viele Kombinationen? 100^4)
Besitzt eine natürliche Sprache weitaus mehr oder weniger Wortkombinationen als Kombinationen von Wörtern bei großen N-Grammen?
-weitaus weniger, Betrachtung als semantisch unabhängige Wörter entspricht nicht der reellen Sprache
Wie kann man das Data-Sparsity-Problem lösen?
-Smoothing
  -Laplace (welches Problem tritt auf? - zu viel Wahrscheinlichkeitsmaße auf unbekannte Ereignisse)
  -Lidstone (wie funktioniert das Verfahren zum Finden von Lambda?)
  -Back-Off-Model (Erklärung + alternativer Ansatz der gewichteten N-Gramm-Modell-Gleichung)

= Note (Optional)
1,7

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr angenehme Prüfung - es wird sich bemüht, dass man die Nervosität etwas abwirft bevor es zu den Fragen kommt.
Benotung war überraschend positiv, da ich zwischendrin etwas gestrauchelt habe - insofern sehr angemessene und studentenfreundliche Benotung

Nr.PrüferFach
966 Leser Prof. Information Retrieval

Datei (Zugriff nur aus dem HU-Netz)

IR_Prüfungsprotokoll_SS21.pdf