Fachschaft Informatik

Prüfungsprotokolle


Prüfungsprotokolle lesen



Protokolle (5 gefunden)

Nr.PrüferFach
985 Akbik, Alan Prof. Dr. Statistik und Data Science für die Informatik

Protokoll

= Datum der Prüfung
22. Juli 2022

= Benötigte Lernzeit als Empfehlung
1 Woche wenn man alle Blätter selbst bearbeitet hat und die Vorlesungen alle gehört/durchgearbeitet hatte (Vor allem, da man ein Blatt mit rein nehmen durfte und dadurch nichts auswendig lernen muss).

= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien, Übungsfolien, Aufgabenblätter + Lösungen

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Es wurde in drei verschiedenen Räumen geschrieben, also vielleicht sehr unterschiedlich. Ich fand Mario Sänger zwar bemüht die Stimmung zu lockern, aber so richtig gut hat er die Situation nicht gehändelt und ist nicht gerade verständnisvoll auf Nachfragen eingegangen (z.B. ob man schonmal Schmierpapier haben könnte). Sonst aber alles okay.

= Prüfungsfragen
Es gab 90 Punkte verteilt auf 7 Aufgaben. Jede Aufgabe 10-15 Punkte, nur Permutationstest gab mit 20 Punkten mehr. Jede Aufgabe hatte mehrere Teilaufgaben.
90min Zeit. Beidseitig beschriebenes A4 Blatt erlaubt und meiner Meinung nach absolut notwendig für Formeln etc. Taschenrechner war erlaubt und angeblich nicht notwendig. Ich hätte es ohne Taschenrechner nicht gekonnt! Also unbedingt mitnehmen.

Wahrscheinlich habe ich einzelne Teilaufgaben vergessen und ich kann mich auch nicht mehr genau an die Werte/Vorgaben erinnern. Die Aufgabenstellungen waren teilweise recht lang.


Aufgabe 1 (Wahrscheinlichkeitsrechnung)
a) Postleitzahl beginnt mit 1. Wie viele Möglichkeiten gibt es für die restlichen Ziffern wenn 5 stellige Postleizahl.

b) 7 stellige Telefonnummer. Wie viele Möglichkeiten gibt es, wenn keine Zahl mehr als einmal vorkommen kann.

c) Wir Würfeln drei mal. Was ist die Wahrscheinlichkeit, dass die höchste Augenzahl nach drei mal Würfeln genau drei ist.


Aufgabe 2 (Normalverteilung)
(sehr ähnlich zu Blatt 1, Aufgabe 1. Quasi nur andere Werte/Story).
Gegeben war eine Stichprobe mit 9 werten von 46 bis 54
a) Median bestimmen

b) Arithmetisches Mittel, Varianz, Standardabweichung berechnen.

c) Wie hoch ist die Wahrscheinlichkeit, dass mindestens 116 (irgendwas mit Brötchen, weiß nicht mehr) für Mittelwert=120 und Standardabweichung=10. Wie hoch, dass höchstens 124,5. Tabelle für Standardnormalverteilung war gegeben.

d) 90%Perzentil ausrechnen.


Aufgabe 3 (Permuationstest)
Irgendeine Tabelle mit Werten für zwei Gruppen gegeben.

a) Mittelwerte der beiden Gruppen berechnen.

b) Nullhypothese und alternative Hypothese formulieren.

c) Permutationstest durchführen. Ist statistisch signifikant für alpha=0,1?

d) Was wäre wenn Signifikanzniveau höher? Welchen Typ Fehler würde das beeinflussen (Typ I oder Typ II).

e) P-Wert erklären

f) Wann können wir Nullhypothese verwerfen, wann nicht. Also was passiert, wenn P-wert größer und was wenn kleiner als Signifikanzniveau ist.


Aufgabe 4 
Betrug/Kein Betrug Wahrheitsmatrix ausgefüllt gegeben.

a) precision, recall, f1 score berechnen.

b) Wie würde sich auf precison und recall auswirken, wenn Schwellwert für labeln-als-betrug höher liegen würde?

c)Welche Accuracy hätte es wenn alles als "kein Betrug" gelabelt wird?


Aufgabe 5
a) Erwartungswert einer diskreten Zufallsvariable ausrechnen

b) Verteilungen angeben (welche Verteilung und Werte der Verteilung)
- irgendwas mit "wie lang bis zum ersten Erfolg"
- irgendwas mit "wie viele Autos in diesem Zeitabschnitt"


Aufgabe 6
a) Regressionsgerade berechnen.
b) Punkte und Gerade in Koordinatensystem skizzieren.
c) Gegeben ein Punkt, bei dem nur X-Wert bekannt ist. Schätze Y-Wert anhand der Gerade.


Aufgabe 7 (Neuronales Netz)
a) Forward Pass berechnen ohne Aktivierungsfunktion.
b) Softmax berechnen.
c) Cross Entropy Loss berechnen.

= Note (Optional)
Noch nicht bekannt.

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Die Aufgaben sind sehr nah an den Übungsblättern. Man konnte sich mit diesen also gut vorbereiten. Da man einen Zettel mit rein nehmen darf, kann man auch alle Formeln und Definitionen notieren. Also rein von den Aufgaben sehr fair und keine bösen Überraschungen. Zeitlich völlig unrealistisch. Ich weiß nicht wie man das alles schaffen soll, auch wenn man auf anhieb bei jeder Aufgabe weiß wie es geht. Außerdem fand ich es sehr irreführend, dass es hieß man brauche keine Taschenrechner. Doch, braucht man! Sonst geht nur noch mehr Zeit verloren und wer kann e hoch irgendwas und ln bitte im Kopf rechnen?
Also insgesamt machbar. Aber schwierig hier sehr gut zu bestehen würde ich sagen.

Nr.PrüferFach
994 Akbik, Alan Prof. Dr. Statistik und Data Science für die Informatik

Protokoll

= Datum der Prüfung 04.10.2022
= Benötigte Lernzeit als Empfehlung 1 Woche wenn man sich mit die Übungsblätter beschäftigt hat, sonst 3 Wochen
= Verwendete Materialien (Bücher, Skripte etc...) Übungsfolien, Vorlesungsfolien
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
= Prüfungsfragen
Aufgabe 1) 
 gegeben ist ein Sample mit 9 Werte: (ich weiß nicht, ob das genau diese werte 
          waren:  98, 100, 102, 103, 104, 105, 106, 198, 110)
    a) Berechne den Median
    b) Berechne Erwartungswert, Varianz und Standardabweichung
    c) Angenommen Mittelwert = ... , Standardabweichung = ... 
       Berechen die wahrscheinlichkeit für a=>x>=b (wobei a und b 
       unterschiedliche zahlen sind)  --> Gegeben war eine Z-Score Tabelle
    d) Berechne irgendein Parzentil% (weiß nicht mehr genau) 

Aufgabe 2) zu Bootstrabbing:
Gegeben sind 10 zahlen (z.B. 91, 92, 93, 94, 95, 96, 97, 98, 99, 100) und deren Mittelwert

Auch Gegeben: 10 Bootstrapping Samples aus die oberigen Zahlen aber ohne Mittelwerte 

     a) 80% Konfindenzintervall bestimmen (In der Vorlesung haben wir 2 
        Möglichkeiten gelernt, wie man sowas bestimmt, in der Prüfung dürften 
        jeder für sich entscheiden, welche Methode man benutzt) 

     b) Angenommen der richtige Konfindenzintervall ist von 94-97 (auch hier 
        sind die Zahlen ausgedacht, ich kann mich an die richtigen zahlen nicht 
        erinnern) Beschreibe mit eigenen worten, was das bedeutet. 

Aufgabe 3) Zu Naive Baise:
  Ich hab die Aufgabe geskippt und weiß nicht welche Teilaufgaben es gab, es gab 
  aber 2 Klassen, und 4 Texte man musste 
  irgendwelche wahrscheinlichkeiten bestimmen

Aufgabe 4) Zu Buerteilen von Klassifikator: 
           Es gab eine Tabelle mit [Klasse | Vorhersage] 
           Es gab 3 Klassen und man musste für eine dieser Klassen: 
        a) TP , FP, und FN bestimmen
        b) Precision, Recall und F1-Score Bestimmen
        c) Es gab eine Tabelle mit 2 Klassifikatoren zu der 3 Klassen, und da 
           steht der F1 Score von jeder Klasse und noch ein Durchschnitt für 
           beide Klassifikatoren. 
           Aufgabe: Für welchen Klassifikator würdet ihr euch entscheiden. (weiß 
           nicht genau ob ich die Aufgabe richtig beschreibe aber sowas 
           ähnliches war es) xD 

Aufgabe 5) 
Gegeben ist eine Zufallsvariable X
        a) Berechne E(X)
        b) Berechne Var(X) 
        c) (nicht sicher aber ich glaub es war diese Aufgabe):
       c1) Wie lange bis zum ersten Erfolg .. -> welches Verteilungsmodell?
       c2) Gegeben ist irgendwas mit viele dinge (man merkt ich kenn die Aufgabe 
           nicht mehr genau xD) jedes ding hat gleiche wahrscheinlichkeit --> 
           welches Verteilungsmodell?

Aufgabe 6) Zu Newton verfahren: 
           gegeben: f(x) = x^2 -2x + 1
           a) Berechne die Nullstelle.
           b) Schreibe die genaue formel von Newton Verfahren: also: 
              x_n+1= ... 
           c) sei x_0 = 2 Berechne: 
                  1. x_1 =
                  2. x_2 = 
                  3. x_3 =  

Aufgabe 7) zu K-Means: (obwohl ich persönlich fand, dass die Aufgabe fast nichts 
           mit K-Means zu tun hatte) xD 
            
           a) Gegegeben ist eine Tabelle mit unterschiedlichen Daten: 
              [Alter (eine Zahl) | Gehalt (Eine Zahl) | Monatliche Ausgaben 
               (Wenig-Mittel-Viel) - Wohnort (Berlin - Brandenburg - Sonst)] 
            Aufgabe war sowas wie: Gib die Systematik der Skalen 

           b) Die Daten aus der Tabelle jeweils in Vektor schreibweise umwandeln 
              also: Alter = (vektor) , Gehalt = (Vektor)  etc. 

           c) Gegeben sind zwei Punkte x_1 und x_2 mit jeweils ihre Koordinaten
              Aufgabe: Gib die Formel an, für die Abstand zwischen Punkte und 
              berechne den Abstand zwischen x_1 und x_2 

           d) Wann Terminiert der K-Means Algorithmus? Gib ein Beispiel an ( 
              nicht so sicher aber sowas in die Richtung) 
                   
= Note (Optional) noch nicht bekannt 
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...) Meiner Meinung nach war die Prüfung angemessen, allerdings gab es für mich viel Zeitdruck und ich war gerade Mal fertig, als die Zeit vorbei war, obwohl ich eine Aufgabe geskippt hab und gar keine Gedanken dazu gemacht hab. Die Aufgaben waren auch zu erwarten (bis auf die Naive Bayes, ich konnte mir nicht vorstellen wie das dran kommt) xD 




Nr.PrüferFach
1013 Akbik, Alan Prof. Dr. Statistik und Data Science für die Informatik

Protokoll

= Datum der Prüfung 28.07.2022
= Benötigte Lernzeit als Empfehlung
1 Woche
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien, Wikipedia, Übungsfolien
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Ruhig, 10 Minuten vor Klausurbeginn um Aufgabenstellung zu lesen und evtl. Fragen zu stellen
= Prüfungsfragen

# 1. Kombinatorik 
Wie viele Möglichkeiten gibt es einen Irrlauf in 2n Schritten in 2D durchzuführen und wieder zum Ursprung zurückzukehren?

Wie viele Möglichkeiten gibt es, das Wort "MATHEMATIK" zu schreiben, wenn beide "M" immer zusammen stehen müssen.

Betrieb gegeben: Verhältnis Männer zu Frauen 2:3
Die Wahrscheinlichkeit, dass ein Mann mit dem PkW zur Arbeit kommt liegt bei 80% für Frauen bei 60%. 
- wie hoch ist die Wahrscheinlichkeit, dass ein Mitarbeiter mit dem PkW zur Arbeit kommt
- wie hoch ist die Wahrscheinlichkeit, dass ein Mitarbeiter, der mit dem PkW zur Arbeit kommt, eine Frau ist.

# 2. Gegeben Dichtefunktion f(x): R->R(eele Zahlen)
Im Intervall: -5 bis 0 ist f(x) = m*x+b   (Es waren auf jeden Fall 2 lineare Funktionen der Form mx+b, an m und b errinnere ich micht nicht mehr, Graph ist ein Dreieck von -5 bis +5, spitze bei 0)

Im Intervall: 0 bist 5 ist f(x) = -m*x+b

0 sonst.

- zeigen Sie, dass f(x) eine Dichtefunktion ist
- berechnen Sie den Erwartungswert und Varianz

# 3. Normalverteilung mit \mu = 40 mm und \sigma = 0.04 für Schraubenlängen

- berechnen des Integrals von 39.9 bis 40.1 mm mit Tabelle (wie viele Prozent der Schrauben weichen +-0.1 mm vom Soll-Wert ab?)
- berechnen von 99.1 % Konfidenzintervall 


# 4. Permutationstest:
- Szenario A: 12, 14
- Szenario B: 16, 18

- Permutationstest durchführen
- ist der Unterschied Signifikant für ein Signifikanzniveau von 5%?
- unterschied von Typ-1 und Typ-2 Fehlern
- p Wert intuitiv erklären


# 5. Clustering

4 Features gegeben:
(Alter, Fitness (hoch | mittel | niedrig), Wohnort(Ländlich | Stadt), stunden Benutzungsdauer)


-zu den Features Skalen angeben und z.B. 0=niedrig 1=mittel 2=hoch 
- mit 3 Beispieldaten in Vektor umschreiben
- Angenommen 10.000 Datenpunkte und 40 Iteratioten mit k=5, wie viele Distanzrechnungen für k-means?

# 6. Neuronales Netz 

- Neuronales Netz 3 Gewichte und 1 Bias Gegeben, Akrivierungsfunktion o1 ist die Identität
- Mit Testdaten Transformation durchführen (3 Punkte)
- Squared Mean error berechnen (3 Punkte)
- Schritt größe bei Gradient Descend: Was ist Nachteil von zu kleiner / zu großer Schrittgröße ? (2 Punkte)
- Nachteile von tiefen neuronalen Netzen (2 Punkte)

= Note (Optional)
noch nicht bekannt
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
- es kommt deutlich mehr vom Teil von Akbik ran als ich dachte, weniger vom ersten Teil

Nr.PrüferFach
1031 Akbik, Alan Prof. Dr. Introduction to Natural Language Processing

Protokoll

= Datum der Prüfung
19.07.2024
= Benötigte Lernzeit als Empfehlung
1 Woche
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungs- und Übungsfolien, Fragenkatalog

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Entspannte Atmosphäre, man hatte am Anfang extra 10min Zeit, um die Fragen zu lesen

= Prüfungsfragen
(Nicht im Wortlaut, aber so ungefähr)

1.
1.1 Define at least 5 PoS tags.

Annotate a given sentence with
  1.2 the PoS tags from 1.1,
  1.3 a lemma for each token,
  1.4 BIO-2 tags,
  1.5 BIOES tags.

2.
2.1 Name and define the metric you would use for Part of Speech tagging (PoS).
2.2 Name and define the metric you would use for Named Entity Recognition (NER).
2.3 Why do PoS and NER require different metrics?
2.4 What metric would you use for lemmatization and why?

3.
3.1 Write pseudo code for the init method of a BiLSTM sequence labeler.
  - Assume there is already a BiLSTM class
  - Initialize the required layers, define parameters of the model
  - What are the input and output vector sizes of each layer
  - Provide explanations as comments

3.2 Write pseudo code for the forward method of the BiLSTM sequence labeler.
  - Don't use for loops, packed-padding, etc.
  - Focus on the order in which the layers from 3.1 need to be called
  - The forward method receives a token list of a sentence and should return predicted labels for that sentence

4.1 Describe a model for the task of syllable annotation (e.g. fantastic -> fan|tas|tic).
  - What is the prediction task?
  - What model architecture would you use?
  - Support your explanations with a sketch for the word "fantastic". What are inputs and outputs?

4.2 List or describe the label dictionary needed for your model.
4.3 Which metric would you use to evaluate the model and why?

5.1 Compare scalability of RNNs vs. Attention
  - Which is more scalable for large texts?
  - What (if any) is the main scalability bottleneck of RNNs?
  - What (if any) is the main scalability bottleneck of Attention?

5.2 Compare the information bottleneck of RNNs vs. Attention
  - Which will provide better predictions for long texts?
  - What (if any) is the information bottleneck for RNNs?
  - What (if any) is the information bottleneck for Attention?

5.3 Which architecture (RNN or Attention) would perform better on the task of majority detection?
  - Majority detection: Given a list of digits, predict the digit which occurs most often
  - e.g. 0 0 3 6 9 1 4 5 0: Digit 0 occurs most often 


= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Gute Prüfung, Art der Fragen entsprach der der Beispielfragen

Nr.PrüferFach
1034 Akbik, Alan Prof. Dr. Introduction to Natural Language Processing

Protokoll

= Datum der Prüfung/Date of exam
08.10.2024
= Benötigte Lernzeit als Empfehlung/Required learning time

2 Wochen zum Verständnis 
2 Tage für das Kurzzeitgedächtnis
2 weeks for a good overview and understanding
2 days for short-term-memory (memorizing)

= Verwendete Materialien (Bücher, Skripte etc...)/Used Material

Folien + Übungen + aufgezeichnete VL
Slides + Exercises + recordings

= "Atmosphäre" der Prüfung - Verhalten der Beisitzer/“Atmosphere” of the examination - behavior of the assessors 

Entspannt (2. Prüfung war angeblich viel leerer als die erste)
Relaxed (2nd test was supposedly much emptier than the first)

= Prüfungsfragen/Exam questions
Task 1 PoS Tagging (18 Punkte/Points)
Sentence: "Shackled in iron chains , ..."
1.1 Define 5 PoS Tags needed for the above sentence
1.2 Tag the sentence
1.3 Regular vs universal PoS tags - what is the difference and which (do you think) has more tags and why
1.4 lexicon based PoS tagging - two reasons against using it

Task 2 New NLP Task (22)
In the following sentence we want to determine, if the used prepositions are correct, if not they should be underlined.
"Shackled by iron chains, ..." (by was underlined)
2.1 Model the problem, prediction task, input/output, architecture and draw a sketch
2.2 define the label dictionary - either write all labels or explain what is inside the dict.
2.3 How can we automatically generate training data for our model?
2.4 Evaluation metric for the model - and why

Task 3 Sentiment Analysis (22)
Sentence: "King Kong is great"
3.1 Sketch of forward pass of FastText classifier using Bigrams and the above sentence - create the bigrams, show the layers (input, one-hot encoding, embedding, mean pooling, logits, activation, output)
3.2 Pseudo-Code for Init function of FastText - Parameters, layers in correct order, length of vectors (in-/ouput) and short explanation
3.3 Pseudo-Code for predict method - order of layers, which activation funct., etc.
3.4 Bigrams vs Unigrams - difference and why are Bigrams better/necessary
3.5 Are Bigrams useful in RNNs? Yes/No and reason why

Task 4 Vanilla RNN (14)
Explain the Vanilla RNN and make a sketch when necessary
- Cell structure
- How is reccurence implemented
- input/output at time t
- functions needed
- operations needed
- learnable layers
- mathematical def. of inner workings

Task 5 RNN vs Transformer w/ attention (16)
5.1 which model is better for the following problem and why:
Input: "1 7 6 4 1 8 1 || 2"
Output: "7"
task: find the number at the position which is indicated by the first number after "||"
5.2 which model is better for simple modulo 9 calculations and why:
input: "10 + 2"
ouput: "3"

= Note (Optional)/Grade
N/A
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)/Summary
Gute Prüfung, alles kam dran
Nicht auf Lücke lernen (außer vielleicht beim auswendig Lernen)
Wenn man die Folien 2-3 Mal angeschaut hat und die Aufzeichnung der VL 2-3 Mal angeschaut hat, kommt man sehr gut zurecht

Good exam, everything was covered
Don't study for gaps (except perhaps when memorizing)
If you have skipped through the slides 2-3 times and watched the recording of the lecture 2-3 times, you can manage mostly everything