Fachschaft Informatik

Prüfungsprotokolle


Prüfungsprotokolle lesen



Protokolle (6 gefunden)

Nr.PrüferFach
933 Schäfer, Patrick Dr. Angewandtes Maschinelles Lernen

Protokoll

= Datum der Prüfung                             19.8.2020

= Benötigte Lernzeit als Empfehlunng            ~ 20 Stunden
Der 33-Seiten lange Fragenkatalog ist etwas happig, wer sich alle Videos nochmal angucken
möchte, weil er die Vorlesung gar nicht verfolgt hat, braucht natürlich länger

= Verwendete Materialien                        Vorlesungsvideos/Folien, Fragenkatalog

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Entspannt, Fragen werden auch tatsächlich hilfreich beantwortet

= Prüfungsfragen

1. Bias/Variance
-------------------
a) Skizzieren sie die Auswirkung von Modelkomplexität
auf Variance, Bias, Trainingsfehler, Testfehler und erklären sie den Kurvenverlauf.

b)Was ist Bagging, Boosting, Stacking? parallel oder sequentiell? Wie werden die Ergebnisse kombiniert?
Wie wirken sie sich auf Bias, Variance aus?

c)Welche Ensemble Methode würde man für decision trees, lineare Regression auswählen?

2. K-Nearest Neighbour
-------------------
5 Punkte gegeben mit Label Y
a)Berechnen sie für einen neuen Punkt den euklidischen Abstand zu allen Punkten.
b)Welches Label bekommt der neue Punkt basierend auf 1-NN, 3-NN ?

c)Erklären sie kurz den K-NN Algorithmus, wie wird das optimale k ausgewählt? 

d)Es gibt 2 Modelle, einmal logistische Regression mit 30% Trainingsfehler und 20% Testfehler
sowie ein 1-NN Modell mit einem durchschnittlichen Fehler von 18%(Trainings-und Testfehler)
auf einem Datenset, welches mehrfach zufällig in Test- und Trainingsdaten unterteilt wurde.
Welches Modell würden sie wählen und warum?

3. Decision Boundary
-------------------
Hyperplane gegeben mit w = (-1,1,2) und Hw(x)= 0
a)Berechnen und skizzieren sie die Steigungsgerade der Form x2 = y = a*x1 + b
Kennzeichnen sie den x1 und x2 Achsenabschnitt.

b)Berechnen und skizzieren die Hw(x) = 1 und Hw(x) = -1
c)Berechnen sie die Margin


d)Auswahl von geeigneten Modellen

Gegeben sind die mögliche Modelle 
SVM with quadratic kernel, logistische Regression, 1-NN und decision trees
Auf der linken Seite ein Modell angeben, was einen Trainingsfehler von 0% erreicht, Erklärung warum.
Auf der rechten Seite ein Modell angeben,  was sich nicht gut eignet/ keinen Trainingsfehler von 0% erreicht, Erklärung warum.
(Antwort kann auch mehrere oder keine sein)

++  --  ++    |    ++  --  ++
++  --  ++    |    ++  --  ++
++  --  ++    |    ++  --  ++
++  --  ++    |    ++  --  ++

--------------------------------

+++   +++     |   +++   +++
+++   +++     |   +++   +++
              |   
+++   ---     |   +++   ---
+++   ---     |   +++   ---



4. Multi-Class Logistische Regression
-------------------
6 Punkte(x1,x2) gegeben, mit Label y = {1,2,3}
Gegeben sind w1 = (1,1,2)   w2 = (0,-3,2)   w3 = (1,1,-4)
a)Für alle 6 Punkte, was sind die vorhergesagten label y'?
b)Berechnen sie den Fehler. 

c)Was ist der Unterschied zwischen batch Gradientenabstieg und Stochastischen Gradientenabstieg?
Was sind Vor- und Nachteile(auch im Verhältnis zu normalen Gradientenabstieg)?

d)Welche Auswirkung hat die Lernrate beim Gradientenabstieg auf den Loss?



5. Lasso/Ridge Regression
-------------------
Lasso Regression wird über L1-Norm definiert, Ridge Regression über L2-Norm
a) Skizzieren sie die Auswirkung auf Gewichtsvektor w ( Plot gegeben mit x = w1 und y = w2)
b) Warum gibt es bei Lasso Regression mehr Einträge wi = 0 ?



Spam Detection

Spam	+
not Span-
	predictec class
	  +    -
actual+	| 8  | 2 |
class	----------
      -	| 40 |950|
a) Berechne Precision, Recall, F1 Score
b) Wie wirkt sich ein größeres oder kleines epsilon auf precision und recall aus?



6. Neural Networks
-------------------
Gegeben Network mit 2 layern
Basierend auf Input (0,0),(0,1),(1,0),(1,1) Weighted Sum und Activation für a1(L2), a2(L2) und a1(L3) berechnen.
Welcher logischer operator wird damit repräsentiert?
Wie muss man die Gewichte ändern, damit daraus XNOR wird?




= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Vorbereitung war wegen des vielen Materials stressiger als die Prüfung selbst, Benotung kenne ich noch nicht.

Nr.PrüferFach
951 Schäfer, Patrick Dr. Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
2.3.21
= Benötigte Lernzeit als Empfehlung
2 Wochen
= Verwendete Materialien (Bücher, Skripte etc...)
Nur sein Skript
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Es war eine Take-Home Klausur, welche wir per Moodle dann eingereicht haben.
Wahrscheinlich wird diese die Probeklausur vom nächsten Jahr.

= Prüfungsfragen
Aufgabe 1:
    MDDM - ROLAP
    Welche logische Beziehung besteht in Starschema zwischen:
        a) Fakten und Dimension
        b) Dimensionen
    Wie moddeliert man eine N:M Beziehung.
    Eine Rechenaufgabe zu Datenmodellen mit Fakten, Dimensionen und Attributen.

Aufgabe 2:
    Physische Optimierung
    Gegeben war eine Tabelle mit einer SQL Anfrage:
        SELECT shop, prod, tag, avg(preis)
        FROM tabelle
        GROUP BY ROLLUP(shop, prod, tag)
    Wie kann diese Anfrage möglichst schnell beantwortet werden wenn:
        a) Unsortierte Tabelle
        b) Sortiert nach Rollup Attributen

Aufgabe 3:
    SQL - OLAP
    Gegeben war eine Tabelle mit 3 Spalten (Produkt, Farbe, Anzahl). Wir sollten 3 SQL Statements schreiben die angegebene Ergebnisse erzeugen. 
    a) Stuhl | NULL | 176
       Tisch | NULL | 1234
       NULL  | Grün | 54
       NULL  | Gelb | 436
       NULL  | NULL | 2354
    
    b) Stuhl | Grün | 34
       Stuhl | Gelb | 54
       Stuhl | NULL | 88
       Tisch | Grün | 425
       Tisch | NULL | 425
       NULL  | NULL | 513

    c) Eine neue Tabelle mit (ID, Gehalt) und eine geforderte Tabelle mit dem Header:
       ID | Gehalt | Rang | Rang 2 | Gesamt | Gesamt 2

       Rang (normale und dense), Gesamt: kommulierte Summe (je nach Rang), Summe der Gehälter selben Rangs.

Aufgabe 4: Aggregation und CUBE
    a-d) Gegeben waren solgende Aggrgationen: Mathematisches Produkt, Mittelwert, Modus
         Frage: Angeben von der Anzahl der Zwischenergebnissen, ob es 
         Holistisch/Distributiv/Algebraisch ist & Inkrementelle Berechnung.

    d) Gegeben: Würfel mit 3 Dimensionen (Zellenanzahl von 1 Mio, 100, 1000)
       1. Zeichnen des Würfels mit Aggregationsgitter
       2. Eine Zelle speichert ein Measure mit 4 Bytes. Was ist die Gesamtzahl an Bytes des CUBES?
       3. Berechnen der minimalen Menge an Hauptspeicher. (2-D Würfel wird mit Multi Way Array Aggregation berechnet)

Aufgabe 5: Apriori Algorithmus
Wie die Aufgabe aus der Vorlesung nur mit anderen Zahlen.
    1. Support und Konfidenz zu gegebenen Assoziationsregeln angeben
    2. Apriori Algorithmus durchführen

Aufgabe 6: Algorithmisches Clustering

Wir hatten eine Grafik mit einem Gitter und Punkte drin.
    1. Berechnen der Manhattan Distanz
    2. Dendrogramm angeben
    3. Es wurden Cluster angegeben und wir sollten sagen, ob diese mittels Aglomerativen Clustering mit Single Linkage entstanden sind.
       
= Note (Optional)
1.3
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr ungewohnt diese Art von Klausur. Man konnte auch die ganze Zeit parallel dazu in Zoom Fragen stellen bei einer unklaren Aufgabenstellung. 
Die Benotung war sehr großzügig und der Schnitt lag auch bei ca. 2,3. 
Da es eine Take Home Klausur war, wurde der Fokus mehr auf Rechenaufgaben gesetzt und nicht auf Wissenabfragen.

Nr.PrüferFach
993 Schäfer, Patrick Dr. Angewandtes Maschinelles Lernen

Protokoll

= Datum der Prüfung: 02.08.2022
= Benötigte Lernzeit als Empfehlung: siehe altes Protokoll
= Verwendete Materialien (Bücher, Skripte etc...): Videoaufzeichnungen, Bonusblätter, Fragenkatalog
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer: ganz normal
= Prüfungsfragen

Es gab 4 Aufgaben a 25 Punkten. Das Protokoll wird sehr ungenau, da ich mich an genaue Zahlen und Angaben nicht erinnern kann :´D

1. gegeben: 5 verschiedene Ausdrücke, wie zb XX^T x aus R
   gesucht: Dimension des Ergebnisses
2. Cross Validation
   Welche classifier sind am besten geeignet und wieso?
   Errechnung von TP TN FP, Genauigkeit und co.
3. Lineare Separierbarkeit:
   geg.: Datensatz, welchen man plotten soll
   ges.: Welche classifier können mit Fehler 0% separieren, welche nicht?
4. Neuronale Netze:
   Errechnung der Ausgabe werte.
   Welche logische Funktion wird dargestellt?
   Wie müssen Kantengewichte geändert werden, damit XNOR entsteht?

= Note (Optional)
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...): Die erste Aufgabe war etwas verwirrend, die wenigsten haben wahrscheinlich mit so einer Aufgabenstellung gerechnet. Die zweite Aufgabe war laut Dr. Schäfer eine Transferaufgabe aus der Übung. Also geschenkte Punkte, wenn man so will. Die dritte und vierte Aufgabe warn auch in Ordnung, in der Regel gab es keine Teilaufgaben von 2,3 und 4, die mich sehr überrascht haben. Im Allgemeinen finde ich, dass die Prüfung fair war. Wenn man sich gut vorbereitet, sollte nicht viel schieflaufen...

Nr.PrüferFach
1001 Schäfer, Patrick Dr. Data Science mit Python

Protokoll

= Datum der Prüfung
27.02.2023
= Benötigte Lernzeit als Empfehlung
Wenn man in der Vorlesung gut mitgedacht hat und die Übungsaufgaben alle gemacht: 2-3 Tage
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien, Übungsblätter, Verlinke Cheat-Sheets
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Sehr entspannt, Prüfer waren ansprechbar bei Problemen, viele schon deutlich vor Prüfungsende fertig
= Prüfungsfragen

Jede Aufgabe gab 25 Punkte => Insgesamt 100 Punkte für 120 Minuten

Aufgabe 1: 

Gegeben war eine Tabelle mit den Gästen eines Kreuzfahrtschiffs in den folgenden Spalten:
- Name: String
- Initial: Miss, Mr, Mrs, Master
- Sex: male, female
- Age: Als Float, manche Einträge waren NaN
- Pclass: 1, 2, 3
- Fare: Als Integer
- Embarked: C, Q, S, manche NaN

a) Sie wollen die Daten vizualisieren. Nennen Sie für jede der folgenden Arten je 1 Plot aus der Vorlesung, welche Spalten sie plotten und welchen Typ die Spalten haben (numerisch oder kategorisch):
- Relationship
- Comparison
- Distribution
- Composition

b) Geben Sie einen Pandas-Ausdruck an, mit dem die Initialien nach Geschlecht gezählt werden. Die Ausgabe soll genau so aussehen:

| Initial | Master | Miss | Mr | Mrs |
| Sex     |                          |
| female  | 0      | 4    | 0  | 6   |
| male    | 1      | 0    | 10 | 0   |

c) Geben Sie einen Pandas-Ausdruck an, mit dem die Spalte Fare normiert und in der dargestellte Reihenfolge ausgeben wird:

|    | Fare  |
| 15 | 0     |
| 14 | 0     |
| 18 | 0.001 |
|     ...    |
| 3  | 1     |

d) Geben Sie einen Pandas-Ausdruck an, der den Mittelwert über das Alter nach Initialien gruppiert berechnet. Ausgabe wie:

| Initial | Master | Miss | Mr   | Mrs |
| Age     | 2      | 33   | 27.1 | 25  |

Aufgabe 2:
a) Gegeben waren 2 Zeitreihen P und Q.
    1) Berechnen Sie die Kostenmatrix für Dynamic Time Warping
    2) Geben sie den Optimalen Pfad und die Gesamtkosten dieses Pfads an
b) Gegeben 10 Objekte mit Labels {+, -}
    +   +   -   -
    -       +
    +   +   -   -
    1) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 1-NN
    2) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 3-NN
    3) Warum wird CV verwendet um den Parameter k zu lernen?

Aufgabe 3:
a) Gegeben war eine Liste mit dem Alter von 25 Kinogänger*innen, aufsteigend sortiert
    1) Berechnen Sie die Bins für ein Equal-Width-Histogramm mit b=4
    2) Zeichnen sie das Histogram
b) Welches Verfahren würden Sie für die Bestimmen einer Wahrscheinlichkeitsdichte (probability density) verwenden und warum?
c) 1) Q1, Median, Q3, IQR berechnen
   2) Extremwerte nach IQR-Methode bestimmen und benennen
   3) Boxplot zeichnen

Aufgabe 4:
Gegeben war ein Datensatz mit Punkten mit je x, y-Koordinate (in einem Koordinaten-System eingezeichnet, jeder Punkt hatte 1 Buchstaben)
a) Geben Sie die Formel für Complete Linkage zwischen 2 Clustern an
b) Berechnen Sie den Abstand mittels Complete Linkage zwischen den Clustern C = {'A', 'B', 'C', 'D'} und C' = {'E'}
c) Zeichnen Sie das Dendrogramm für Agglomeratives Clustering auf den gegebenen Daten
d) Sie implementieren die folgenden Clustering-Algorithmen. Sie haben fit(X_train) bereits implementiert und die Cluster bestimmt, jetzt implementieren sie predict(X_test). Beschreiben sie die Schritte, die sie jeweils einen Datenpunkt aus X_test ein Label zuordnen. Sie dürfen die Cluster aus dem Training nicht verändern.
    1) k-Means
    2) Agglomeratives Clustering
    3) DBSCAN

= Note (Optional)
Steht noch aus
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr faire Prüfung, nach Übungen und Fragenkatalog konnte man gut abschätzen, was circa in der Prüfung dran kommen wird und wie es geprüft wird.

Nr.PrüferFach
1007 Schäfer, Patrick Dr. Data Science mit Python

Datei (Zugriff nur aus dem HU-Netz, zB per eduroam oder HU-VPN):

DataScience.pdf

Nr.PrüferFach
1043 Schäfer, Patrick Dr. Angewandtes Maschinelles Lernen

Protokoll

= Datum der Prüfung: 23.07.2025

= Benötigte Lernzeit als Empfehlung: 3 Tage intensiv wiederholen (wenn man im Semester immer gut dabei war)

= Verwendete Materialien (Bücher, Skripte etc...): Folien, Videoaufzeichnungen, Bonusblätter

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer: entspannt, am Anfang wurde die Klausur kurz durchgegangen und man hatte einen Eindruck, wie lang die Antwort auf jede Frage ausfallen sollte

= Prüfungsfragen

1. Lineare Algebra
- Dimension des Ergebnisses zu verschiedenen Ausdrücken (z. B. XX^T) angeben
- Summen vektorisieren (kein Python-Code, sondern als mathematischer Ausdruck)

2. Alien-Stimmungsanalyse
Gegeben war ein Datensatz von Sätzen in Alien-Sprache (bestehend aus 2 Wörtern verschieden angeordnet) und jeweils dazu eine Stimmung (glücklich/traurig)
- Wie kann man solche Sätze als Vektoren angeben? (eine beliebeige Methode nennen)
- Datensatz in Diagramm einzeichnen (z. B. x1/x2 jeweils als Häufigkeit der beiden Worte je Satz interpretieren)
- Gewichte für Entscheidungsgrenze mit minimalen Trainingsfehler nennen
-> Datensatz bildet XOR-Problem ab!
- diese Entscheidungsgrenze einzeichnen
- Zwei Klassifikatoren nennen, die den Datensatz mit 0% Trainingsfehler separieren können
- Datensatz transformieren -> Transformation angeben, sodass der Datensatz linear separierbar wird
- Entscheidungsgrenze für transformierten Datensatz benennen

3. Perceptron
- Perceptron-Algorithmus für Datensatz berechnen (analog zur Übungsaufgabe)
- Was bedeutet es, wenn ein Datensatz linear separierbar ist?
- Wie kann man das Vanishing Gradients Problem für CNNs und RNNs beheben? (jeweils Stichwort nennen)
- MLP mit zwei Hidden Layers und jeweils linearerer Aktivierung gegeben. Es war zu zeigen, dass dieses Netz auch mit einem einzigen Neuron dargestellt werden kann, dazu sollte die entsprechende Gewichtsmatrix W' und der Bias b' angegeben werden.
- Zeichnen Sie dieses Netz

4. Künstliche Neuronale Netze
- Stellen Sie ein FCN mit einem Hidden Layer auf, dass bestimmt, ob eine Eingabe aus vier Zahlen aufsteigend sortiert ist (analog zur Übungsaufgabe)
- Binäre Addition mit RNN: Gewichtsmatrizen aufstellen und benennen, was jede Hidden Unit tut (1:1 aus den Übungen)

= Note (Optional) 1,X (Durchschnitt: 2,92)

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...): Gute Prüfung, zeitlich gut machbar und einige Aufgaben mit nur geringen Abweichungen aus den Übungen übernommen, man durfte einen handschriftlichen Spickzettel mitnehmen, Benotung kam sehr schnell