Prüfungsprotokolle

Prüfungsprotokolle lesen

Prüfer:

Fach:

Protokolle (7 gefunden)

Nr.	Prüfer	Fach
933	Schäfer, Patrick Dr.	Angewandtes Maschinelles Lernen

Protokoll

= Datum der Prüfung                             19.8.2020

= Benötigte Lernzeit als Empfehlunng            ~ 20 Stunden
Der 33-Seiten lange Fragenkatalog ist etwas happig, wer sich alle Videos nochmal angucken
möchte, weil er die Vorlesung gar nicht verfolgt hat, braucht natürlich länger

= Verwendete Materialien                        Vorlesungsvideos/Folien, Fragenkatalog

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Entspannt, Fragen werden auch tatsächlich hilfreich beantwortet

= Prüfungsfragen

1. Bias/Variance
-------------------
a) Skizzieren sie die Auswirkung von Modelkomplexität
auf Variance, Bias, Trainingsfehler, Testfehler und erklären sie den Kurvenverlauf.

b)Was ist Bagging, Boosting, Stacking? parallel oder sequentiell? Wie werden die Ergebnisse kombiniert?
Wie wirken sie sich auf Bias, Variance aus?

c)Welche Ensemble Methode würde man für decision trees, lineare Regression auswählen?

2. K-Nearest Neighbour
-------------------
5 Punkte gegeben mit Label Y
a)Berechnen sie für einen neuen Punkt den euklidischen Abstand zu allen Punkten.
b)Welches Label bekommt der neue Punkt basierend auf 1-NN, 3-NN ?

c)Erklären sie kurz den K-NN Algorithmus, wie wird das optimale k ausgewählt? 

d)Es gibt 2 Modelle, einmal logistische Regression mit 30% Trainingsfehler und 20% Testfehler
sowie ein 1-NN Modell mit einem durchschnittlichen Fehler von 18%(Trainings-und Testfehler)
auf einem Datenset, welches mehrfach zufällig in Test- und Trainingsdaten unterteilt wurde.
Welches Modell würden sie wählen und warum?

3. Decision Boundary
-------------------
Hyperplane gegeben mit w = (-1,1,2) und Hw(x)= 0
a)Berechnen und skizzieren sie die Steigungsgerade der Form x2 = y = a*x1 + b
Kennzeichnen sie den x1 und x2 Achsenabschnitt.

b)Berechnen und skizzieren die Hw(x) = 1 und Hw(x) = -1
c)Berechnen sie die Margin


d)Auswahl von geeigneten Modellen

Gegeben sind die mögliche Modelle 
SVM with quadratic kernel, logistische Regression, 1-NN und decision trees
Auf der linken Seite ein Modell angeben, was einen Trainingsfehler von 0% erreicht, Erklärung warum.
Auf der rechten Seite ein Modell angeben,  was sich nicht gut eignet/ keinen Trainingsfehler von 0% erreicht, Erklärung warum.
(Antwort kann auch mehrere oder keine sein)

++  --  ++    |    ++  --  ++
++  --  ++    |    ++  --  ++
++  --  ++    |    ++  --  ++
++  --  ++    |    ++  --  ++

--------------------------------

+++   +++     |   +++   +++
+++   +++     |   +++   +++
              |   
+++   ---     |   +++   ---
+++   ---     |   +++   ---



4. Multi-Class Logistische Regression
-------------------
6 Punkte(x1,x2) gegeben, mit Label y = {1,2,3}
Gegeben sind w1 = (1,1,2)   w2 = (0,-3,2)   w3 = (1,1,-4)
a)Für alle 6 Punkte, was sind die vorhergesagten label y'?
b)Berechnen sie den Fehler. 

c)Was ist der Unterschied zwischen batch Gradientenabstieg und Stochastischen Gradientenabstieg?
Was sind Vor- und Nachteile(auch im Verhältnis zu normalen Gradientenabstieg)?

d)Welche Auswirkung hat die Lernrate beim Gradientenabstieg auf den Loss?



5. Lasso/Ridge Regression
-------------------
Lasso Regression wird über L1-Norm definiert, Ridge Regression über L2-Norm
a) Skizzieren sie die Auswirkung auf Gewichtsvektor w ( Plot gegeben mit x = w1 und y = w2)
b) Warum gibt es bei Lasso Regression mehr Einträge wi = 0 ?



Spam Detection

Spam	+
not Span-
	predictec class
	  +    -
actual+	| 8  | 2 |
class	----------
      -	| 40 |950|
a) Berechne Precision, Recall, F1 Score
b) Wie wirkt sich ein größeres oder kleines epsilon auf precision und recall aus?



6. Neural Networks
-------------------
Gegeben Network mit 2 layern
Basierend auf Input (0,0),(0,1),(1,0),(1,1) Weighted Sum und Activation für a1(L2), a2(L2) und a1(L3) berechnen.
Welcher logischer operator wird damit repräsentiert?
Wie muss man die Gewichte ändern, damit daraus XNOR wird?




= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Vorbereitung war wegen des vielen Materials stressiger als die Prüfung selbst, Benotung kenne ich noch nicht.

Nr.	Prüfer	Fach
951	Schäfer, Patrick Dr.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
2.3.21
= Benötigte Lernzeit als Empfehlung
2 Wochen
= Verwendete Materialien (Bücher, Skripte etc...)
Nur sein Skript
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Es war eine Take-Home Klausur, welche wir per Moodle dann eingereicht haben.
Wahrscheinlich wird diese die Probeklausur vom nächsten Jahr.

= Prüfungsfragen
Aufgabe 1:
    MDDM - ROLAP
    Welche logische Beziehung besteht in Starschema zwischen:
        a) Fakten und Dimension
        b) Dimensionen
    Wie moddeliert man eine N:M Beziehung.
    Eine Rechenaufgabe zu Datenmodellen mit Fakten, Dimensionen und Attributen.

Aufgabe 2:
    Physische Optimierung
    Gegeben war eine Tabelle mit einer SQL Anfrage:
        SELECT shop, prod, tag, avg(preis)
        FROM tabelle
        GROUP BY ROLLUP(shop, prod, tag)
    Wie kann diese Anfrage möglichst schnell beantwortet werden wenn:
        a) Unsortierte Tabelle
        b) Sortiert nach Rollup Attributen

Aufgabe 3:
    SQL - OLAP
    Gegeben war eine Tabelle mit 3 Spalten (Produkt, Farbe, Anzahl). Wir sollten 3 SQL Statements schreiben die angegebene Ergebnisse erzeugen. 
    a) Stuhl | NULL | 176
       Tisch | NULL | 1234
       NULL  | Grün | 54
       NULL  | Gelb | 436
       NULL  | NULL | 2354
    
    b) Stuhl | Grün | 34
       Stuhl | Gelb | 54
       Stuhl | NULL | 88
       Tisch | Grün | 425
       Tisch | NULL | 425
       NULL  | NULL | 513

    c) Eine neue Tabelle mit (ID, Gehalt) und eine geforderte Tabelle mit dem Header:
       ID | Gehalt | Rang | Rang 2 | Gesamt | Gesamt 2

       Rang (normale und dense), Gesamt: kommulierte Summe (je nach Rang), Summe der Gehälter selben Rangs.

Aufgabe 4: Aggregation und CUBE
    a-d) Gegeben waren solgende Aggrgationen: Mathematisches Produkt, Mittelwert, Modus
         Frage: Angeben von der Anzahl der Zwischenergebnissen, ob es 
         Holistisch/Distributiv/Algebraisch ist & Inkrementelle Berechnung.

    d) Gegeben: Würfel mit 3 Dimensionen (Zellenanzahl von 1 Mio, 100, 1000)
       1. Zeichnen des Würfels mit Aggregationsgitter
       2. Eine Zelle speichert ein Measure mit 4 Bytes. Was ist die Gesamtzahl an Bytes des CUBES?
       3. Berechnen der minimalen Menge an Hauptspeicher. (2-D Würfel wird mit Multi Way Array Aggregation berechnet)

Aufgabe 5: Apriori Algorithmus
Wie die Aufgabe aus der Vorlesung nur mit anderen Zahlen.
    1. Support und Konfidenz zu gegebenen Assoziationsregeln angeben
    2. Apriori Algorithmus durchführen

Aufgabe 6: Algorithmisches Clustering

Wir hatten eine Grafik mit einem Gitter und Punkte drin.
    1. Berechnen der Manhattan Distanz
    2. Dendrogramm angeben
    3. Es wurden Cluster angegeben und wir sollten sagen, ob diese mittels Aglomerativen Clustering mit Single Linkage entstanden sind.
       
= Note (Optional)
1.3
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr ungewohnt diese Art von Klausur. Man konnte auch die ganze Zeit parallel dazu in Zoom Fragen stellen bei einer unklaren Aufgabenstellung. 
Die Benotung war sehr großzügig und der Schnitt lag auch bei ca. 2,3. 
Da es eine Take Home Klausur war, wurde der Fokus mehr auf Rechenaufgaben gesetzt und nicht auf Wissenabfragen.

Nr.	Prüfer	Fach
993	Schäfer, Patrick Dr.	Angewandtes Maschinelles Lernen

Protokoll

= Datum der Prüfung: 02.08.2022
= Benötigte Lernzeit als Empfehlung: siehe altes Protokoll
= Verwendete Materialien (Bücher, Skripte etc...): Videoaufzeichnungen, Bonusblätter, Fragenkatalog
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer: ganz normal
= Prüfungsfragen

Es gab 4 Aufgaben a 25 Punkten. Das Protokoll wird sehr ungenau, da ich mich an genaue Zahlen und Angaben nicht erinnern kann :´D

1. gegeben: 5 verschiedene Ausdrücke, wie zb XX^T x aus R
gesucht: Dimension des Ergebnisses
2. Cross Validation
Welche classifier sind am besten geeignet und wieso?
Errechnung von TP TN FP, Genauigkeit und co.
3. Lineare Separierbarkeit:
geg.: Datensatz, welchen man plotten soll
ges.: Welche classifier können mit Fehler 0% separieren, welche nicht?
4. Neuronale Netze:
Errechnung der Ausgabe werte.
Welche logische Funktion wird dargestellt?
Wie müssen Kantengewichte geändert werden, damit XNOR entsteht?

= Note (Optional)
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...): Die erste Aufgabe war etwas verwirrend, die wenigsten haben wahrscheinlich mit so einer Aufgabenstellung gerechnet. Die zweite Aufgabe war laut Dr. Schäfer eine Transferaufgabe aus der Übung. Also geschenkte Punkte, wenn man so will. Die dritte und vierte Aufgabe warn auch in Ordnung, in der Regel gab es keine Teilaufgaben von 2,3 und 4, die mich sehr überrascht haben. Im Allgemeinen finde ich, dass die Prüfung fair war. Wenn man sich gut vorbereitet, sollte nicht viel schieflaufen...

Nr.	Prüfer	Fach
1001	Schäfer, Patrick Dr.	Data Science mit Python

Protokoll

= Datum der Prüfung
27.02.2023
= Benötigte Lernzeit als Empfehlung
Wenn man in der Vorlesung gut mitgedacht hat und die Übungsaufgaben alle gemacht: 2-3 Tage
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien, Übungsblätter, Verlinke Cheat-Sheets
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Sehr entspannt, Prüfer waren ansprechbar bei Problemen, viele schon deutlich vor Prüfungsende fertig
= Prüfungsfragen

Jede Aufgabe gab 25 Punkte => Insgesamt 100 Punkte für 120 Minuten

Aufgabe 1: 

Gegeben war eine Tabelle mit den Gästen eines Kreuzfahrtschiffs in den folgenden Spalten:
- Name: String
- Initial: Miss, Mr, Mrs, Master
- Sex: male, female
- Age: Als Float, manche Einträge waren NaN
- Pclass: 1, 2, 3
- Fare: Als Integer
- Embarked: C, Q, S, manche NaN

a) Sie wollen die Daten vizualisieren. Nennen Sie für jede der folgenden Arten je 1 Plot aus der Vorlesung, welche Spalten sie plotten und welchen Typ die Spalten haben (numerisch oder kategorisch):
- Relationship
- Comparison
- Distribution
- Composition

b) Geben Sie einen Pandas-Ausdruck an, mit dem die Initialien nach Geschlecht gezählt werden. Die Ausgabe soll genau so aussehen:

| Initial | Master | Miss | Mr | Mrs |
| Sex     |                          |
| female  | 0      | 4    | 0  | 6   |
| male    | 1      | 0    | 10 | 0   |

c) Geben Sie einen Pandas-Ausdruck an, mit dem die Spalte Fare normiert und in der dargestellte Reihenfolge ausgeben wird:

|    | Fare  |
| 15 | 0     |
| 14 | 0     |
| 18 | 0.001 |
|     ...    |
| 3  | 1     |

d) Geben Sie einen Pandas-Ausdruck an, der den Mittelwert über das Alter nach Initialien gruppiert berechnet. Ausgabe wie:

| Initial | Master | Miss | Mr   | Mrs |
| Age     | 2      | 33   | 27.1 | 25  |

Aufgabe 2:
a) Gegeben waren 2 Zeitreihen P und Q.
    1) Berechnen Sie die Kostenmatrix für Dynamic Time Warping
    2) Geben sie den Optimalen Pfad und die Gesamtkosten dieses Pfads an
b) Gegeben 10 Objekte mit Labels {+, -}
    +   +   -   -
    -       +
    +   +   -   -
    1) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 1-NN
    2) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 3-NN
    3) Warum wird CV verwendet um den Parameter k zu lernen?

Aufgabe 3:
a) Gegeben war eine Liste mit dem Alter von 25 Kinogänger*innen, aufsteigend sortiert
    1) Berechnen Sie die Bins für ein Equal-Width-Histogramm mit b=4
    2) Zeichnen sie das Histogram
b) Welches Verfahren würden Sie für die Bestimmen einer Wahrscheinlichkeitsdichte (probability density) verwenden und warum?
c) 1) Q1, Median, Q3, IQR berechnen
   2) Extremwerte nach IQR-Methode bestimmen und benennen
   3) Boxplot zeichnen

Aufgabe 4:
Gegeben war ein Datensatz mit Punkten mit je x, y-Koordinate (in einem Koordinaten-System eingezeichnet, jeder Punkt hatte 1 Buchstaben)
a) Geben Sie die Formel für Complete Linkage zwischen 2 Clustern an
b) Berechnen Sie den Abstand mittels Complete Linkage zwischen den Clustern C = {'A', 'B', 'C', 'D'} und C' = {'E'}
c) Zeichnen Sie das Dendrogramm für Agglomeratives Clustering auf den gegebenen Daten
d) Sie implementieren die folgenden Clustering-Algorithmen. Sie haben fit(X_train) bereits implementiert und die Cluster bestimmt, jetzt implementieren sie predict(X_test). Beschreiben sie die Schritte, die sie jeweils einen Datenpunkt aus X_test ein Label zuordnen. Sie dürfen die Cluster aus dem Training nicht verändern.
    1) k-Means
    2) Agglomeratives Clustering
    3) DBSCAN

= Note (Optional)
Steht noch aus
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr faire Prüfung, nach Übungen und Fragenkatalog konnte man gut abschätzen, was circa in der Prüfung dran kommen wird und wie es geprüft wird.

Nr.	Prüfer	Fach
1007	Schäfer, Patrick Dr.	Data Science mit Python

Datei (Zugriff nur aus dem HU-Netz, zB per eduroam oder HU-VPN):

DataScience.pdf

Nr.	Prüfer	Fach
1043	Schäfer, Patrick Dr.	Angewandtes Maschinelles Lernen

Protokoll

= Datum der Prüfung: 23.07.2025

= Benötigte Lernzeit als Empfehlung: 3 Tage intensiv wiederholen (wenn man im Semester immer gut dabei war)

= Verwendete Materialien (Bücher, Skripte etc...): Folien, Videoaufzeichnungen, Bonusblätter

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer: entspannt, am Anfang wurde die Klausur kurz durchgegangen und man hatte einen Eindruck, wie lang die Antwort auf jede Frage ausfallen sollte

= Prüfungsfragen

1. Lineare Algebra
- Dimension des Ergebnisses zu verschiedenen Ausdrücken (z. B. XX^T) angeben
- Summen vektorisieren (kein Python-Code, sondern als mathematischer Ausdruck)

2. Alien-Stimmungsanalyse
Gegeben war ein Datensatz von Sätzen in Alien-Sprache (bestehend aus 2 Wörtern verschieden angeordnet) und jeweils dazu eine Stimmung (glücklich/traurig)
- Wie kann man solche Sätze als Vektoren angeben? (eine beliebeige Methode nennen)
- Datensatz in Diagramm einzeichnen (z. B. x1/x2 jeweils als Häufigkeit der beiden Worte je Satz interpretieren)
- Gewichte für Entscheidungsgrenze mit minimalen Trainingsfehler nennen
-> Datensatz bildet XOR-Problem ab!
- diese Entscheidungsgrenze einzeichnen
- Zwei Klassifikatoren nennen, die den Datensatz mit 0% Trainingsfehler separieren können
- Datensatz transformieren -> Transformation angeben, sodass der Datensatz linear separierbar wird
- Entscheidungsgrenze für transformierten Datensatz benennen

3. Perceptron
- Perceptron-Algorithmus für Datensatz berechnen (analog zur Übungsaufgabe)
- Was bedeutet es, wenn ein Datensatz linear separierbar ist?
- Wie kann man das Vanishing Gradients Problem für CNNs und RNNs beheben? (jeweils Stichwort nennen)
- MLP mit zwei Hidden Layers und jeweils linearerer Aktivierung gegeben. Es war zu zeigen, dass dieses Netz auch mit einem einzigen Neuron dargestellt werden kann, dazu sollte die entsprechende Gewichtsmatrix W' und der Bias b' angegeben werden.
- Zeichnen Sie dieses Netz

4. Künstliche Neuronale Netze
- Stellen Sie ein FCN mit einem Hidden Layer auf, dass bestimmt, ob eine Eingabe aus vier Zahlen aufsteigend sortiert ist (analog zur Übungsaufgabe)
- Binäre Addition mit RNN: Gewichtsmatrizen aufstellen und benennen, was jede Hidden Unit tut (1:1 aus den Übungen)

= Note (Optional) 1,X (Durchschnitt: 2,92)

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...): Gute Prüfung, zeitlich gut machbar und einige Aufgaben mit nur geringen Abweichungen aus den Übungen übernommen, man durfte einen handschriftlichen Spickzettel mitnehmen, Benotung kam sehr schnell

Nr.	Prüfer	Fach
1061	Schäfer, Patrick Dr.	Data Science mit Python

Protokoll

= Datum der Prüfung
2026-02-26

= Benötigte Lernzeit als Empfehlung
>=2 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
Das einzige alte Proto (welches besser ist als das hier), Die Testfragen, Folien, LLMs

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Gut

= Prüfungsfragen
1) Pandas + Visualisierung
Id,Name,Initial,Sex,Age,Pclass,Fare,Embarked
0,Icard Amelie,Miss,f,38.0,1,80.0000,NaN
1,Moran James,Mr,m,NaN,3,8.4583,Q
2,…,Mrs,f,35.0,1,53.1000,S
3,…,Mr,m,36.0,1,512.3292,C
4,…,Miss,f,35.0,1,512.3292,C
5,…,Mrs,f,NaN,3,7.8792,Q
6,…,Mrs,f,62.0,1,80.0000,NaN
7,…,Mr,m,35.0,3,8.0500,S
8,…,Miss,f,26.0,3,7.9250,S
9,…,Master,m,2.0,3,7.9250,S

a) Plots skizzieren (nur grob, nicht maßgetreu) mit folgenden Werten und die gewählte Plot Art benennen:
Age, Fare: Relationship
Embarked: Comparison
Age: Distribution
Initial, Pclass: Composition

b) Pandas Ausdruck formulieren, der Initialien nach Geschlecht ausgibt. Gewünschtes Ergebniss:
Initial  Master  Miss  Mr  Mrs
Sex
f             0     3   0    3
m             1     0   3    0

c) Pandas Ausdruck formulieren, der Fare normiert (prozentual) ausgibt und in Reihenfolge ausgibt.
3    100.000000
4    100.000000
6     15.614960
0     15.614960
2     10.364430
1      1.650950
7      1.571255
8      1.546857
9      1.546857
5      1.537917

d) Pandas Ausdruck formulieren, der Mittelwert von Alter nach Initial berechnet. NaN sollen nicht ausgewertet werden.
Initial
Master     2.0
Miss      33.0
Mr        35.5
Mrs       48.5


2) Zeitreihen
a) Literally in 9 Zeitreihen je die Anomalie annotieren, lol.

b) Welche zwei Arten von Anomalien in Zeitreihen wurden in der Vorlesung kennen gelernt? Beschreiben Sie diese.

c) Skizzieren sie eine Pipeline mit mindestens drei Schritten zur Detektion von Anomalien mit gegebenen Train + Testdaten.
Zeichnen Sie die Schritte als Diagramm und geben Sie für jeden Schritt zwei Verfahren aus der VL an. Hinweis: Der erste Schritt ist "Period Detection + Window Size".

d) Skizzieren sie ein regressionsbasiertes Verfahren zur Anomaliedetektion einer Zeitreihe aus der VL.
Erläutern Sie, wie trainiert wird und wie auf Basis der Vorhersage eine Anomalie erkannt wird.


3) Statistik und anderes
a) Q1, Q2(aka Median), Q3 und IQR berechnen.

b) Boxplot zu Werten berechnen in a).

c) Geben Sie die Formel für die Z-Score-Standartisierung über eine Variable X an.

d) Multiple Choice Fragen:
    Munging
    (Un-)Supervised Learning
    Groupby
    transform() vs agg()
    np.pivot() vs. pivot_table()
    pd.crosstab()
    "Beim Plotten, wie müssen die Daten formatiert sein, um mit Spalten mit z.B. 'hue' und 'col' zu arbeiten"?


4) DBSCAN

fig 1)

🡑
| 11            A
| 10         A  A  A     x
|  9         A                    x
|  8
|  7
|  6                              B
|  5                           B  B  B
|  4         x                 B  B  B
|  3                              B
|  2   C  C
|  1   C  C
|
|  0   1  2  3  4  5  6  7  8  9 10 11
|-------------------------------------->

(Punkte A, B, C waren jeweils umkreist (es waren Cluster), x waren Punkte die kein Teil von keinem Cluster sind)

fig 2)
11            I
10         G  H  J     K
 9         F                    L
 8
 7
 6                              M
 5                           N  O  P
 4         E                 Q  R  S
 3                              T
 2   C  D
 1   A  B

 0   1  2  3  4  5  6  7  8  9 10 11

a) Definieren Sie: e-Nachbarn, Kernpunkte, Randpunkte, Rauschen.

b) Zu dem Clustering in fig. 1 e-Parameter und numPts raten (mit Begründung).

c) Auf fig. 2 DBSCAN durchführen (einfach die resultierenden Clusterings durch Umkreisen markieren) mit verschiedenen Werten für e, minPts:
      e, minPts
i)    1, 2
ii)   1, 4
iii)  2, 1
iv)   4, 4
(Es waren vier identische Kopien von fig. 2 gegeben zum Eintragen)

= Note (Optional)
2.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
War okay, war meine letzte Prüfung 😸