Prüfungsprotokolle

Prüfungsprotokolle lesen

Prüfer:

Fach:

Protokolle (3 gefunden)

Nr.	Prüfer	Fach
1001	Schäfer, Patrick Dr.	Data Science mit Python

Protokoll

= Datum der Prüfung
27.02.2023
= Benötigte Lernzeit als Empfehlung
Wenn man in der Vorlesung gut mitgedacht hat und die Übungsaufgaben alle gemacht: 2-3 Tage
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien, Übungsblätter, Verlinke Cheat-Sheets
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Sehr entspannt, Prüfer waren ansprechbar bei Problemen, viele schon deutlich vor Prüfungsende fertig
= Prüfungsfragen

Jede Aufgabe gab 25 Punkte => Insgesamt 100 Punkte für 120 Minuten

Aufgabe 1: 

Gegeben war eine Tabelle mit den Gästen eines Kreuzfahrtschiffs in den folgenden Spalten:
- Name: String
- Initial: Miss, Mr, Mrs, Master
- Sex: male, female
- Age: Als Float, manche Einträge waren NaN
- Pclass: 1, 2, 3
- Fare: Als Integer
- Embarked: C, Q, S, manche NaN

a) Sie wollen die Daten vizualisieren. Nennen Sie für jede der folgenden Arten je 1 Plot aus der Vorlesung, welche Spalten sie plotten und welchen Typ die Spalten haben (numerisch oder kategorisch):
- Relationship
- Comparison
- Distribution
- Composition

b) Geben Sie einen Pandas-Ausdruck an, mit dem die Initialien nach Geschlecht gezählt werden. Die Ausgabe soll genau so aussehen:

| Initial | Master | Miss | Mr | Mrs |
| Sex     |                          |
| female  | 0      | 4    | 0  | 6   |
| male    | 1      | 0    | 10 | 0   |

c) Geben Sie einen Pandas-Ausdruck an, mit dem die Spalte Fare normiert und in der dargestellte Reihenfolge ausgeben wird:

|    | Fare  |
| 15 | 0     |
| 14 | 0     |
| 18 | 0.001 |
|     ...    |
| 3  | 1     |

d) Geben Sie einen Pandas-Ausdruck an, der den Mittelwert über das Alter nach Initialien gruppiert berechnet. Ausgabe wie:

| Initial | Master | Miss | Mr   | Mrs |
| Age     | 2      | 33   | 27.1 | 25  |

Aufgabe 2:
a) Gegeben waren 2 Zeitreihen P und Q.
    1) Berechnen Sie die Kostenmatrix für Dynamic Time Warping
    2) Geben sie den Optimalen Pfad und die Gesamtkosten dieses Pfads an
b) Gegeben 10 Objekte mit Labels {+, -}
    +   +   -   -
    -       +
    +   +   -   -
    1) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 1-NN
    2) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 3-NN
    3) Warum wird CV verwendet um den Parameter k zu lernen?

Aufgabe 3:
a) Gegeben war eine Liste mit dem Alter von 25 Kinogänger*innen, aufsteigend sortiert
    1) Berechnen Sie die Bins für ein Equal-Width-Histogramm mit b=4
    2) Zeichnen sie das Histogram
b) Welches Verfahren würden Sie für die Bestimmen einer Wahrscheinlichkeitsdichte (probability density) verwenden und warum?
c) 1) Q1, Median, Q3, IQR berechnen
   2) Extremwerte nach IQR-Methode bestimmen und benennen
   3) Boxplot zeichnen

Aufgabe 4:
Gegeben war ein Datensatz mit Punkten mit je x, y-Koordinate (in einem Koordinaten-System eingezeichnet, jeder Punkt hatte 1 Buchstaben)
a) Geben Sie die Formel für Complete Linkage zwischen 2 Clustern an
b) Berechnen Sie den Abstand mittels Complete Linkage zwischen den Clustern C = {'A', 'B', 'C', 'D'} und C' = {'E'}
c) Zeichnen Sie das Dendrogramm für Agglomeratives Clustering auf den gegebenen Daten
d) Sie implementieren die folgenden Clustering-Algorithmen. Sie haben fit(X_train) bereits implementiert und die Cluster bestimmt, jetzt implementieren sie predict(X_test). Beschreiben sie die Schritte, die sie jeweils einen Datenpunkt aus X_test ein Label zuordnen. Sie dürfen die Cluster aus dem Training nicht verändern.
    1) k-Means
    2) Agglomeratives Clustering
    3) DBSCAN

= Note (Optional)
Steht noch aus
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr faire Prüfung, nach Übungen und Fragenkatalog konnte man gut abschätzen, was circa in der Prüfung dran kommen wird und wie es geprüft wird.

Nr.	Prüfer	Fach
1007	Schäfer, Patrick Dr.	Data Science mit Python

Datei (Zugriff nur aus dem HU-Netz, zB per eduroam oder HU-VPN):

DataScience.pdf

Nr.	Prüfer	Fach
1061	Schäfer, Patrick Dr.	Data Science mit Python

Protokoll

= Datum der Prüfung
2026-02-26

= Benötigte Lernzeit als Empfehlung
>=2 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
Das einzige alte Proto (welches besser ist als das hier), Die Testfragen, Folien, LLMs

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Gut

= Prüfungsfragen
1) Pandas + Visualisierung
Id,Name,Initial,Sex,Age,Pclass,Fare,Embarked
0,Icard Amelie,Miss,f,38.0,1,80.0000,NaN
1,Moran James,Mr,m,NaN,3,8.4583,Q
2,…,Mrs,f,35.0,1,53.1000,S
3,…,Mr,m,36.0,1,512.3292,C
4,…,Miss,f,35.0,1,512.3292,C
5,…,Mrs,f,NaN,3,7.8792,Q
6,…,Mrs,f,62.0,1,80.0000,NaN
7,…,Mr,m,35.0,3,8.0500,S
8,…,Miss,f,26.0,3,7.9250,S
9,…,Master,m,2.0,3,7.9250,S

a) Plots skizzieren (nur grob, nicht maßgetreu) mit folgenden Werten und die gewählte Plot Art benennen:
Age, Fare: Relationship
Embarked: Comparison
Age: Distribution
Initial, Pclass: Composition

b) Pandas Ausdruck formulieren, der Initialien nach Geschlecht ausgibt. Gewünschtes Ergebniss:
Initial  Master  Miss  Mr  Mrs
Sex
f             0     3   0    3
m             1     0   3    0

c) Pandas Ausdruck formulieren, der Fare normiert (prozentual) ausgibt und in Reihenfolge ausgibt.
3    100.000000
4    100.000000
6     15.614960
0     15.614960
2     10.364430
1      1.650950
7      1.571255
8      1.546857
9      1.546857
5      1.537917

d) Pandas Ausdruck formulieren, der Mittelwert von Alter nach Initial berechnet. NaN sollen nicht ausgewertet werden.
Initial
Master     2.0
Miss      33.0
Mr        35.5
Mrs       48.5


2) Zeitreihen
a) Literally in 9 Zeitreihen je die Anomalie annotieren, lol.

b) Welche zwei Arten von Anomalien in Zeitreihen wurden in der Vorlesung kennen gelernt? Beschreiben Sie diese.

c) Skizzieren sie eine Pipeline mit mindestens drei Schritten zur Detektion von Anomalien mit gegebenen Train + Testdaten.
Zeichnen Sie die Schritte als Diagramm und geben Sie für jeden Schritt zwei Verfahren aus der VL an. Hinweis: Der erste Schritt ist "Period Detection + Window Size".

d) Skizzieren sie ein regressionsbasiertes Verfahren zur Anomaliedetektion einer Zeitreihe aus der VL.
Erläutern Sie, wie trainiert wird und wie auf Basis der Vorhersage eine Anomalie erkannt wird.


3) Statistik und anderes
a) Q1, Q2(aka Median), Q3 und IQR berechnen.

b) Boxplot zu Werten berechnen in a).

c) Geben Sie die Formel für die Z-Score-Standartisierung über eine Variable X an.

d) Multiple Choice Fragen:
    Munging
    (Un-)Supervised Learning
    Groupby
    transform() vs agg()
    np.pivot() vs. pivot_table()
    pd.crosstab()
    "Beim Plotten, wie müssen die Daten formatiert sein, um mit Spalten mit z.B. 'hue' und 'col' zu arbeiten"?


4) DBSCAN

fig 1)

🡑
| 11            A
| 10         A  A  A     x
|  9         A                    x
|  8
|  7
|  6                              B
|  5                           B  B  B
|  4         x                 B  B  B
|  3                              B
|  2   C  C
|  1   C  C
|
|  0   1  2  3  4  5  6  7  8  9 10 11
|-------------------------------------->

(Punkte A, B, C waren jeweils umkreist (es waren Cluster), x waren Punkte die kein Teil von keinem Cluster sind)

fig 2)
11            I
10         G  H  J     K
 9         F                    L
 8
 7
 6                              M
 5                           N  O  P
 4         E                 Q  R  S
 3                              T
 2   C  D
 1   A  B

 0   1  2  3  4  5  6  7  8  9 10 11

a) Definieren Sie: e-Nachbarn, Kernpunkte, Randpunkte, Rauschen.

b) Zu dem Clustering in fig. 1 e-Parameter und numPts raten (mit Begründung).

c) Auf fig. 2 DBSCAN durchführen (einfach die resultierenden Clusterings durch Umkreisen markieren) mit verschiedenen Werten für e, minPts:
      e, minPts
i)    1, 2
ii)   1, 4
iii)  2, 1
iv)   4, 4
(Es waren vier identische Kopien von fig. 2 gegeben zum Eintragen)

= Note (Optional)
2.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
War okay, war meine letzte Prüfung 😸