Prüfungsprotokolle lesen
Protokolle (6 gefunden)
Nr. | Prüfer | Fach |
933 | Schäfer, Patrick Dr. | Angewandtes Maschinelles Lernen |
Protokoll
= Datum der Prüfung 19.8.2020 = Benötigte Lernzeit als Empfehlunng ~ 20 Stunden Der 33-Seiten lange Fragenkatalog ist etwas happig, wer sich alle Videos nochmal angucken möchte, weil er die Vorlesung gar nicht verfolgt hat, braucht natürlich länger = Verwendete Materialien Vorlesungsvideos/Folien, Fragenkatalog = "Atmosphäre" der Prüfung / Verhalten der Beisitzer Entspannt, Fragen werden auch tatsächlich hilfreich beantwortet = Prüfungsfragen 1. Bias/Variance ------------------- a) Skizzieren sie die Auswirkung von Modelkomplexität auf Variance, Bias, Trainingsfehler, Testfehler und erklären sie den Kurvenverlauf. b)Was ist Bagging, Boosting, Stacking? parallel oder sequentiell? Wie werden die Ergebnisse kombiniert? Wie wirken sie sich auf Bias, Variance aus? c)Welche Ensemble Methode würde man für decision trees, lineare Regression auswählen? 2. K-Nearest Neighbour ------------------- 5 Punkte gegeben mit Label Y a)Berechnen sie für einen neuen Punkt den euklidischen Abstand zu allen Punkten. b)Welches Label bekommt der neue Punkt basierend auf 1-NN, 3-NN ? c)Erklären sie kurz den K-NN Algorithmus, wie wird das optimale k ausgewählt? d)Es gibt 2 Modelle, einmal logistische Regression mit 30% Trainingsfehler und 20% Testfehler sowie ein 1-NN Modell mit einem durchschnittlichen Fehler von 18%(Trainings-und Testfehler) auf einem Datenset, welches mehrfach zufällig in Test- und Trainingsdaten unterteilt wurde. Welches Modell würden sie wählen und warum? 3. Decision Boundary ------------------- Hyperplane gegeben mit w = (-1,1,2) und Hw(x)= 0 a)Berechnen und skizzieren sie die Steigungsgerade der Form x2 = y = a*x1 + b Kennzeichnen sie den x1 und x2 Achsenabschnitt. b)Berechnen und skizzieren die Hw(x) = 1 und Hw(x) = -1 c)Berechnen sie die Margin d)Auswahl von geeigneten Modellen Gegeben sind die mögliche Modelle SVM with quadratic kernel, logistische Regression, 1-NN und decision trees Auf der linken Seite ein Modell angeben, was einen Trainingsfehler von 0% erreicht, Erklärung warum. Auf der rechten Seite ein Modell angeben, was sich nicht gut eignet/ keinen Trainingsfehler von 0% erreicht, Erklärung warum. (Antwort kann auch mehrere oder keine sein) ++ -- ++ | ++ -- ++ ++ -- ++ | ++ -- ++ ++ -- ++ | ++ -- ++ ++ -- ++ | ++ -- ++ -------------------------------- +++ +++ | +++ +++ +++ +++ | +++ +++ | +++ --- | +++ --- +++ --- | +++ --- 4. Multi-Class Logistische Regression ------------------- 6 Punkte(x1,x2) gegeben, mit Label y = {1,2,3} Gegeben sind w1 = (1,1,2) w2 = (0,-3,2) w3 = (1,1,-4) a)Für alle 6 Punkte, was sind die vorhergesagten label y'? b)Berechnen sie den Fehler. c)Was ist der Unterschied zwischen batch Gradientenabstieg und Stochastischen Gradientenabstieg? Was sind Vor- und Nachteile(auch im Verhältnis zu normalen Gradientenabstieg)? d)Welche Auswirkung hat die Lernrate beim Gradientenabstieg auf den Loss? 5. Lasso/Ridge Regression ------------------- Lasso Regression wird über L1-Norm definiert, Ridge Regression über L2-Norm a) Skizzieren sie die Auswirkung auf Gewichtsvektor w ( Plot gegeben mit x = w1 und y = w2) b) Warum gibt es bei Lasso Regression mehr Einträge wi = 0 ? Spam Detection Spam + not Span- predictec class + - actual+ | 8 | 2 | class ---------- - | 40 |950| a) Berechne Precision, Recall, F1 Score b) Wie wirkt sich ein größeres oder kleines epsilon auf precision und recall aus? 6. Neural Networks ------------------- Gegeben Network mit 2 layern Basierend auf Input (0,0),(0,1),(1,0),(1,1) Weighted Sum und Activation für a1(L2), a2(L2) und a1(L3) berechnen. Welcher logischer operator wird damit repräsentiert? Wie muss man die Gewichte ändern, damit daraus XNOR wird? = Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...) Vorbereitung war wegen des vielen Materials stressiger als die Prüfung selbst, Benotung kenne ich noch nicht.
Nr. | Prüfer | Fach |
951 | Schäfer, Patrick Dr. | Data Warehousing und Data Mining |
Protokoll
= Datum der Prüfung 2.3.21 = Benötigte Lernzeit als Empfehlung 2 Wochen = Verwendete Materialien (Bücher, Skripte etc...) Nur sein Skript = "Atmosphäre" der Prüfung / Verhalten der Beisitzer Es war eine Take-Home Klausur, welche wir per Moodle dann eingereicht haben. Wahrscheinlich wird diese die Probeklausur vom nächsten Jahr. = Prüfungsfragen Aufgabe 1: MDDM - ROLAP Welche logische Beziehung besteht in Starschema zwischen: a) Fakten und Dimension b) Dimensionen Wie moddeliert man eine N:M Beziehung. Eine Rechenaufgabe zu Datenmodellen mit Fakten, Dimensionen und Attributen. Aufgabe 2: Physische Optimierung Gegeben war eine Tabelle mit einer SQL Anfrage: SELECT shop, prod, tag, avg(preis) FROM tabelle GROUP BY ROLLUP(shop, prod, tag) Wie kann diese Anfrage möglichst schnell beantwortet werden wenn: a) Unsortierte Tabelle b) Sortiert nach Rollup Attributen Aufgabe 3: SQL - OLAP Gegeben war eine Tabelle mit 3 Spalten (Produkt, Farbe, Anzahl). Wir sollten 3 SQL Statements schreiben die angegebene Ergebnisse erzeugen. a) Stuhl | NULL | 176 Tisch | NULL | 1234 NULL | Grün | 54 NULL | Gelb | 436 NULL | NULL | 2354 b) Stuhl | Grün | 34 Stuhl | Gelb | 54 Stuhl | NULL | 88 Tisch | Grün | 425 Tisch | NULL | 425 NULL | NULL | 513 c) Eine neue Tabelle mit (ID, Gehalt) und eine geforderte Tabelle mit dem Header: ID | Gehalt | Rang | Rang 2 | Gesamt | Gesamt 2 Rang (normale und dense), Gesamt: kommulierte Summe (je nach Rang), Summe der Gehälter selben Rangs. Aufgabe 4: Aggregation und CUBE a-d) Gegeben waren solgende Aggrgationen: Mathematisches Produkt, Mittelwert, Modus Frage: Angeben von der Anzahl der Zwischenergebnissen, ob es Holistisch/Distributiv/Algebraisch ist & Inkrementelle Berechnung. d) Gegeben: Würfel mit 3 Dimensionen (Zellenanzahl von 1 Mio, 100, 1000) 1. Zeichnen des Würfels mit Aggregationsgitter 2. Eine Zelle speichert ein Measure mit 4 Bytes. Was ist die Gesamtzahl an Bytes des CUBES? 3. Berechnen der minimalen Menge an Hauptspeicher. (2-D Würfel wird mit Multi Way Array Aggregation berechnet) Aufgabe 5: Apriori Algorithmus Wie die Aufgabe aus der Vorlesung nur mit anderen Zahlen. 1. Support und Konfidenz zu gegebenen Assoziationsregeln angeben 2. Apriori Algorithmus durchführen Aufgabe 6: Algorithmisches Clustering Wir hatten eine Grafik mit einem Gitter und Punkte drin. 1. Berechnen der Manhattan Distanz 2. Dendrogramm angeben 3. Es wurden Cluster angegeben und wir sollten sagen, ob diese mittels Aglomerativen Clustering mit Single Linkage entstanden sind. = Note (Optional) 1.3 = Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...) Sehr ungewohnt diese Art von Klausur. Man konnte auch die ganze Zeit parallel dazu in Zoom Fragen stellen bei einer unklaren Aufgabenstellung. Die Benotung war sehr großzügig und der Schnitt lag auch bei ca. 2,3. Da es eine Take Home Klausur war, wurde der Fokus mehr auf Rechenaufgaben gesetzt und nicht auf Wissenabfragen.
Nr. | Prüfer | Fach |
993 | Schäfer, Patrick Dr. | Angewandtes Maschinelles Lernen |
Protokoll
= Datum der Prüfung: 02.08.2022 = Benötigte Lernzeit als Empfehlung: siehe altes Protokoll = Verwendete Materialien (Bücher, Skripte etc...): Videoaufzeichnungen, Bonusblätter, Fragenkatalog = "Atmosphäre" der Prüfung / Verhalten der Beisitzer: ganz normal = Prüfungsfragen Es gab 4 Aufgaben a 25 Punkten. Das Protokoll wird sehr ungenau, da ich mich an genaue Zahlen und Angaben nicht erinnern kann :´D 1. gegeben: 5 verschiedene Ausdrücke, wie zb XX^T x aus R gesucht: Dimension des Ergebnisses 2. Cross Validation Welche classifier sind am besten geeignet und wieso? Errechnung von TP TN FP, Genauigkeit und co. 3. Lineare Separierbarkeit: geg.: Datensatz, welchen man plotten soll ges.: Welche classifier können mit Fehler 0% separieren, welche nicht? 4. Neuronale Netze: Errechnung der Ausgabe werte. Welche logische Funktion wird dargestellt? Wie müssen Kantengewichte geändert werden, damit XNOR entsteht? = Note (Optional) = Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...): Die erste Aufgabe war etwas verwirrend, die wenigsten haben wahrscheinlich mit so einer Aufgabenstellung gerechnet. Die zweite Aufgabe war laut Dr. Schäfer eine Transferaufgabe aus der Übung. Also geschenkte Punkte, wenn man so will. Die dritte und vierte Aufgabe warn auch in Ordnung, in der Regel gab es keine Teilaufgaben von 2,3 und 4, die mich sehr überrascht haben. Im Allgemeinen finde ich, dass die Prüfung fair war. Wenn man sich gut vorbereitet, sollte nicht viel schieflaufen...
Nr. | Prüfer | Fach |
1001 | Schäfer, Patrick Dr. | Data Science mit Python |
Protokoll
= Datum der Prüfung 27.02.2023 = Benötigte Lernzeit als Empfehlung Wenn man in der Vorlesung gut mitgedacht hat und die Übungsaufgaben alle gemacht: 2-3 Tage = Verwendete Materialien (Bücher, Skripte etc...) Vorlesungsfolien, Übungsblätter, Verlinke Cheat-Sheets = "Atmosphäre" der Prüfung / Verhalten der Beisitzer Sehr entspannt, Prüfer waren ansprechbar bei Problemen, viele schon deutlich vor Prüfungsende fertig = Prüfungsfragen Jede Aufgabe gab 25 Punkte => Insgesamt 100 Punkte für 120 Minuten Aufgabe 1: Gegeben war eine Tabelle mit den Gästen eines Kreuzfahrtschiffs in den folgenden Spalten: - Name: String - Initial: Miss, Mr, Mrs, Master - Sex: male, female - Age: Als Float, manche Einträge waren NaN - Pclass: 1, 2, 3 - Fare: Als Integer - Embarked: C, Q, S, manche NaN a) Sie wollen die Daten vizualisieren. Nennen Sie für jede der folgenden Arten je 1 Plot aus der Vorlesung, welche Spalten sie plotten und welchen Typ die Spalten haben (numerisch oder kategorisch): - Relationship - Comparison - Distribution - Composition b) Geben Sie einen Pandas-Ausdruck an, mit dem die Initialien nach Geschlecht gezählt werden. Die Ausgabe soll genau so aussehen: | Initial | Master | Miss | Mr | Mrs | | Sex | | | female | 0 | 4 | 0 | 6 | | male | 1 | 0 | 10 | 0 | c) Geben Sie einen Pandas-Ausdruck an, mit dem die Spalte Fare normiert und in der dargestellte Reihenfolge ausgeben wird: | | Fare | | 15 | 0 | | 14 | 0 | | 18 | 0.001 | | ... | | 3 | 1 | d) Geben Sie einen Pandas-Ausdruck an, der den Mittelwert über das Alter nach Initialien gruppiert berechnet. Ausgabe wie: | Initial | Master | Miss | Mr | Mrs | | Age | 2 | 33 | 27.1 | 25 | Aufgabe 2: a) Gegeben waren 2 Zeitreihen P und Q. 1) Berechnen Sie die Kostenmatrix für Dynamic Time Warping 2) Geben sie den Optimalen Pfad und die Gesamtkosten dieses Pfads an b) Gegeben 10 Objekte mit Labels {+, -} + + - - - + + + - - 1) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 1-NN 2) Berechnen Sie den Validierungsfehler bei Leave-One-Out-Cross-Validation für 3-NN 3) Warum wird CV verwendet um den Parameter k zu lernen? Aufgabe 3: a) Gegeben war eine Liste mit dem Alter von 25 Kinogänger*innen, aufsteigend sortiert 1) Berechnen Sie die Bins für ein Equal-Width-Histogramm mit b=4 2) Zeichnen sie das Histogram b) Welches Verfahren würden Sie für die Bestimmen einer Wahrscheinlichkeitsdichte (probability density) verwenden und warum? c) 1) Q1, Median, Q3, IQR berechnen 2) Extremwerte nach IQR-Methode bestimmen und benennen 3) Boxplot zeichnen Aufgabe 4: Gegeben war ein Datensatz mit Punkten mit je x, y-Koordinate (in einem Koordinaten-System eingezeichnet, jeder Punkt hatte 1 Buchstaben) a) Geben Sie die Formel für Complete Linkage zwischen 2 Clustern an b) Berechnen Sie den Abstand mittels Complete Linkage zwischen den Clustern C = {'A', 'B', 'C', 'D'} und C' = {'E'} c) Zeichnen Sie das Dendrogramm für Agglomeratives Clustering auf den gegebenen Daten d) Sie implementieren die folgenden Clustering-Algorithmen. Sie haben fit(X_train) bereits implementiert und die Cluster bestimmt, jetzt implementieren sie predict(X_test). Beschreiben sie die Schritte, die sie jeweils einen Datenpunkt aus X_test ein Label zuordnen. Sie dürfen die Cluster aus dem Training nicht verändern. 1) k-Means 2) Agglomeratives Clustering 3) DBSCAN = Note (Optional) Steht noch aus = Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...) Sehr faire Prüfung, nach Übungen und Fragenkatalog konnte man gut abschätzen, was circa in der Prüfung dran kommen wird und wie es geprüft wird.
Nr. | Prüfer | Fach |
1007 | Schäfer, Patrick Dr. | Data Science mit Python |
Datei (Zugriff nur aus dem HU-Netz, zB per eduroam oder HU-VPN):
Nr. | Prüfer | Fach |
1043 | Schäfer, Patrick Dr. | Angewandtes Maschinelles Lernen |
Protokoll
= Datum der Prüfung: 23.07.2025 = Benötigte Lernzeit als Empfehlung: 3 Tage intensiv wiederholen (wenn man im Semester immer gut dabei war) = Verwendete Materialien (Bücher, Skripte etc...): Folien, Videoaufzeichnungen, Bonusblätter = "Atmosphäre" der Prüfung / Verhalten der Beisitzer: entspannt, am Anfang wurde die Klausur kurz durchgegangen und man hatte einen Eindruck, wie lang die Antwort auf jede Frage ausfallen sollte = Prüfungsfragen 1. Lineare Algebra - Dimension des Ergebnisses zu verschiedenen Ausdrücken (z. B. XX^T) angeben - Summen vektorisieren (kein Python-Code, sondern als mathematischer Ausdruck) 2. Alien-Stimmungsanalyse Gegeben war ein Datensatz von Sätzen in Alien-Sprache (bestehend aus 2 Wörtern verschieden angeordnet) und jeweils dazu eine Stimmung (glücklich/traurig) - Wie kann man solche Sätze als Vektoren angeben? (eine beliebeige Methode nennen) - Datensatz in Diagramm einzeichnen (z. B. x1/x2 jeweils als Häufigkeit der beiden Worte je Satz interpretieren) - Gewichte für Entscheidungsgrenze mit minimalen Trainingsfehler nennen -> Datensatz bildet XOR-Problem ab! - diese Entscheidungsgrenze einzeichnen - Zwei Klassifikatoren nennen, die den Datensatz mit 0% Trainingsfehler separieren können - Datensatz transformieren -> Transformation angeben, sodass der Datensatz linear separierbar wird - Entscheidungsgrenze für transformierten Datensatz benennen 3. Perceptron - Perceptron-Algorithmus für Datensatz berechnen (analog zur Übungsaufgabe) - Was bedeutet es, wenn ein Datensatz linear separierbar ist? - Wie kann man das Vanishing Gradients Problem für CNNs und RNNs beheben? (jeweils Stichwort nennen) - MLP mit zwei Hidden Layers und jeweils linearerer Aktivierung gegeben. Es war zu zeigen, dass dieses Netz auch mit einem einzigen Neuron dargestellt werden kann, dazu sollte die entsprechende Gewichtsmatrix W' und der Bias b' angegeben werden. - Zeichnen Sie dieses Netz 4. Künstliche Neuronale Netze - Stellen Sie ein FCN mit einem Hidden Layer auf, dass bestimmt, ob eine Eingabe aus vier Zahlen aufsteigend sortiert ist (analog zur Übungsaufgabe) - Binäre Addition mit RNN: Gewichtsmatrizen aufstellen und benennen, was jede Hidden Unit tut (1:1 aus den Übungen) = Note (Optional) 1,X (Durchschnitt: 2,92) = Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...): Gute Prüfung, zeitlich gut machbar und einige Aufgaben mit nur geringen Abweichungen aus den Übungen übernommen, man durfte einen handschriftlichen Spickzettel mitnehmen, Benotung kam sehr schnell