Prüfungsprotokolle

Prüfungsprotokolle lesen

Prüfer:

Fach:

Protokolle (69 gefunden)

Nr.	Prüfer	Fach
10	Leser Prof.	Bioinformatik

Protokoll

HK Prüfung Bioinformatik, Hakenberg Beisitzer.
April 2004

Leser hat die Fragen gestellt, und versucht jedes Thema der 
Vorlesung anzureissen. Auf Lücke lernen ist eher schlecht.
Der Beisitzer hat keine Fragen gestellt.
Ganz allgemein war die Atmosphäre der Prüfung sehr ruhig und angenehm.

Thema war (etwas unausführlich, da schon einige Zeit her...)
- Z-Box
- KMP
- Sufixtrees
- Ukkonnen
- PAM

Der Algorithmische Part stand klar im Vordergrund. 
Es wurden fast keine biologischen Fragen gestellt.

Nr.	Prüfer	Fach
11	Leser Prof.	Bioinformatik

Protokoll

April 2004
lief ganz gut (1.7), war auch ne nette Atmosphäre, die
Prüfung an sich fand ich allerdings ziemlich schwer:
er wollte v.a. eine Haufen Details wissen. Themen
waren:
1.Edit-/alignmentabstand/Pfade in Dotplots:
die ganzen Definitionen, wie kann man sie ineinander
überführen, was ist end-free alignment, wozu braucht
man das (er wollte nur assembly hören, nicht erklärt
haben was das ist)
2. Dynamische Programmierung: 
Rekursionsgleichung hinschreiben, Beispieltabelle
berechnen (mit konstanten Kosten für I,R,D), optimalen
Pfad suchen, was ist das Äquivalent dazu im
Editgraphen, was gibt es für andere Möglichkeiten,
Kosten zu bewerten, wie sähe dann der optimale Pfad
aus; dann: was gibt es für Möglichkeiten, Gaps zu
bewerten, wie sieht eine lineare Gapscorefunktion
genau aus, wie berechnet man dann die Zellwerte (dazu
wollte er wieder die genaue Formel haben für E(i,j)),
wie ändert sich das bei konstanten Werten, was ist die
Komplexität, wie ist die bei beliebigen Funktionen
3. Blast: Algo erklären, Sensitivität (mit Formel),
was passiert, wenn man t ändert, wie funktioniert
Blast2, was passiert da mit der Seedlänge und warum
4. Blat: was ist der Unterschied zwisachen Blast2 und
Blat (im Algorithmus), Wahrscheinlichkeit für
perfekten Treffer und Treffer mit einem Mismatch (hat
Ähnlichkeit der Genome und Länge homologer Regionen
vorgegeben und wollte dann die Formel)
5.KMP: Algorithmus und Preprocessing erklären, dafür
wollte er keine Formeln wissen, auch nicht, wie man
die Z-Boxen berechnet
6.Suffixbäume: wie berechnet man mit Suffixbäumen den
längsten gemeinsamen Substring von A und B

Nr.	Prüfer	Fach
12	Leser Prof.	Bioinformatik

Protokoll

April 2004

Angenehme Prüfungsatmosphäre.

Fragen in etwa:

Biologisch:
- Transkiption/Translation
- Gene versus Proteine und Anzahl (=> Differtielles Splicing)

Algorithmisch:
- Boyer Moore, Good Suffix Rule, Bad Character Rule
- Z-Box mit Komplexität
- Bäume
- Aho Corasick mit Failure Links
- Initialisierung Gapped Free Alignment, und Dynamische programmierung
- KEIN Ukkonen

Nr.	Prüfer	Fach
22	Leser Prof.	MBD / Data Warehousing

Protokoll

27.Juli 2004
-----------
HK Prüfung über die beiden "Viertel" Kurse 
Molekularbiologische Datenbanken und
Data Warehousing
-----------
Die Atmosphäre der Prüfung war locker und okay.
Leser ist ruhig, und fragt eigentlich keine fiesen Fragen.
Er bohrt auch nicht notorisch nach, wenn man mal was nicht weiß.
Und Leser hat als multimediales Feature ein Set von  Blättern mit
Aufgaben (bei mir C1P Matrix, Tabelle einer Klassifikations-
hierarchie und Containment Mapping), die man
lösen muss... (In meiner Bioinformatik Prüfung war das nicht so...)
-----------
1. Frage: mit was wollen sie anfangen?
MDB
----
- Wie funktioniert das Sequenzieren im HGP?
- Wo können beim Mappen (Bac, Yac...) Fehler auftreten?
- Was ist der Minimum Tiling Path...? (Wie wird er berechnet, Superstring
  Problem???)
- Was ist C1P (Wichtig: Permutation nicht vergessen!)
- Wo können in der C1P Matrix Fehler auftreten? (Primer falsch, Proben
   docken an mehrere Clone an, und Fehler in der Sequenzierung (Chimeren
   DNA...))
- Händigt eine Matrix aus, und man soll sagen, ob die C1P ist...
   (PQ-Alg und TSP-Hamming wurde nicht gefragt...)

DWH
----
- Komponenten eines DWH?
- Top Down vs. Bottom Up Ansatz der Schemaintegration?
- Warum keine Integration aller Daten? (Zu komplex...)
- Zeigt mir einen Zettel mit einer Klassifikationshierarchie, ich
   soll die Dimensionen, Pfade etc. zeigen. Ganz unten sind noch Namen 
   von Firmen aufgemalt. Frage dazu: Was kann man damit machen? 
   Anwort: Modellierung in eigener Dimension
- Query Containment. Was ist das? (Containment Mapping...)
- Zeigt mir einen Zettel mit zwei datalog Queries von q1(..) auf q2(..), ist das 
   q1 in q2 enthalten? (Mittels Pfeilen, die die richttige Richtung haben müssen,
   dann zeigen das q1 in q2 enthalten ist). Ist sehr ähnlich zu den
   Aufgaben im Skript, also wenn man die kann ist das Lösen auch kein
   Problem...).
- Dann zeigt er mir 2 Mappings q1' und q2, und fragt ob q1' in q2 
   enthalten ist, (2 Symbole aus q1' mappen auf ein Symbol in q1), unter
   der Bedingung, daß q2 ind q1' enthalten ist. Dann die Frage, sind die beiden 
   Mappings gleich? (Unter der Set Semantik: JA, in der SQL Semantik nein,
   weil man die verschiedenen Symbole in SQL noch gleichsetzen müsste).
   Also der Mengenbegriff in der datalog Semantik ist ein andere als
   in der SQL Semantik.
------
------
Fazit: Leser ist einer der besseren Prüfer, und zu empfehlen. Das
Skript ist teilweise etwas verwirrend und unstrukturiert, aber auch hier gibt
es Skripten, die viel viel schlechter sind.
Alles in allem keinen Kopf machen, ruhig bleiben und alles wird gut..

Nr.	Prüfer	Fach
36	Leser Prof.	MBD / Data Warehousing

Protokoll

Pruefungsprotokoll zur kombinierten Halbkurspruefung der Viertelkurse
Datawarehousing und Molekularbiologische Datenbanken:

Pruefer: Prof. Dr. Ulf Leser
Beisitzer: A. Nonym
----------------------------

Die Atmosphaere war sehr locker und angenehm.
Vor der Pruefung wurde noch etwas ueber die Schule und das Nebenfach geplaudert.
Der Beisitzer hat waehrend der Pruefung nur Notizen gemacht, nichts gesagt.

1. Frage:
Womit möchten sie anfangen, Mol-DB oder  Datawarehousing? Antwort: Mol-DB

Mol-DB:
-------
- Welche Datenmodelle gibt es? (Entry-based, Relationales
  Modell (E/R), objektorientiertes Modell (UML), XML)
- Welche Moeglichkeiten gibt es ein objektorientiertes 
  Modell in ein relationales Modell zu ueberfuehren (UML -> 
  RDBMS)?
- Wie funktioniert Sequenzierung?
- Was sind die weiteren Verarbeitungsschritte? (Base 
  Calling, Assembly, Finishing)
- Was macht Assembly?

Datawarehousing:
----------------
- Was sind materialized Views?
- Was ist Query Containment? (Containment Mapping)
- Wann liegt Containment Mapping vor? 
- Er gibt mir einen Zettel mit zwei Query

Nr.	Prüfer	Fach
40	Leser Prof.	MBD / Data Warehousing

Protokoll

August 2004

Prof. Leser wirkte sehr entspannt.
Gespräch hatte erstmal gar nichts mit der Prüfung zu tun.
Aber dann

MDB-Teil:
-Welche verschiedenen Modelle gibt es für 
 molekularbiologische Datenbanken?
(Entry-Based, Relational, UML, XML)
-Was ist UML? Wie wird dieses Modell in ein relationales 
 umgesetzt?
-Wie funktioniert Sequenzierung? 
Was braucht man alles? (Sequenz,Primer,desoxy-Nucleotide,
 farblich markierte didesoxy-Nucleotide,Polymerase)
Warum bindet der Primer genau an der Stelle vor dem zu 
 sequenzierenden Teil?
 (Weil man ja die Sequenz vom Primer kennt :-) )
-Was kommt danach?
(Base Calling, Assembly, Finishing)
Was passiert beim Base Calling? (Laser, Signalverarbeitung)
Wieviele Kurven sieht man? (vier, für jeden 
 Lichtwellenlänge eine) 
Was steht an den Achsen? (x-Achse: Zeit, y-Achse:
 Lichtintensität)
-Was passiert beim Finishing? 
 (Löcher zumachen, Redandanz erzeugen, Sequenzierung 
  öfters wiederholen, um sicherere Ergebnisse zu bekommen)

DWH-Teil:
-Was heißt OLAP und OLTP?
-Eigenschaften von OLAP?
-Stellt eine Textaufgabe: Kachelmann hat eine 
 Wetterstation und möchte bestimmte Fragen beatwortet 
 haben.
-Soll ein Snowflakeschema aufmalen (Fakt=Messen, 
 Dimensionen=Ort,Zeit.
 Messung soll halbstündig erfolgen (also noch für die  
 Dimension Zeit zusätzliche Stufe: Std.)
-Soll Query auf diesem Schema aufschreiben 
 (Bedingungen habe ich vergessen. War aber nicht schwer)
-Soll noch eine Query auf Schreiben, die von den 
 Bedingungen etwas schwerer ist Messungen pro Tag,
 Monat,Jahr.
(Lösung: Rollup)

Nr.	Prüfer	Fach
51	Leser Prof.	MBD / Data Warehousing

Protokoll

Molekulare Datenbanken und Datawarehouse
22.10.04

Molekulare Datenbanken
  -Lineare, hierachische Versionierung erklären sie ? 
  -WelcheVersionierungsArten kennen sie?
    *SingleTable und Schattentabellen. Noch kurze Erklärung    
    *dazu.
  -Welches Attribut ist überflüssig bei SingleTable ?
    *VersionsAttribut, weil wir Timestamp haben
  -Lineare Versionierung mit SingleTable. Welche Attribute
   muss man hinzufügen um auch noch zu wissen bis wann ein
   Tupel gültig war ?
    *Noch ein Attribut ValidUntil hinzufügen.
  -Fragen zu den Triggern die man dann anlegen sollte.
  -Was ist C1P
    *Definition von C1P, Permutationen nicht vergessen.
  -Ist diese Matrix C1P ? Zeigt mir eine Matrix
  -Haben zirkuläres Chromosom einer Bakterie, was müssen wir
   bei C1P Matrix noch beachten ?
    *(Mmmh). Erste und letzte Spalte der Matrix muss auch   
     C1P Bedingung genügen. Erster und letzter Marker liegen
     ja nebeneinander.  
  -Laufzeit von PQ Algorithmus und Eigenschaften
    *linear aber nicht erweiterbar auf fehlerhafte Daten
  -Was sind "Fehlerhaft Ergebnisse" ?
    *false Positive/Negative, Chimeric Clones 
  -Was sind Chimeric Clones ?
    *(Mmmhh)Ein Clon der Fragmente aus einem anderen Clon
     enthält, oder so.

DataWareHouse
  -Was ist OLAP/OLTP mit Eigenschaften ?
  -Snowflake Schema modellieren eines DataWareHouse.
   Textaufgabe. Gibt mir Dimensionen etc. vor.
  -2 Queries anhand dieses Schema aufschrieben.
   Die 2.te war mit einer MDX Rollup Gruppierung zu 
   beantworten.
  -Was ist besser an "MDX Rollup" im Gegensatz zu einer
   herkömlichen Query
    *Bei normalen Query muss man Faktentabelle sehr oft
     durchgehen und UNIONS durchführen. MDX Output schöner
  -Wie viele Zwischenergebnisse muss man bei herkömmlicher  
   Query zwischenspeichern ?
  -Und bei der MDX Variante ?
  *Letzten 3 Fragen haben sich alle auf die 2te Query
   bezogen*
    
Note: 1,3

Nr.	Prüfer	Fach
52	Leser Prof.	MBD / Data Warehousing

Protokoll

August 2004

MDB
---

Was ist Objektrelationales Mapping?
Wie funktioniert es genau?
Welches ist die speicherplatzeffizienteste Variante des ORM?
Funktioniert ORM auch bei Mehrfachvererbung?

Wie läuft Sequenzierung genau ab?

Was ist C1P (Definition)?
Gibt eine Matrix vor. Ist diese Matrix C1P?
Wie komplex ist die C1P-Bestimmung für eine Matrix?
Welche Fehler können bei der Kartierung auftreten?
Wie sieht man diese in der Matrix?
Was ändert sich bei C1P Definition für runde Bakteriengenome?
 

DWH
---

OLTP vs. OLAP?

Was sind Oversized Indexe?
Wozu braucht man diese?

Was ist ein Bitmap-Index?
Wann lohnt sich dieser?
Konkretes Bsp.: Lohnt sich Bitmap-Index hier?
Was braucht weniger Speicherplatz: ein zusammengesetzter BI oder 2 einzelne BIs?
Wie ist der verbrauchte Speicherplatz und repräsentierte Bereich für ein gegebenes Bsp. einer anderen Zahlenbasis?
Zwei konkrete Bsp. für andere Zahlenbasen umrechnen ins Dezimalsystem.


Insgesamt lief die Prüfung ziemlich gut.
Herr Leser stellt die Fragen präzise, so dass man sofort weiss was er will.
Außerdem lässt er einem genug Zeit zum Antworten.

Nr.	Prüfer	Fach
65	Leser Prof.	MBD / Data Warehousing

Protokoll

es war eine kombi-prüfung datawarehousing und molekularbiologische datenbanken

prüfer und beisitzer (A. Nonym) waren recht locker, wobei der beisitzer halt nichts gesagt hat ...
atmosphäre war dementsprechent supi - die beste die ich bis jetzt erlebt habe - kenne aber nur den vergleich zu fischer und freytag ...

fragten:
mbio-dbs:
* welche datenmodelle gibt es und kurze characterisierung (genauer beim entry-basierten model)
* objektrelationales mapping beschreiben + was ist günstiger für welche art anfragen + wo gibt

Nr.	Prüfer	Fach
80	Leser Prof.	Bioinformatik

Protokoll

Datum der Prüfung:
März 2005

Benötigte Lernzeit als Empfehlung:
10 Tage 

Verwendete Materialien:
Skript eignet sich sehr gut zum Lernen

"Atmosphäre" der Prüfung / Verhalten der Beisitzer:
entspannte Atmosphäre
Fragen gingen zwar in die Tiefe aber mit Hilfestellungen

Prüfungsfragen
Boyer Moore:
musste an einem Beispiel BCR und GSR erklären 
Laufzeit
worst case / average case

Keyword Tree:
Prinzipien erläutern
Laufzeit

Phylogenetische Bäume:
Fitch, Sankoff, Characterbasierte Verfahren,
Distanzbasierte Verfahren, ...

Note:
1.3

Fazit:
Prof.Leser bewertet sehr fair
Beweise wurden nicht abgefragt
Fragen zum Thema ergeben sich aus dem Zusammenhang
biologische Fragen fielen kaum

Nr.	Prüfer	Fach
81	Leser Prof.	Bioinformatik

Protokoll

Prüfung: Algorithmische Bioinformatik
Prüfung über das WS 2004/05
Prüfer: Prof. Dr. Leser
Note: 2,3

Dies Prüfung war ein Worst-Case für mich. Prof. Leser hat so
ziemlich genau das gefragt, was ich nicht wusste.

Zunächst gab es etwas Smalltalk über das Studium. (Welches
Semester sind Sie? ...)

Dann konnte ich mir aussuchen, womit ich anfange:
Ich wählte exaktes Matching bzw. allgemein den Stoff in 
VL-Reihenfolge.

-KMP 
 (inkl. Korrektheitsbeweis)
-Keyword Trees 
 (inkl. Output-Links und Konstruktion der Failure-Links)
-kurze Frage zu Suffixbäumen
-Aho Corasick
-PAM
-Blat
-Blast
-Quasar
-Phylogenetische Bäume

Prof. Leser sagte, im letzten Jahr kam halt vieles nicht
dran wegen des Streiks, und daher hätte man nicht zu sehr 
auf die Prüfungsprotokolle vertrauen sollen...

P.S.:

Statt Quasar kann es auch Clustal W gewesen sein - 
ich weiß es nicht mehr.

Nr.	Prüfer	Fach
82	Leser Prof.	MBD / Data Warehousing

Protokoll

Prüfung: Data Warehousing/ Molekularbiologische Datenbanken
Prüfung über das SS 2004
Prüfer: Prof. Dr. Leser
Beisitzerin:  MSc, Dipl-Ing. (FH) A. Nonym
Dauer: ca. 10 min. Gespräch, dass nichts mit der Prüfung zu
       tun hat, Prüfung selber ca. 30 min.
Note: 1,0


An folgendes kann ich mich erinnern:
       
1. DWH

-Komponenten eines DWH (aufmalen)
-Unterschied herkömmliche/ multidimensionale Modellierung
-Ich bekomme eine Klassifikationshierarchie vorgelegt.
   -Was sind die Dimensionen?
   -Was macht man mit den Marken in der letzten Zeile? 
   -Was sind die Knoten?
   -Was ist eine Granularität darin?
-Was für Arten von Aggregatsfunktionen gibt es? 
   -Wie unterscheiden sie sich?
   -Beispiele?
-Was ist Query Containment?
    -Wie prüft man das?
    -Ich bekomme zwei Querys vorgelegt.
       -Ist die eine in der anderen enthalten? (CM angeben)
       -Wann sind zwei Querys äquivalent? 
       -Sind sie äquivalent?
       -Noch zwei Querys... sind diese äquivalent?
       (CM aufmalen)
       -Werden diese beiden äquivalenten Querys das gleiche
        Ergebnis in Oracle oder PostGres erzeugen?


2. MDB

-Wie sequenziert man?
-Was erhält man?
-Was kommt dann?
-Wie werden beim Finishing die Lücken gefüllt?
-Objekt-relationales Mapping: Wie wird Vererbung im 
 UML-Modell in ein Relationenschema übersetzt?
-Angenommen, wir haben Mehrfachvererbung. (nicht im Skript!)
   -Welche der 4 Möglichkeiten lassen sich dann leicht 
    umsetzen?
   -Welche schwer und warum?
   -Damit zusammenhängend: Was sind Trigger?


Die Atmosphäre war angenehm. 
Prof. Leser stellt größtenteils keine fiesen Fragen und geht
nicht allzusehr ins Detail. Außerdem legt er kaum Wert auf 
Formalismen. Zwei, drei überraschende Fragen waren aber doch dabei.
Prof. Leser lässt einen nicht "ins Unglück" rennen. Wenn man 
etwas richtiges gesagt hat, bestätigt er es, so dass man 
sich sicher sein kann, dass es auch richtig war.

Nr.	Prüfer	Fach
85	Leser Prof.	Bioinformatik

Protokoll

pruefer: leser
fach: algorithmische bioinformatik
lernzeit: ca. 10 tage
materialien: folien+web

ruhige athmosphäre/freundlicher prüfer

prüfung:
-nenne algorithmen für exaktes stringmatching
-z-box-algo erklären:
 -was ist eine zbox
 -lineare konstr. der zboxen
 -wie suche mit zbox + komplexität
-kmp-algo erklären:
 -wie suche
 -was ist sp`
 -komplexität
-boyer-moore-algo erklären:
 -good suffix rule erklären
 -wie suchen + komplexität
 -fall für schnellste laufzeit des algos
-multiple sequenz alignment + sum of pairs:
 -erklären
 -wie berechnen
-evolutionary clock theory:
 -erklären
 -wo angewendet
-ultrametr. matrizen:
 -definition
 -ultrametr. baum bauen (upgma)
 -korrektheit des baumes anhand der matrix zeigen
-maximum parsimony:
 -leider geshiftet  :-( 
 -annahme kommt nicht dran -> fehlannahme
-KEIN UKKONEN:
 -danke!

note: nicht so gut, wegen shiften
bewertung: absolut faire prüfung
ps: konzentration nur auf algorithm. part der vorlesung

Nr.	Prüfer	Fach
86	Leser Prof.	Bioinformatik

Protokoll

ruhige, entspannte Athmosphäre, 
zwei Beisitzer (einer davon zum anlernen), 
die aber nichts  gesagt haben    

Themen:  
- KMP (ohne Formeln, nur Suche erklären)  
- Keyword Trees (Beispielbaum bauen, Komplexität, Failure, Output Links 
erklären)  
- Suffix Trees (Unterschied zu Keyword Trees erklären)  
- Alignments (Unterschied lokales  globales, Anwendung, Tabelle für dyn. 
Programmierung  skizzieren)  
- Gapscorefunktionen (aufzählen, Komplexität und Berechnung lineare, 
konstante Gapscores)  
- MSA definieren  
- Phylogenie (Verfahren aufzählen (Ultrametrik, additiv, characterbasiert), - 
Algorithmen nennen  (Fitch, Sankoff, ohne Erklärung, wollte nur die Namen 
hören), 
- Unterschied zwischen Small  und Large Parsimony erklären)    

Fazit: Lief ziemlich gut (1,3), obwohl ich nicht damit gerechnet hätte. Wenn 
man Antworten  nicht weiß, einfach zugeben, dann wechselt er das Thema 
und man kann vielleicht mit was  anderem glänzen.  :)

Nr.	Prüfer	Fach
107	Leser Prof.	Bioinformatik

Protokoll

=Datum der Prüfung
April 2005

= Benötigte Lernzeit als Empfehlung
14 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
Die Folien der VL sind sehr gut und reichen völlig aus zur 
Vorbereitung.

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Sehr angenehme Atmosphäre. Auflockerung durch anfänglichen 
Small-Talk über Studium und Interessen. Beisitzerin 
S.Trissl hat nur protokolliert/keine Fragen ihrerseits.

= Prüfungsfragen
1) Z-Box-Algorithmus
2) Boyer-Moore-Algorithmus
3) KMP-Algorithmus
(alle drei mit mehr oder weniger detaillierten 
Korrektheitsbeweisen)
4) Phylogenetische Verfahren aufzählen 
5) Small und Large Parsimony erklären
6) Fitch und Sankoff Unterschiede (Vollständigkeit, 
Korrektheit)

= Note
Lief sehr gut. (1.3)

= Fazit
Herr Leser ist sehr fair und gibt oft Hilfestellungen. Er 
versucht ab und zu durch kleinere "Fangfragen" 
herauszubekommen, ob man das Thema wirklich verstanden hat 
(Was passiert, wenn man jetzt...?). Es ist wichtiger, das 
Prinzip/den Trick des Algorithmus verstanden zu haben, als 
jedes einzelne Detail. Aufzeichnen hilft oft als 
Erklärungsvariante und hilft einem selbst auch beim Fragen 
beantworten!

Nr.	Prüfer	Fach
108	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
April 2005

= Benötigte Lernzeit als Empfehlung
11 Tage, die man aber auch durchziehen sollte: 
mehr Tage -> weniger Stress

= Verwendete Materialien (Bücher, Skripte etc...)
Skript(recht gut gemacht) und Gusfield(zum Nachschlagen)

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Gefragt hat nur Prof.Leser, Beisitzerin A. Nonym hat keine
Fragen gestellt. Die Atmosphäre war sehr gut, und recht
locker. Vor der Prüfung gabs ein kurzes Gespräch über
bisherigen Prüfungen und zum Nebenfach.

= Prüfungsfragen
-Eigenschaften von Suffixbäumen
-wie findet man maximale gemeinsame Substrings
-wie ist die Tiefe eines Knotens definiert
-sehr grober Überblick über Ukonnen(<- war mein Vorschlag 
am Anfang; wird sonst nicht geprüft, meinte er)
-Möglichkeiten den Platzverbruach von Suffixbäumen zu
minimieren (Platzverbrauch an Knoten, Suffixarrays, 
Partitionen)
-Editabstände: bei linearen&konstanten Gaps
-MSA, was ist das, wie kommt O(2^n*n^k) Zustande
-welche Möglichkeiten gibt es noch zu alignieren(bei MSA)
-Phylogenetische Bäume: Unterschied zw. Large und Small
Parsimony, welche Möglichkeiten gibt es bei large Parsimony
-average und worst case bei Boyer-Morre, KMP ect.

= Note :1.0
= Fazit 
Die Prüfung verlief recht angenehm, wie die anderen hier in
der Liste schon beschrieben haben. Man konnte ein Thema
vorschlagen mit dem es losgehen sollte, und Prof.Leser hat
viele Hilfestellungen gegeben, wenn man nicht drauf kam.

Nr.	Prüfer	Fach
115	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

Datum der Prüfung: 
-02.08.2005

Lernzeit: 
-knapp 2 Wochen

Verwendete Materialien: 
-Foliensatz zur Vorlesung + Datenbanken -
 Implementierungstechniken (Saake, Heuer, Sattler)

"Atmosphäre" der Prüfung / Verhalten der Beisitzer
-erst ein bissel Smalltalk zur Entspannung
-es gab Wasser und M&Ms 
-die Atmosphäre war wirklich locker
-die Beisitzerin war nett und hielt sich im Hintergrund

Prüfungsfragen
-angefangen wurde mit den Speicherhierarchien (Cache, RAM,
 Festplatte, Bandroboter)
-von Backup der Bandroboter sind wir dann zu Recovery   
 gekommen
-erst wieder allgemein, was ist Recovery, was macht es, hier
 wollte er eine Definition hören (Konsistenz der  
 Datenbank...)
-dann ein wenig das Logfile erklären, sowie Undo/Redo
 Recovery erklären
-als nächstes dürfte ich mir einen Multidimensionales Index
 aussuchen und erklären --> Grid File im Detail mit Vor- und
 Nachteilen
-dazu nen Vergleich vom Grid-File und kd/b Baum
-danach noch ein wenig R-Tree erläutern
-zum Abschluss allgemein Query Abarbeitung ( SQL, Parsen,
 Operator Tree, Optimierung)
-anhand einer Beispielquery erklären, kurze IO Abschätzung,
 verschiedene Szenarien (zu wenig RAM)

Note: 2.0


Fazit:
-nette, entspannte Prüfung
-bei Schwächen wird eine Zeit lang nachgehakt
-Bewertung halte ich für sehr fair

Nr.	Prüfer	Fach
116	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

= Datum der Prüfung

3. August 2005, 10 Uhr

= Benötigte Lernzeit als Empfehlung

Das kann man ja allgemein nicht sagen, hängt von einem
selber ab. Ich hatte mir am Tag vorher nochmal die Folien
angeguckt und sonst in der Vorlesung größtenteils gut
aufgepasst.

= Verwendete Materialien (Bücher, Skripte etc...)

Vorlesung und Folien.

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Locker, kein Problem. Aber fordernd. Beisitzer hat in der
Prüfung selbst nichts gesagt.

= Prüfungsfragen

B-Baum: was, wie, Operationen, Höhe, Füllgrad. Vergleich mit
Binärbaum.

Join-Algorithmen: Index-Join, Hash-Join, Hybrid-Hash-Join,
Sort-Merge-Join. Wichtig: Komplexität der Algorithmen wissen
und erklären können. Da habe ich viel rumgestammelt und
nicht gewußt.

SQL-Query hingeschrieben, (naiven) Operatorbaum aufmalen,
Optimierungen aufzeigen. Übergang zur

Optimierung der Join-Reihenfolge: wie (dyn. Progr.), was ist
mit Kreuzprodukten, Left-deep-Trees vs. Bushy-Trees.
Spezialfrage: Aufzählung aller Join-Trees, inkl. Bushy-Trees
(kam nicht in der VL): Ind.-Vor: Alle optimalen Join-Trees
für k Rel. sind aufgezählt. Ind.-Schritt: Optimalen Tree
raussuchen aus allen Joins aus Join-Tree A und B mit |A| +
|B| = k + 1 und A geschnitten B = leer.

= Note (Optional)
2,0

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Ich fands gut und angemessen. Man hat nicht viel Zeit,
nachzudenken, die Prüfung ist schneller vorbei als du
Blaubeerkuchen sagen kannst. Daher sollte der Stoff sitzen.

Nr.	Prüfer	Fach
137	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

= Datum der Prüfung
24.10.2005
= Benötigte Lernzeit als Empfehlung
3 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
aus Folien Zusammenfassung geschrieben, WWW, empfohlene 
Literatur 

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
- kleiner Talk am Anfag
- Beisitzer hat nur Protokoll geführt

= Prüfungsfragen
- durfte mir ein Thema wählen
  - Recovery/Logging
    - Undo, Redo, Undo/Redo, Recovery, Checkpointing
      alles erklären    
    - diverse tiefgehende Fragen zu diesem Thema
    - viel zum Zusammenhang und globalen Kontext 
      gefragt/erzählt (Transaktionen, Konsistens der DB,...)
    - man sollte sich richtig gut mit dem Eistiegsthema
      auskennen und viel von sich aus erzählen

- Prof. Leser schrieb Query auf und meinte daran arbeiten
  wir bis zum Schluß
  - Query war mit Subselect, also Umformen
  - Operatorbaum aufschreiben (habe noch was von 
    Optimierung erzählt und was man machen kann/sollte)
  - er gab mir dann Kardinalitäten und Selektivitäten
  - berechen die Ergebnisstupel (war nicht ganz so einfach,  
    war keine Dynamische Programierung wie in der VL.)
  - anderen Operatorbaum für die Query aufschreiben und 
    wieder Ergebnistupel und Zwischenergebnisse berechnen
  - jetzt entscheiden welcher Plan besser ist

= Note (Optional)
1,3

= Fazit (Gute/schlechte Prüfung)
Prüfung lief super. Prof. Leser hat immer mal wieder einige 
knifflige Fragen gestellt. Ich habe viel von mir aus 
erzählt. Er hat einige Fragen zum Verständniss gestellt und 
einige um die Prüfung in seine Richtung zu lenken. Wenn man 
viel von sich aus erzählt, dann fragt er nur noch 
vereinzelt, damit man auch wirklich alles abdekt. Ich wusste 
mal auch wenige Kleinigkeiten nicht, war wohl angesichts der 
Note nicht so schlimm.

Nr.	Prüfer	Fach
228	Leser Prof.	Informationsintegration

Protokoll

= Datum der Prüfung
26.02.07

= Benötigte Lernzeit als Empfehlung
ohne Stress 14 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
Folien, Internet

"Atmosphäre" der Prüfung / Verhalten der Beisitzer:
Atmosphäre war sehr angenehm, kurzes Gespräch über
bisheriges Studium und Studienarbeiten, will auch genau
wissen, woher er dich sonst noch kennt.
Beisitzer war Dirk Fahland, hat aber nichts gesagt (war auch
seine Premiere).

= Prüfungsfragen
1. Dimensionen der Informationsintegration 
(Autonomie, Verteilung, Heterogenität)
Verteilung: was gibts da? warum macht man das?
Heterogenität: welche Arten? (6), was ist schematische H.?
Transparenz: welche Arten? warum ist das nicht unbedingt
gewollt?

2. Korrespondenzen
welche Arten? (GaV, LaV, GLaV)
welche Typen? (Exklusion, Inklusion, Äquivalenz, Überlappung)
warum ist Überlappung nicht erwünscht? (liefert keine
korrekte Antwort auf globale Anfrage)

3. Query Containment
Wann ist ein Plan semantisch korrekt? (Extension muss in q
enthalten sein)
Was ist Containmentmapping? (Symbolmapping, Regeln)
Depth-First Algo.: wie funktioniert das? Partielles CM?
Was ist der Unterschied zwischen Set- und Bag-Semantik?
(Anfrageplanung geht, CM nicht)

4. Anfrageoptimierung
Was ist ein Semi-Join? Wie? Warum? Definition?
Welche Varianten? (Join in Quellen/Mediator)
Was ist ein Bloomfilter? Vorteile/Nachteile? (geringer
Netzwerkverkehr/zusätzliche vermeintliche Jointupel)
Was macht ein Full Reducer? Komplexität bei linearen FR?
(linear)
Wann gibt es einen FR? (azyklisch ja,zyklisch nein)

= Note
1.3

= Fazit
Im Ganzen eine sehr nette und faire Prüfung. Obwohl es eine
halbe Stunde war, ging die Zeit im nu vorbei. Prof. Leser
hilft auch bei Fragen, um die Antwort doch zu entlocken und
bestätigt auch wenn was richtig oder vorher schonmal richtig
gesagt wurde. Aufhänger war bei mir die Set- und
Bagsemantik, was etwas Verunsicherung reinbrachte, Prof.
Leser hat bei der Bewertung aber darüber hinweggesehn und
eher das vorhandene Wissen bewertet. An sich eine sehr
angemessene Bewertung.

Nr.	Prüfer	Fach
233	Leser Prof.	Informationsintegration

Protokoll

* Prüfung am 20.2.2007 bei Ulf Leser
* schon während der VL-Zeit eine Ausarbeitung zu jeder VL erstellt, ca. 50h
* noch einmal 2 Tage zum wiederholen
* nur aus dem Skript gelernt

Prüfung:
* erst einmal sollte ich kurz AEI erklären und es von der in der VL behandelten 
Integration abgrenzen
* als nächstes sollte ich die 3 Dimensionen von Quellen aufzählen und eine 
meiner Wahl erläutern (habe mich für Verteilung entschieden)
* als nächstes Query Containment: Was ist das? Was sind Containment 
Mappings? Warum ist die naive Variante zu langsam? Welche Idee liegt Depth 
First zugrunde? Was ist ein partielles CM? usw.
* als nächtes sollte ich Frozen Facts anhand eines Beispiels erklären
* als letztes sollte ich die Algorithmen zu Schema Integration nennen und einen 
meiner Wahl genauer erklären (habe mich für General Integration Model mit der 
GIM Matrix entschieden)

Fazit: Bin zufrieden.  Prüfungen bei Prof. Leser finden immer in entspannter 
Atmosphäre statt: Mehr ein Gespräch, denn eine Prüfung.

Nr.	Prüfer	Fach
243	Leser Prof.	Informationsintegration

Protokoll

= Datum der Prüfung
02.04.07


= Benötigte Lernzeit als Empfehlung
2 Wochen... mehr Zeit, weniger Stress...


= Verwendete Materialien (Bücher, Skripte etc...)
Folien, Internet


= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Angenehme Atmosphäre wie immer... diesmal wurde Kaffee
anstatt Süßigkeiten angeboten... die ersten 10 Minuten 
wurde über das Studium geredet... Beisitzer war recht still.


= Prüfungsfragen

1. Architekturen

Welche Kriterien? 
Welche Architekturen lassen sich daraus ableiten? (~ 3 Bsp.)
Unterschied zwischen den Architekturen DWH und Mediator.
Wie heißt der Integrationsprozess beim DWH?
5-Schichten-Architektur erläutern (Schichten nennen).


2. Korrespondenzen

Was ist das? Definition...
Frozen-Facts-Algorithmus am Bsp erläutern.
CM definieren.


3. Semi-Join

Definition...
Wozu dient das?
Semi-Join-Programm definieren.
Reducer, Fullreducer erklären.
Wann gibt es einen Fullreducer?
Wann ist eine Anfrage azyklisch?
Zur gegebener Anfrage Hypergraphen zeichnen. Entscheiden, ob
 dieser azyklisch ist. Anfrage verändern, so dass diese 
zyklisch wird.


4. Anfrageberabeitung

Die 5 Schritte nennen. Den ersten genauer an einem Bsp.
 erläutern.


= Note (Optional)
1.7


= Fazit (Gute/schlechte Prüfung , angemessene Benotung)
Prüfung war ok. Benotung wie immer sehr fair.

Nr.	Prüfer	Fach
249	Leser Prof.	Informationsintegration

Protokoll

= Datum der Pruefung
11.04.2007
= Benoetigte Lernzeit als Empfehlung
Selbst brauchte mindestens vier Wochen.
Je nachdem wie gut man in der VL alles verstanden hat
und wie diszipliniert man lernt, vielleicht auch in weniger
moeglich. 
Allein zum aktiven Durchlesen der Folien knapp eine Woche
benoetigt (5 Tage). 
Wenn man mit den anderen Protokollen vergleicht, bin ich
aber eher langsam.
Nichtsdestotrotz ist es schon eine Menge Stoff, nicht (nur)
auswendig-lerntechnisch sondern auch zum Ueben und verstehen. 
Besser schon waehrend der VL intensiv mitmachen!

= Verwendete Materialien (Bücher, Skripte etc...)
Vorwiegend VL Folien.
Bücher: Informationsintegration von Ulf Leser und Felix A. Nonym 
fuer Ueberblick, Elmasri & Navathe Fundamentals of Database
Systems fuer 
Wiederholung und Nachschlagen DB Grundlagen, 
Ausschnitte aus Buecher zum jeweiligen Kapitel 
(z.B. Anfrageoptimierung: Dadam Verteilte Datenbanken und
Client/Server System ...). 
Auszugweise Paper zu den jeweiligen Kapiteln(auf jeden Fall
empfehlenswert solange ihr noch Uni-Zugang habt ;o) 
bei Verstaendnisproblemen. 

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Sehr wohlwollend. Gehen gut auf Situation ein. 
Ich war pathologisch aufgeregt. Pruefer und Beisitzerin
professionel 
damit umgegangen. Aus dieser Sicht eine der besten Pruefungen 
die ich hatte. 
Vor der Pruefung auch erstmal Gespraech ueber bisherige
Veranstaltungen usw.

= Prüfungsfragen
1. Was fuer Arten der Verteilung(physische, logische) gibt es, 
   Gruende(Sicherheit, Performance, aber auch ungewollt
wegen Autonomie...)
   Partitionierung(horizontale, vertikale) etc.
2. Welche (Unter-)Arten der Heterogenitaet, 
   bei struktureller/schematischer H. und deren
   Definition dann Uebergang zu 
   Multidatebanken u. 4-Schichten-Arch.
   Hab erstmal 5-Schichten aufgemalt, um zu zeigen was
anders ist. 
   Kein foederiertes Schema, Nutzer integrieren selbst 
   und da waren wir auch schon bei
Multidatenbanksprachen/SchemaSQL
   Was kann SchemaSQL, was ist anders als SQL. Ueber welche
Elemente
   kann man iterieren. Ist es exakt abwaertskompatibel zu
SQL usw.
   
3. Beispiele SchemaSQL:
   Zum Aufwaermen erstmal Aufgabe etwas verschieden zu
modellieren.
   Einmal gleichen Sachverhalt als Wert, als Attribut, Relation.

   Dann Selektions-Aufgabe, dann Aggregationsaufgabe an
einfachem Beispiel.
   
   Wie wird SchemaSQL implementiert. 
   Die Anfrage aus SchemaSQL in eine SQL-Anfrage ueberfuehren
   (VIT usw.).

4. Anfrageoptimiertung
 Was fuer Techniken haben wir kennengelernt (Join Order mit
DP, SemiJoin ...) 
. Eine davon genauer erklaeren. Hab DP erklaert. 
  Warum gilt Optimalitaetskriterium fuer verteilte DB
eigentlich nicht. 
  Was haben wir dabei fuer eine Heuristik...

5. Duplikaterkennung: Def. Duplikat, was vergleicht man,
Aehnlichkeitsmasse,
SortedNeighborhood, Komplexitaet SNR, wie kommt sie zustande, 
wie kann man sie verbessern(Multipass).

= Note (Optional)
2.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr faire Pruefung. Hatte bei SchemaSQL ein paar groebere
Schnitzer und gestrauchelt. Dadurch viel Zeit fuer andere
Gebiete verloren.

In der Aufregung auch an anderen Stellen ein paar duemmere
Sachen gesagt, 
die man mir haette weitaus boeser auslegen koennen. 
Hatte zwar viel und langfristig gelernt, aber trotzdem zu
spaet damit 
aufgehoert. Bei der Pruefung hat dann einfach die
Energie/Konzentration gefehlt.

Nr.	Prüfer	Fach
257	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
12.04.2007

= Benötigte Lernzeit als  Empfehlung
2 Wochen, ist fast zu knapp

= Verwendete Materialien  (Bücher, Skripte etc...)
VL-Folien, Gusfield, Internet

= "Atmosphäre" der Prüfung /  Verhalten der Beisitzer
sachlich und professionell (pünktlich, freundlich, Getränke  und Snacks im Angebot)

= Prüfungsfragen
Zwei Gerüchte die offensichtlich nicht immer stimmen:  
1. Biologische Fragen fallen eben doch
2. Das Startthema kann man sich nicht immer aussuchen  

Die Fragen:  
1. Wie wird aus einem Gen ein Protein?  das wollte er schon genauer wissen als ich es wusste  
2. Z-Box  die Fakten aus den Folien(komplexität,z-werte,l,r...)  man sollte das aber unbedingt mal per Hand gemacht haben,  ich konnte das dann nicht und musste leider shiften  
3.Keyword trees mit beispiel durchexerzieren  
4.Aproximatives matching  -editabstand  -Rekursionsgleichung (sehr detailliert)  -Komplexität Hyperwürfel erklären ((2^k-1)*n^k)  
5.BLAST  -Parameter  -Effekt beim Schwellwert verändern  -BLAST2  
und die Zeit war um (30 min.)    

= Note
3.0

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Die Prüfung fing ziemlich schlecht an, da ich nicht mit der   biologischen Einstiegsfrage gerechnet habe.  Auch die Z-Boxgeschichte war sehr unangenehm.  Ich habe darauf spekuliert, dass ich die Startfrage selbst  wählen könne und demzufolge leider ein paar Lernlücken  gehabt.  Aber im Gegensatz zu allen anderen meiner bisherigen   Prüfungen lief es von Frage zu Frage besser, was wirklich  für den Prüfer spricht, er blieb sachlich und war nicht  persönlich angegriffen durch meine Lücken, was man nicht  von allen Profs behaupten kann.  Fazit: Guter Prüfer, der sich aber nicht hinters Licht  führen lässt=>alles lernen

Nr.	Prüfer	Fach
272	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung

August 2007


= Benötigte Lernzeit als Empfehlung

habe es mit 10 Tagen versucht, war aber zu wenig ->
mindestens 14 Tage


= Verwendete Materialien (Bücher, Skripte etc...)

Folien, Google


= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Alles recht entspannt, Beisitzer hat nichts gesagt :)
Ersten 5 bis 10 min reden übers eigene Studium etc


= Prüfungsfragen

- Aufbau eines DWH
- Welche Techniken werden bei ETL Prozess und beim erstellen
der Marts wo angewandt? (BULK von Quelle zu staging area,
SQL und Satzbasiert in Cube, MVs zu marts)
- Differential Snapshot Problem. Was ist das? Wie haben wir
es gelöst) (Verschiedene Algorithmen und Funktion)
- Erkläre DS mit Hashing oder mit Sortierung inklusive
Komplexität
- Indexierung: Was ist ein oversized B* Index?
- Was ist ein Bitmap Index? Warum brauchen wir ihn?
(Composite B* ist ordnungssensitiv)
- Komprimierung von Bitmap Indexen (RLE 1 und als
horizontale Komprimierung, Zahlenbasenänderung als vertikale)
- Kardinalität eines Attributes ist 34, wie viele Bitmap
Arrays braucht man bei Zahlenbasis <4,4,4> ? Wie viele
Zahlen kann man damit kodieren? 4*4*4 = 64
- Welche Clusteringmethoden haben wir besprochen?
(hierarchisches Clustern, k-Means und dichte-basiertes Clustern)
- Erklären sie dichte-basiertes Clusterm
- Aussage: Wenn Nachbarn suchen in DBSCAN linear wäre, dann
Algorithmus linear, warum?


= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Prüfung war in Ordnung, Note auch angemessen, hatte mir
besseres gewünscht, aber das Leben ist nunmal kein Ponyhof, ne?

Nr.	Prüfer	Fach
291	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
2.10.07

= Benötigte Lernzeit als Empfehlung
1,5 Wochen mit DBI- und Maschinellem Lernen-Vorwissen

= Verwendete Materialien (Bücher, Skripte etc...)
Skript
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
- zuerst kurzes Plaudern übers Studium
- kein Streß
- man kann mehrfach nachfragen, wenn man mit einer Frage
nichts anfangen kann
- man kriegt eine weitere Chance, wenn man was falsch macht

= Prüfungsfragen
- OLTP<>OLAP
- Starschema für Wetterstationen malen, Fakten & Dimensionen
herausfinden (FDs beachten!)
- Gruppierungsanfragen stellen (GROUP BY und CUBE)
- wie funktioniert Gruppierung (Hash<>Sortieren)
- wie berechnet man Aggregatfunktionen drauf
- Clustering: welche Arten gibts
- Beschreibung Algorithmen für hierarchisches C., k-Means,
k-Medoid
- Laufzeit- und Speicherplatzabschätzungen

= Note (Optional)
1,3
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
faire Prüfung und faire Benotung

Nr.	Prüfer	Fach
355	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
Ende WiSe 07/08

(Die anderen Protokolle hier sind schon etwas älter, daher
wollte ich mal was aktuelles schreiben und andere
Wichtigkeiten loswerden...)

= Benötigte Lernzeit als Empfehlung

Vorbereitungszeit sind 7-10 Tage ausreichend. Aber
entscheidend ist, nicht nur in dieser VL sondern ganz
allgemein: "Lernzeit" ist die VL-Zeit! Die 7-10 Tage sind
Auffrischungszeit und
Mittel-und-Kurzzeit-Gedächtnis-Vollstopfzeit und nichts anderes.

= Verwendete Materialien (Bücher, Skripte etc...)

Der Foliensatz reicht aus, auch wenn man dazu in der VL
gewesen sein muss/sollte (mental!). Siehe auch oben unter
"Lernzeit". Gusfield (das in der VL empfohlene Buch) eignet
sich gut zum Gegenchecken.

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Wie gehabt angenehm, vorher 5-10min Smalltalk zum Auflockern
und Nervosität-nehmen. Beisitzer komplett silent, lächelt
aber ständig und insbesondere wenn man versucht, witzig zu
sein. Zusammen mit ständiger Freundlichkeit des Prüfers
genau die Atmosphäre die man sich wünscht. 

(Insbesondere wenn der Vordermann rauskommt mit der
Bemerkung "auf Lücke lernen war keine gute Idee", was einen
wiederum eher bestärkt wenn man sich auf alles vorbereitet
hat..)

= Prüfungsfragen

* Einstiegsbereich war zum Selbstaussuchen, bei mir exaktes
Matching. Also Z-Box bis in`s letzte Detail, Definition,
Suche, Berechnung; hat alles eine Weile gedauert obwohl ich
dauer-geredet hab - schließlich gibt`s da einiges zu
erzählen; kleine Fangfrage ("Braucht man das `$`?");
Komplexitätsbetrachtung;

* Allgemeine Fragen rund über exakte Verfahren, also welche
kennen wir noch, wie schnell sind die, welcher ist der
schnellste, wie geht`s noch schneller im Average Case (GSR
beim BM weglassen)...

* Großer Sprung zur Gene Prediction. Was gibt es da für
Möglichkeiten, Gene zu finden (mRNA rausfischen und ESTs
angucken; alles komplett sequenzieren und HMM-Zirkus machen;
komplettes Genom mit bekanntem Genom alignieren)

* HMM, was ist das, was für Probleme gibt es und wie heißen
die jeweiligen Lösungen. Alle drei (Viterbi, Forward-Alg.,
Baum-Welch) erklären, recht detailliert insb. Viterbi.

* MSA, was gibt es da für Möglichkeiten (naiv, SoP,
Center-Star, Baum-orientiert); auf alle drei mal kurz
eingehen; SoP konkreter, d.h. wie funktioniert das Verfahren
; Komplexitätsbetrachtung dazu; ClustalW kurz überblicken.

* Distanzbasierte Phylogenie durch ClustalW nur kurz
angerissen (wie baut man z.B. einen Baum - er wollte nur die
beiden Begriffe UPGMA und Neighbo(u)r Joining hören)

* Schluss war viel früher als gedacht...

Allgemein gilt: "Detailliert" heißt nicht "Formel
hinschreiben". Es geht darum zu wissen was da passiert. Wenn
 man das erklärt, reicht das schon. Ich habe keine einzige
Formel während der ganzen Prüfung aufgeschrieben - wenn man
Details erklärt hat (z.B. Viterbi-Alg. anhand einer
abstrakten Skizze), würden die sich zwar von selbst ergeben,
aber ich habe vergebens darauf gewartet, dass er mich mal
auffordert, eine wirklich hinzuschreiben. Also: Formeln
nicht zum Hinschreiben lernen, sondern höchstens zum dran
erinnern, wie das Verfahren ging und als Double-Check.

= Note (Optional)

Sehr gut.

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Prüfung lief wunderbar.. Hab einmal zu schnell geantwortet,
kurz Nachdenken hilft (siehe oben mit dem `$`, das ist da
natürlich nur aus didaktischen Gründen; mir fiel spontan
kein Grund ein warum man das braucht, aber man übersieht in
einer Prüfung ja gern mal was, daher kam mir das verdächtig
vor und ich hatte also meine Arbeitshypothese auf
`$`-Verteidigung - lies mich aber dann überzeugen, weil
seine Argumentation schlüssig klang und keine Lücke
offenbarte, die für mich ein Fingerzeig auf ein Argument für
meinen Standpunkt gewesen wäre). Ansonsten ist es ein
flüssiges Gespräch, wenn man Prof. Lesers Tempo
hinterherkommen kann und schnell genug die Stichworte und
Ideen in den Strom reinschießt die er will. (Heißt nicht,
dass er sich ggf. langsamerem Tempo anpasst, vielleicht war
ich selbst schuld...) Aber auch da wo es in die Tiefe geht
lässt er einen nicht allein sondern lässt es interaktiv,
sodass man sich nicht verzettelt. (Die Interaktivität
beinhaltet dabei sowohl Hilfen als auch versteckte Checks ob
man das da grad nur so sagt oder weiß was man redet...)

So, genug geschrieben.

Nr.	Prüfer	Fach
356	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
04.April 2008

= Vorlesung

Erst Mal ein paar Worte zur Vorlesung:

Das war mit Abstand die beste Vorlesung, die ich bisher an
der Humboldt Uni gehört habe. Der Stoff war eher viel als
wenig(aber hielt sich noch im Rahmen), dafür nicht
schwierig, bzw. von Prof. Leser immer dem
Schwierigkeitsniveau entsprechend vorgetragen.
Das einzige Manko waren der Umfang der Übungen, wobei es
auch am eigenen Anspruch lag bei den Wettbewerben möglichst
gut abzuschneiden und deshalb das Programmieren Ausmaße
annahmen, die diese Vorlesung zur Aufwendigsten des
Semesters machten.


= Benötigte Lernzeit als Empfehlung

Es hängt natürlich entschieden davon ab, was mensch schon im
Semester gelernt hat. Für mich wären die hier genannten
Zeiten deutlich zu gering gewesen. 10 Tage reichen für den
Stoff, auch wenn jemand schon ganz okay mitgelernt hat,
einfach nicht aus. Vor allem da Prof. Leser wirklich
potentiell alle Details abfragt. Ich habe wohl vier Wochen
gelernt, davon drei Wochen komplette Lerntage. Also für
jemanden, der gut mitgelernt hat, dürften 2 Wochen so
reichen, für jemanden, der sich den Stoff from scratch
aneignen muss, sollte eher 5+x Wochen ansetzen.


= Verwendete Materialien (Bücher, Skripte etc...)

Die Folien, für Dinge, die ich nicht verstanden hatte den
Gusfield und für den Biologie-Part Wikipedia.


= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Die Prüfung setzte die Vorlesung nahtlos fort, eine viel
entspanntere habe ich bisher nicht absolvieren dürfen.
Zuerst gab es volle 10 Minuten Smalltalk über das bisherige
Studium und die absolvierten Prüfungen(er fragte allerdings
nicht nach Noten) und die noch folgenden Vorlesungen.
Der Beisitzer notierte nur.


= Prüfungsfragen

Dann ging es los: ich durfte mir ein Thema auswählen, wo ich
mich für Boyer-Moore entschied. Ich explizierte also die
Good Suffix - und die Bad Character Rule(mit Ansprache der
EBCR, wo er dann intervenierte und mich nach den möglichen
Speicherarten fragte). Er wollte dann die
Apostolico-Giancarlo Variante grob erklärt bekommen,
verzichtete aber auf die Aufzählung der fünf Varianten.
Wollte dann aber zu meinem Leidwesen den Beweis für die
Linearität haben, den ich zwar grob skizzieren, aber nicht
so gut vortragen konnte, wie er das gerne gehabt hätte.
Dieser Teilabschnitt nahm schon einen großen Teil, so ein
Drittel der Prüfungszeit ein.
Dann gab es die allgemeine Frage, was denn jetzt der
schnellste Algorithmus für exaktes Matching ist. Die Frage
war mir zu banal, ich überlegte fieberhaft, ob er denn jetzt
auf Suffix-Trees hinaus wollte. Es dauerte also einen
kleinen Moment bis sich die Konfusion legte und ich darauf
kurz "Boyer-Moore ist sublinear im average case" sagen
konnte und auf die sich anschließende "Warum?"-Frage dies in
aller Kürze erläutern konnte. Er wollte dann von mir den
best-case für Boyer-Moore wissen und auf die Antwort folgte
die Frage nach der Laufzeit in diesem Fall.
Dann passierte etwas, womit ich wahrlich nicht gerechnet
hatte: er fragte, was denn die schnellsten Algorithmen
seien, was ich mir nicht angeguckt hatte, da ich diese eine
Folie für einen reinen Hinweis gehalten hatte, zum Glück
konnte ich allerdings mit meinem Vorlesungswissen noch über
die Boyer-Moore Variante Horspool und den shift-and
Algorithmus parlieren.
Er fragt also wirklich alles und potentiell jede Folie ab.

Dieser ganze Bereich dürfte so 15 Minuten gedauert haben,
nicht weil ich so lange gebraucht hätte, sondern weil er
doch viel nachfragte, was nett war, da eigentlich absehbar
war, dass ich die Fragen ganz gut beantworten könnte.

Dann kamen wir zu Hidden Markov Modellen, wo er erst Mal die
Definition wissen wollte, die ich ihm mehr schlecht als
recht und eher in Abgrenzung zum normalen MM unterbreitete.
Es folgte die Frage nach der Ordnung der MK und wie sie
durch eine MK der Ordnung eins simuliert werden könne. Das
konnte ich ihm dann auch so grob beschreiben, auf die sich
anschließende Frage, wie sich dann die MK erster Ordnung
vergrößert viel mir leider nichts ein, bzw. das was mir
einfiel und richtig gewesen wäre, behielt ich für mich.
Er wollte dann die Frage beantwortet haben, was man denn mit
einem solchen Modell machen könnte, also auf den
Forward/Backward und den Viterbi Algorithmus hinaus,
letzteren sollte ich dann auch beschreiben, was mir ganz gut
gelang, ich schrieb dabei dann auch die Formel für die
Dynamische Programmierung auf, was er seinem
Gesichtsausdruck zu Folge nicht erwartete. Ich kriegte sie
aber nicht mehr ganz hin, wo er mich dann mit dem Hinweis
"worüber denn das Maximum geht?" auf die richtige Spur
führte. Er wollte dann noch die Laufzeit des Viterbi wissen,
die ich ihm runterbetete und auch erläutern musste, was ich
dann auch tat.
Es folgte ein Beispiel, wo er dann wissen wollte, wie man
das löst. Es war der Versuch einer kleinen Fangfrage, da
hier nach dem Forward-Algorithmus gefragt war. Mensch sollte
also gut wissen, wofür jetzt welcher Algorithmus ist und
dies aus dem Stehgreif reproduzieren können. 
Im Anschluss wollte er noch den Baum-Welch wissen, wo ich
ihm das EM-Prinzip erläuterte, alles ohne Formeln.
"Das war der schwere Fall, wie sieht denn der einfach aus?"
schloss sich als Frage an, was ich dann mit Maximum
Likelihood und einer groben Erklärung zur Zufriedenheit
beantwortete. 
Es folgte der Biologie-Einschub mit der einzigen Frage, was
denn ein Gen für verschiedene Bereich hat, wo ich ihm nur
was von Introns, Exons und Promotoren vorstammelte, die
Erwähnung von splice-Stellen,... hätte sich dann vielleicht
noch meine Note zum besseren gekippt. Es blieb allerdings
auch die einzige Biologie-Frage und diese stammte auch aus
dem Biologie-Teil seiner Folien.
Dann schlug er die Verbindung zum Multiplen Sequenz
Alignment und zur Anwendung der HMM auf dieses. Nach
kleinerer Konfusion umriss ich eine HMM für Multiples
Sequenz Alignment, es folgte die Frage nach der Anzahl der
Zustände, was ich mit der Länge der Sequenz beantwortete und
dabei die für Deletions und Inserts übersah. Was ich nach
einem kurzen Hinweis aber berichtigte.
Wir kamen dann auf die Frage, nach den Möglichkeiten ein MSA
zu wählen, wo ich dann die drei Zielfunktionen erwähnte, mir
eine aussuchen durfte und Sum-of-Pairs erläuterte. Ich
erwähnte dann Dynamische Programmierung im n-dimensionalen
Raum und grob die Berechnung. Formeln wollte er an dieser
Stelle, wie überall anders auch, nicht sehen. Viel
spannender fand er die Laufzeit und was denn jetzt was
ist(ich hatte vorher von n-Dimensionen gesprochen, in meiner
Formel, aber n für Länge und k für die Dimensionen genommen,
also quasi die Folien rezipiert, was er dann kurz geklärt
haben wollte).
Dann kam der schwächste Teil meiner Prüfung: die Verbindung
von MSA und Phylogenie. Er wollte darauf hinaus, wofür man
ein MSA nutzen könnte für die Phylogenie, ich erläuterte ihm
dann den Neighbor-Joining Algorithmus und wie sich ein Baum
so bauen lässt. Er wollte aber die ganze Zeit auf was viel
trivialeres hinaus: darauf, dass man für die Phylogenie
erstmal die homologen Abschnitte mittels MSA finden muss,
aber dass das Interessante ja der entstehende Baum ist. Auf
ersteres kam ich noch, letzteres war für mich zu banal, als
dass ich es erwähnt hätte. Er wollte von mir also nur ganz
grob die Phylogenie erklärt haben und ich verstand nicht,
worauf er hinaus wollte. Stellt euch also auch auf sehr
einfache Fragen ein. 
Mit seiner Erklärung dazu war dann auch die Prüfung vorbei,
es kam das übliche rein/raus und dann wurde mir die Note
genannt. Sie waren sich nicht ganz einig, während der
Beisitzer für eine 1,3 plädierte, war Prof. Leser eher für
eine 1,7. Die höhere Besoldungsstufe setzte sich durch. Bei
Noten wären beide fair gewesen. Auch wenn es aus dem Text
nicht ganz herauskommt, habe ich doch mehrere Teile recht
souverän vorgetragen. Da ich doch ein paar Mal ins Schwimmen
geriet, lief es dann auf eine der beiden Noten hinaus. Die
Begründung für die schlechtere Note war allerdings etwas
gewöhnungsbedürftig: Es hätte zu lange gedauert, nämlich 40
Minuten statt 30, was ich für eine nicht überzeugende
Begründung halte. Eine 1,7 wäre aber auch inhaltlich
gerechtfertigt gewesen, weshalb ich mich nicht beklagen
kann. Ihr müsst also schon darauf achten schnell
durchzukommen, wie auch immer das anzustellen ist.
Vielleicht häufiger bei Sachen, die klar sind springen, aber
so richtig erschließt es sich mir nicht, wie das gleiche
Pensum auch in 30 Minuten hätte abreißen sollen.
Er fragt gerne den Foliensatz bis zum Ende durch und will
wohl mindestens 4 Foliensätze schaffen.
Festzuhalten bleibt, dass es ihm zu keinem Zeitpunkt auf
ganz genaue Formeln ankam, solange man das Prinzip gut
erklären konnte. Dafür wollte er aber häufig die genaue
Laufzeit und eine Erklärung dafür haben.
Der Biologie-Teil ist marginal, sollte dann aber auch
gekonnt werden. Er wird, nach allem was ich so gehört habe,
nicht den Stoff des Gastdozenten am Anfang abfragen(welche
Wasserstoffbrücke jetzt wie,...), aber so eine grobe
Erklärung von dem, was er auch erwähnt hat(z.B. Gen
Exprimation, PCR,...), solltet ihr können. Setzt euch
vielleicht ein/zwei Tage vor Wikipedia und lernt die
Zusammenhänge. Die Erklärungen des Gastdozenten sind
überdimensioniert und zu sehr auf BiologInnen ausgerichtet
für das, was abgefragt wird.


= Note (Optional)
1,7

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Die Prüfung war der best case in Bezug auf den Prüfer, in
Bezug auf mich hätte ich ein paar Sachen ein bißchen
souveräner vortragen können.


So, für die, die bisher durchgehalten haben und für die
anderen auch: Viel Glück für eure Prüfung!

Nr.	Prüfer	Fach
357	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
03.04.2008

= Benötigte Lernzeit als Empfehlung
ca. 1-2 Wochen, je nach dem, wie fleißig man im Semester war

= Verwendete Materialien (Bücher, Skripte etc...)
VL-Skript, Gusfield

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
nette, ruhig Atmosphäre. Prof. Leser macht zu Beginn ein
wenig Small Talk übers Studium

= Prüfungsfragen
Exaktes Matching:
KMP (Suche+Preprocessing) mit Beweis 
Erweiterung von KMP auf Keyword Trees
Definition Keyword Tree
Konstruktion + Suche im Keyword Tree
Failure- und Output-Links
Wie aufwändig ist es, FL + OL zu konstruieren
Phylogenie:
Welche Verfahren gibt es?
Was ist ein Character?
Perfect Phylogeny, was ist das, welche Eigenschaften hat der
Baum?
Small vs. Large Parsimony
Sankoff Algorithmus im Detail erklären, Vektoren für alle
Knoten berechnen
Branch + Bound

= Note (Optional)
2.0

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Gute Prüfung, Prof. Leser ist sehr zu empfehlen. Wenn man
mal nicht so richtig weiter weiß, hilft er einem. Die Note
geht in Ordnung, da ich am Ende bei Sankoffs Algorithmus
ziemlich ins Schwimmen geraten bin.

Nr.	Prüfer	Fach
375	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
31.07.2008

= Benötigte Lernzeit als Empfehlung
1 Woche, da ich im Semester schon viel mitgelernt hatte. Diese Woche diente also nur der Vertiefung und des Einprägens.

= Verwendete Materialien (Bücher, Skripte etc...)
VL-Folien, Wikipedia

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Nette Atmosphäre. Zuerst wird ein bisschen Smalltalk über das Studium (besuchte Kurse, Nebenfach...) gemacht und dann geht es ganz gemütlich mit der Prüfung los. Der Beisitzer war komplett ruhig und hat sich nur Notizen gemacht.

= Prüfungsfragen
Entgegen meiner Annahme konnte ich mir das Startthema nicht aussuchen, das hat mich erst einmal ein bisschen aus dem Konzept gebracht. Alles in allem hatte ich den Eindruck, dass Prof. Leser diesmal eher in die Breite als in die Tiefe geprüft hat. 

Themen waren in etwa: 
- Abgrenzung IR zu Datenbankanfragen
- IR-Pipeline
- Preprocessing
- Stemming vs. Lemmatisierung
- Stopwörter, Zipf's Law
- IR-Modelle
- POS-Tagging
- HMM: Viterbi und Training eines HMM mit Komplexität
- Page-Rank-Algorithmus
- Stringmatching wurde bei mir nicht geprüft, weil ich schon die Bioinformatik-Prüfung hinter mir hab und das dort ausführlichst drankam
- restliche Fragen/Themen hab ich vergessen, aber er wollte immer wissen, welche Anwendungen eine best. Technik/Verfahren hat und was die Vor- und Nachteile sind.

= Note (Optional)
1.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Super Prüfung.

Nr.	Prüfer	Fach
376	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
SoSe 2008

= Benötigte Lernzeit als Empfehlung
Ich empfehle so ungefähr 14 Tage.

= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
War ein entspanntes Gespräch. Leser wollte erst noch wissen, was man so macht und was man machen will. Hat auch zwischendurch gelegentlich Fragen abseits vom Thema gestellt. Der Beisitzer hat nichts gesagt, ich fand ihn aber trotzdem sehr beruhigend und nett.

= Prüfungsfragen
IR erklären: Recall und Precision, Diplomacy, Preprocessing und Normalisierung

IR-Modelle aufzählen, VSM erklären (mit Implementation, Relevance Feedback und Rocchio-Algorithmus mit Formel)
Inverted Files mit Implementation, Platzkomplexität etc.

Clustering, hierarchisches Clustering, k-Means und k-Medoid, miteinander vergleichen (Komplexität)

Linguistik: ein paar Fachbegriffe, Homonyme etc. Bedeutung für Recall und Precision

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Im Großen und Ganzen war die Prüfung ok, die Fragen nicht zu schwer und er hat auch geholfen, wenn es nicht mehr weiter ging. Mich hat aber gewundert, wie schwer nachher bei der Bewertung Komplexität und einzelne Formeln gewichtet wurden. Das finde ich etwas unangemessen, da es erstens nur kleine Detailfragen waren und zweitens in der Vorlesung sehr wenig Wert darauf gelegt wurde. Ich hätte mich gern darauf eingestellt, aber wir sind ja hier nicht bei wünsch dir was. Also: lernt Formeln!

Nr.	Prüfer	Fach
377	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
01.08.2008

= Benötigte Lernzeit als Empfehlung
ca. 2 Wochen, wobei es empfehlenswert ist, sich die Folieninhalte zusammenzuschreiben (macht so ca. 60-70 Seiten, statt ca. 700 Folien).

= Verwendete Materialien (Bücher, Skripte etc...)
Skript, Web, fuer die Suchalgorithmen empfiehlt sich z.B. für Boyer Moore auch mal ein Blick in die Skripte der VL Algorithmen in der Bioinformatik

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Wie immer sehr angenehm. Kurzer Smalltalk, u.a. allgemeines Klagen über die Hitze.
Beisitzer schreibt nur mit

= Prüfungsfragen

--> Unterschiede in den Ergebnissen DB-Query -- IR Query
- Ranking
- Relevanz

-->Aufbau IR System
- Query 
- IR-Algo 
- Index 
- Corpus

--> Was sollte man machen bevor ein Dokument in den Index aufgenommen wird?
- StopWord Removal
- Stemming etc.

--> Was sind Stopworte
- in erster Linie hohe Frequenz + keine Aussagekraft bzgl. Dokument
- Zipf's Law (in diesem Zusammenhang dann doch eine Frage zum Thema Linguistik)

--> Wie entstehen neue Worte?
- Produktion/Kreativitaet (z.B. Zusammensetzen von bekannten Worten)
- Entlehnung (aus Fremdsprache)

--> Welche IR Algorithmen kennen sie
- Boolean
- VSM
- Wahrscheinlichkeit
- LSI

--> Boolean und VSM erklaeren
- Funktionsweise, 
- Vorteile/Nachteile

--> Stringsuche: Boyer Moore
- Idee
- ECBR + Good Suffix (Was muss bekannt sein fuer Anwendung dieser Regeln --> notwendige Speichergroesse)
- Bsp fuer BestCase aufschreiben + Wieviele Vergleiche für BestCase (z.B. BBBBBBBBBBB AAAA / Laenge Text/Laenge Pattern)

--> Web Suche (Warum nicht mit normalen IR Methoden behandelbar?)
- dynamischer Corpus
- Ranking basiert Prestige

--> PageRank Algorithmus
- Idee
- Wie berechnen (Idee + wann konvergiert Algo)

= Note (Optional)
1.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

- wichtig sind Verstaendnis der Algorithmen/Tehmen, sowie Vorteile/Nachteile/Komplexitaet
- es wird geholfen, wenn es mal Unklarheiten gibt
- es schadet nicht, Wissen wie Vorteile/Nachteile (vlt. Verbesserungen) neben der Erklaerung eines Algorithmus unaufgefordert zum Besten zu geben
- Benotung ist fair, man muss was wissen, aber wenn man mal Nachdenken oder sich etwas herleiten muss, dann scheint dies keinen negativen Einfluss zu haben

Nr.	Prüfer	Fach
378	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
31.08.2008

= Benötigte Lernzeit als Empfehlung
mind. 10 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
Folien, Wikipedia

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Alles war ziemlich nett.

= Prüfungsfragen
erstmal Smalltalk, dann Grundlagen - Precision, Recall, Accuracy, Recall Levels, Zipf's law.

IR - Schema zum Information Retrieval, Komponenten, Stemming, Lemmatisierung

Algorithmen - PageRank und Random Surfer Model (mit Formeln und Erklärung
der Matrix), Z-Box (mit Komplexität für average und worst case, Beweis)

Linguistik - wie funktioniert Sprachproduktion, woher kommen neue Wörter,
welche geschlossenen Wortklassen gibt es (z.B. Artikel)

= Note (Optional)
:-(

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Die Prüfung war OK, aber kam das, was ich nicht erwartet habe. Man muss sehr Preziss alle Laufzeite mit Beweis wissen.

Nr.	Prüfer	Fach
407	Leser Prof.	Informationsintegration

Protokoll

= Datum der Prüfung
12.03.09

= Benötigte Lernzeit als Empfehlung
zwei Wochen

= Verwendete Materialien (Bücher, Skripte etc...)
VL-Folien, das Buch

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Freundlich. Wie immer gab's zu Beginn ein bisschen Smalltalk über das Studium/Nebenfach

= Prüfungsfragen
1. Einleitung: EAI und Informationsintegration abgrenzen, Middleware einordnen

2. Schema-Matching:
- Was ist das? Warum macht man das?
- 4 Arten (labelbasiert, instanzbasiert, duplikatbasiert, strukturbasiert)
detailliert erklären (Similarity Flooding!) und Vor- und Nachteile nennen
- Warum ist duplikatbasiertes Matching schwierig? Welche Komplexität?

3. Duplikaterkennung:
- Was ist ein Duplikat?
- Wie teuer ist die naive Variante zur Duplikaterkennung?
Wieviele Vergleiche macht man genau? (hier wollte er auf ((n^2)/2-n)
Vergleiche hinaus. Das ist blöderweise nur im Buch erklärt, in den
VL-Folien gibt's nix dazu)
- SortedNeighborhood + Varianten erklären, Vor-/ Nachteile nennen, Komplexität herleiten
- Ähnlichkeitsmaße definieren, Vor- / Nachteile nennen
- Zielkonflikte: Wie beeinflussen Ähnlichkeitsmaße, Partitionsgrößen und
Schwellwert Precision, Recall und Effizienz?
(Da gabs so ein Dreieck in der VL...)

4. Semantic Web
- Sparql, RDF, OWL einordnen
- Welche Unterschiede gibt es zwischen OWL lite, full und dl?

5. Semantische Integration
- Prozess der semantischen Integration erklären
- Was ist eine Query?
- Wie funktioniert die Anfragebearbeitung?
- Wo sind Antworten auf die Query zu finden?

= Note (Optional)
2.0

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Note war angemessen, weil ich bei semantischer Integration recht große Lücken hatte. Annahme: Das Thema kommt nicht dran, weil der Prof mal meinte, er könne das Thema nicht leiden. -> Fehler
Die Fragenauswahl fand ich ziemlich unfair, da nur Themen aus dem letzten Drittel der VL gefragt wurden. Große Bereiche, die lang und ausführlich in der VL behandelt wurden, kamen überhaupt nicht dran.

Nr.	Prüfer	Fach
415	Leser Prof.	Informationsintegration

Protokoll

= Datum der Prüfung
28.05.09
= Benötigte Lernzeit als Empfehlung

Habe 10 Tage gelernt. 2 Woche sind aber wahrscheinlich besser.

= Verwendete Materialien (Bücher, Skripte etc...)
Eigentlich nur das Skript.

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Die Atmosphäre war sehr entspannt. Herr Leser hat erstmal gefragt wie es mit dem Rest des Studiums aussieht und dann ging es los. Der Beisitzer war die ganze Zeit ruhig.

= Prüfungsfragen

- Was sind die Dimensionen von Informationssystemen?
- Gehen sie auf Verteilung näher ein!
- Ordnen sie die kennengelernten Informationssystem in das Schema (Diagramm der Dimensionen) ein!
- Nennen sie dabei die Eigenschaften der Informationssysteme!
- Nennen sie die Schichten der 5-Schichten-Architektur samt ihrer Funktionen!
- Nennen sie die Schritte der Anfragebearbeitung und erklären sie ihre Funktion!
- Was ist eine LaV-Korrespondens?
- Erklären sie den Frozen-Facts Algorithmus!
- Wann ist ein Plan semantisch korrekt? (Dazu hab ich noch Query Containment definiert)
- Was ist Schema Matching?
- Welche Verfahren hatte wir da kennen gelernt? (brauchte hier duplikatsbasiert nicht erklären)
- Was machen wir beim globalen Matching?

= Note (Optional)
1.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Sehr gute und faire Prüfung. Herr Leser hatte zwar ein bisschen Zeitdruck. Habe es aber im ersten Teil der Prüfung noch geschafft ihn zu überholen :)

Nr.	Prüfer	Fach
495	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
März 2011

= Benötigte Lernzeit als Empfehlung
Fast immer anwesend gewesen als Basis - das ist empfehlenswert, auch da das Script nicht alle Details beinhaltet
1x Script Durcharbeiten - wirklich gründlich, aber schwer in Tagen anzugeben, ich empfehle beinahe es nicht am Stück zu versuchen
2 1/2 Tage intensives Lernen

= Verwendete Materialien (Bücher, Skripte etc...)
Das Script ist hervorragend, wenn man anwesend war und manche \"Why?\" inhaltlich füllen kann. Für Detail- und Definitionsfragen hilft sonst auch Wikipedia.

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Unglaublich entspannt. Gerade da es meine erste Hauptstudiumsprüfung war, wusste ich nicht, was mich erwartet. Herr Leser quatscht aber gern locker drauf los und lässt ein nettes Gespräch entstehen. Man kann auch locker antworten, auf übertriebene Förmlichkeit legt er keinen Wert.

Die Beisitzerin lächelt nett und sagte nichts.

= Prüfungsfragen
Wie in der VL angekündigt kommen die Fragen blockweise. Ich hatte als Themenblöcke:
Was ist Information Retrieval, wie funktioniert Anfragebeantwortung?
- Unterschied Inf. Retrieval vs. DB-Queries
- Abarbeitungsfolge im IR - Corpus-Preprocessing, Stemming etc., Query beantworten
- Was gibt es für Query-Typen? Bool\'sch, VSM, VSM mit LSI, Phrase-Queries (da bin ich nicht drauf gekommen), probabilistisch

Stop Words
- Was sind stop words, wozu entfernt man sie?
- Wie viele würden Sie entfernen? Persönliche Meinung gefragt. Folgefragen: Warum diese Menge? Was bringt das an Platzersparnis?
- Stop Words in mehrsprachigen Corpora: Kann man auch einfach die häufigsten Worte entfernen, welche Risiken bestehen?
- Stop words in Fach-Corpora: Achtung, man könnte Abkürzungen o.Ä. als Stop Words betrachten und entfernen
- Was kann schief gehen? => (Phrase) Queries mit Stop Words drin
- Speicheraufwandsgewinn bei Phrase Queries, wenn man Stop Words verwendet (deutlich mehr)

Bool\'sche Queries - Wie funktionieren Bool\'sche Queries? Da ich relativ viel geredet habe, hat er da nicht sehr viel gefragt.
- Mengenoperationen
- Selektivität
- nicht relevant: exakte Formeln oder Laufzeiten

Stringsuche - Was gibt es da für 2 Algorithmen?
=> Primitiv - Wie funktionierts? Laufzeit?
=> Boyer-Moore
- Komplett erklären, mit Bad Character Rule + Good Suffix Rule. Beispiele ruhig aufmalen, das hilft Prüfer und Geprüftem ;-)
- Laufzeit?
- Wie sieht der Best-Case aus? Beispiel. (Template a* soll auf Pattern b* gematcht werden. Laufzeit: Templatelänge/Patternlänge) Hier war spontan kurzes Nachdenken gefragt, dafür wird einem aber auch genügend Zeit gegeben. Wenn man auf die Lösung kommt, ist\'s gut.
- Vermutlich da ich\'s eh erwähnt habe, wurde nach Erweiterungen von Boyer-Moore nicht mehr gefragt.

PosTagging:
- Was sind PosTags?
- Wie kann man PosTags vergeben? => Häufigstes posTag aus dem Goldstandard / HMM
- Wie gut funktioniert\'s, wenn man das häufiges posTag aus dem GoldStandard verwendet? (90% accuracy im Englischen) Wie sieht\'s im Deutschen aus?

HMM:
- Komplett erklären. Ich empfehle dringend: Aufmalen. Man hat ja Papier da.
- Wie sieht das Modell aus?
- Wie findet man die Wahrscheinlichkeiten?
- Wie kann man hierbei smoothen? Laplace vs. Lipstone. Was haben Sie im Praktikum verwendet? Ergebnisse?
- Wie kann mittels Viterbi getaggt werden? Ich habe auch hier gemalt, ein Minibeispiel mit 3 Tags und 3 Worten im Satz reicht da vollkommen aus.
- Wie ist die Laufzeit von Viterbi? < Ich weiß nicht, wie präzise ich da hätte sein müssen, im Zweifel einfach lieber zu präzise antworten :)

= Note (Optional)
Sehr gut.

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Als ich herausging, dachte ich noch \"War nicht so prickelnd.\" Herr Leser hat einige Nachfragen, gerade am Anfang, stellen müssen, bis ich auf die Wunschantworten kam. So viel wurde ja auch gar nicht gefragt - gefühlt. Erst jetzt, wo ich\'s aufschreibe, stelle ich fest, dass ich doch einige Themen durchgeackert habe.

Wichtig zu wissen: Nichtwissen ist erlaubt. Bevor man lange rumeiert, sagt man lieber \"Ich weiß nicht, wodrauf Sie hinauswollen.\" Dann stellt er die Frage anders/konkreter und man kann wieder in Ruhe antworten. Gerade bei sehr offenen und unklaren Fragen kann das helfen.
Wichtig auch: Wissen, das man hat, ruhig preisgeben. Wo ich einfach relativ viel von mir aus erzählt habe, gab es auch kaum Nachfragen. (Und ich konnte so Schwächen in einzelnen Untergebieten einfach umschiffen.) Wenn es ihm zu viel wird, stellt er Zwischenfragen oder wechselt das Thema.

Alles in allem: Viel viel besser als erwartet. Die VL ist echt viel Arbeit, aber Herr Lesers Prüfungsstil macht einiges wett in der Gesamtbewertung der Veranstaltung ;-) Wo ich nach dem Praktikum noch dachte \"Nie wieder\", bin ich jetzt gar nicht so sicher nicht doch bald wiederzukommen.

Nr.	Prüfer	Fach
497	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung

März 2011

= Benötigte Lernzeit als Empfehlung

10 Tage Skript intensiv durchgehen und versuchen alles zu verstehen. 2 Tage intensives Lernen. 2 Tage mit Kommilitonen offene Fragen klären und sich gegenseitig abfragen. Mehr ist natürlich immer gut ;)

= Verwendete Materialien (Bücher, Skripte etc...)

Skript.

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer

Sehr entspannt. Professor Leser und Beisitzerin waren sehr freundlich. Professor Leser gelingt es, dass die Nervösität während der Prüfungs immer mehr abnimmt anstatt andersherum ;)

= Prüfungsfragen

- Unterschied IR und DB
- Was ist KWIK?
- Was sind Homonyme/Synonyme und welche Auswirkung haben sie auf IR?
- Wie kann man Synonyme auflösen? Kann LSI Synonyme auflösen? Warum macht Google höchstwahrscheinlich keine Synonymauflösung?
- Zipf\'s Law und Auswirkungen auf IR
- Unterschied Web Search und IR
- Zusammenhang Prestige und Random Surfer Model
- Herleitung von Page Rank mittels Random Surfer Model (...notwendige Eigenschaften der Adjazenzmatrix, um das Eigenwertproblem zu lösen?)
- Erklärung Hits und Nachteile gegenüber Page Rank
- Was ist Classification?
- Welche Classifier hatten wir? (SVM, Naive Bayes, Maximum Entropy und KNN)
- KNN erklären und Nachteile erläutern
- Was ist Overfitting? Wie kriegt man mit, dass man overfittet? Was kann man dagegen machen?

= Note (Optional)

Sehr gut.

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Professor Leser stellt gerne Fragen, die das Verständnis größere Zusammenhänge testen. Formeln spielen in der Regel eine untergeordnete Rolle. Vor- und Nachteile der einzelnen Ansätze sollten verinnerlicht oder zumindest herleitbar sein. Einige Fragen sind auch mit umfangreichem Wissen zum Stoff nur schwer zu beantworten - durch diese Fragen darf man sich aber definitiv nicht verrückt machen lassen. Weiß man irgendetwas nicht, kann man das ruhig zugeben - das spart Zeit und muss (vor allem bei sehr schwierigen Fragen) nicht gleich zu einem Notenabzug führen. Alles in allem eine fordernde, aber sehr faire und gute Prüfung.

Nr.	Prüfer	Fach
507	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
März 2011
= Benötigte Lernzeit als Empfehlung
2 Wochen waren genau richtig, nicht von der Anzahl der Folien verunsichern lassen und durchhalten
= Verwendete Materialien (Bücher, Skripte etc...)
Skript (erfordert aber die Erinnerung an die VL)
Lernscript von http://www2.informatik.hu-berlin.de/~A. Nonym/ (hauptsächlich um bei manchen Folien Unklarheiten nochmal anders formuliert zu lesen, ansonsten deckt es sich mit den Folien)
Buch Modern IR (gut für den Zusammenhang)
= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Echt entspannt, sehr langer Smalltalk (hatte ich auf Grund der Protokolle schon mit gerechnet) was viel Nervosität genommen hat. Leser war sehr nett, der Beisitzer hat nicht viel gesagt war aber auch nett
= Prüfungsfragen
Einstieg mit Lieblingsthema wäre möglich gewesen, hab ich aber nicht gemacht
Exaktes Stringmatching (Naiv, BM, Worst-, Best-Case, Komplexität)
POS, Grammatik-Frage (in welcher Form kann ein Wort verändert sein: Tempus, Fall, ...; hat mich etwas verwirrt), MM, HMM, Viterbi (inkl. Komplexität), Smoothing
MLE
NER, Sliding Window für Multi-Token-NEs (wusste ich nicht), Dictionaries
= Note (Optional)
1,7
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Zeit ging schnell rum, durch den lockeren Einstieg kam man gut in einen Fluss und musste nicht von Frage zu Frage bangen... Die Komplexitäten musste ich z.T. erst herleiten, war aber wohl nicht so tragisch... Zum Ende hin kam ich dann nicht auf die Idee mit dem Sliding Window, daher sind Abzüge bei der Note voll gerechtfertigt... Wie die anderen Protokolle (von diesem Semester) schon vorhergesagt haben ists ne super Prüfung und ich werd versuchen wieder eine VL von Leser zu besuchen!

Nr.	Prüfer	Fach
527	Leser Prof.	Bioinformatik

Protokoll

Datum: 26. August 2011

Lernaufwand: 4 Tage Intensivstudium reichen zur Auffrischung, wenn man im Semester fleißig war

Materialien: VL Folien + Gußmann + Wikipedia + zusätzliche Webseiten

Atmosphäre: Ich war ein wenig verwundert, dass die Prüfung im Büro von Herrn Leser stattfand. Ich bin da eher neutrale Orte für Prüfungen gewohnt. Aber ansonsten entspannt.

Fragen:
   - Exaktes Matching mit Boyer-Moore (selbst gewählt) + BCR + EBCR + weak/strong/super strong GSR + Komplexität(avergage, WC) + Platzverbraucht + was ist das beste

   - Multiples Sequence Alignment + Definition + Komplexität(für optimales MSA) + Sum of Pairs +  Nachteile aus Informatik- und Biologiesicht + ClustalW + Guide Tree + Phylogenitischer Baum

   - Microarrays + so ziemlich alles was man dazu sagen und machen kann

Note: 1.0
Fazit: Fleißig lernen und Enthusiamsmus zeigen. Herr Leser hat einen String an Antworten, den er leider verbirgt. Die Aufgabe ist nun einfach einen eigenen String vorzutragen, der seinem möglichst ähnlich ist und am besten keine Gaps hat. ;)

Nr.	Prüfer	Fach
552	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
Februar 2012
= Benötigte Lernzeit als Empfehlung
14 Tage sollten eingeplant werden, sehr viel Stoff
= Verwendete Materialien (Bücher, Skripte etc...)
Skript, Google, Wikipedia
= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
alles sehr entspannt, kurzes Gespräch über das Studium und Schwerpunkte, Beisitzer hat nichts gesagt, dann ging es mit dem Lieblingsthema los
= Prüfungsfragen
- Elemente vom MDDM nennen
- Wie spielen die Elemente zusammen?
- müssen Klassifikationsstufen innerhalb eines Schemas immer funktional voneinander abhängen? (Nein -> Woche + Jahr)
- Erstellen Sie ein Data Warehouse für ein Telekommunikationsanbieter: Dauer von Anrufen tracken, eigener Kunde oder Kunde vom Wettbewerber?, Ort + Zeit als zusätzliche Dimension. (es gibt keine optimale Lösung)
- Group-by Anfrage auf sein eigenes Schema stellen
- Was macht Cube und wie wird group-by implementiert?
- Erklären Sie group-by mit Sortierung
- Was sind Probleme bei Materialized Views? (Selektion, Aktualität, ...)
- Wie kann man das Problem der Selektion lösen? (Pipesort erklären und Aggregationsgitter aufmalen)
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
angenehme Prüfung, sehr faire Bewertung. Prof. Leser gibt ausreichend Zeit zum Nachdenken und unterstützt auch wenn nicht sofort die Antwort einfällt. Hauptsächlich sollte auf Verständnis gelernt werden und Zusammenhänge sollten verstanden werden. Formale Definitionen interessieren nicht.

Nr.	Prüfer	Fach
554	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
29.02.2012

= Benötigte Lernzeit als Empfehlung
14 Tage

= Verwendete Materialien (Bücher, Skripte etc...)
Script, Mitschriften

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
sehr entspannte Atmosphäre, kurzer Smalltalk

= Prüfungsfragen
----Indexierung----
- B*-Bäume
Er wollte relativ genau wissen was passiert wenn man einen Knoten im B* Baum löscht und was dann passieren kann (Mergen von Knoten) und was man dann machen muss (Pointer neu setzen etc.).
- Bitmap Index
Danach waren Bitmap Indexe dran. Ich sollte kurz den Aufbau erklären und einen Index skizzieren. Danach wollte Prof. Leser wissen, wie man einen Bitmap Index bei zusammengesetzten Bedingungen benutzt. Er hatte zwei Bedingungen X=1 AND Y=2 gegeben und wollte wissen wie die beiden Indexe benutzt werden können. Gleiches für X=1 OR Y=2 und X=1 AND Y!=2. Ich wusste nicht genau worauf er hinaus wollte aber am Ende wollte er wirklich nur die logische Verknüpfung also X AND NOT Y etc.
Danach folgte ein Übergang zur Komprimierung (Was macht man wenn der Index nicht in den Hauptspeicher passt?). Ich sollte kurz RLE1 und 2 erklären. Wir sind dann relativ detailliert auf die Veränderung der Zahlenbasis eingegangen. Er fragte mich wie man 25 verschiedene Werte anders darstellen kann. Ich sollte dann für meine Zahlenbasis <3,4,3> einen Wert darstellen. Danach kam die Frage, ob man 25 Werte auch mit 8 Bit darstellen könnte.

----Klassifizierung----
Was macht man bei Klassifizierung? Kurz alle drei Verfahren (Bayes, Entscheidungsbaum, Nearest Neighboor) erklären. Vorteile und Nachteile aller Verfahren nennen. Naive Bayes wollte er relativ genau erklärt haben (Zusammenspiel der Wahrscheinlichkeiten). Beim Entscheidungsbaum wollte er wissen wie man eine Entscheidung nennt (=Split).

----Partitionierung----
Welche Arten gibt es? Was sind die Vorteile? Wofür verwendet man die einzelnen Formen. Er fragt hier schon relativ genau nach warum man z.B. bei häufigen Wertänderungen auf einigen Attributen vertikal Partitionieren kann. Auch bei den Vorteilen bei der Horizontalen Partitionierung wollte er mehr wissen als Parallelisierung.

= Note (Optional)
1,3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Ich hatte einige genaue Begriffe wie z.B. Split oder den Namen der Wahrscheinlichkeit bei Bayes (Apriori-Wahrscheinlichkeit) nicht parat oder wusste nicht worauf er hinaus wollte und war beim B*-Baum etwas begriffsstutzig. Insgesamt legt er weniger Wert auf Formalien sondern eher auf gutes Verständnis. Um dies zu Überprüfen hakt er gerne auch etwas tiefer nach, hilft aber auch wenn man nicht genau weiß worauf er hinaus will. Am Ende war die Note besser als mein Gefühl es erwartet hätte.

Nr.	Prüfer	Fach
555	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
29.02.2012
= Benötigte Lernzeit als Empfehlung
2 Wochen mit DBS1 Vorwissen
= Verwendete Materialien (Bücher, Skripte etc...)
Skript, Wikipedia, Literatur (Datenbanktechnologie für Data-Warehouse-Systeme. Konzepte und Methoden von Wolfgang Lehner)

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer

Angenehm und locker. Beisitzer notierte nur, Prof. Leser führte am Anfang 5 Minuten Smalltalk über Studiumsverlauf
= Prüfungsfragen

Haben Sie ein Lieblingsthema? -> Indexierung

- B*-Baum erklären
- Komplexität von B*-Bäumen
- Einfügeoperationen / Balancierung
- BULK-LOAD von 1 Million Tupeln in einen nicht leeren B*-Baum
- Bitmap-Index erklären
- Unterschiede zum B*-Baum am Beispiel mit x-Tupeln und n-Attributen
- Vorteile/Nachteile? (Beispiel mit Verkettung von Bedingungen an A=5 und B=7, dann, A=5 B!=7.)
- Kompression erklären: RLE1 / RLE2
- Vertikale Komprimierung erklären am Beispiel: Welche Komprimierung für Wertebereich von 25? Wie viele Bitarrays? Wähle <3,3,3> - geht das auch mit <5,5> ? Was muss mehr Bitarrays laden? (<3,3,3> = 3 ), was braucht mehr Speicher? (<5,5> = 10 Bit), geht das noch kleiner? -> Binär
- ETL: Was ist das?, Prozess erklären
- Macht es Sinn Staging Area auf anderem System als Basisdaten zu haben ? -> Ja OLTP vs. OLAP optimierte Systeme. Staging Area eher OLTP.  
- Differential Snapshot Problem: Was ist das ? -> Definition aus Folien
- Lösung? -> 5 Algorithmen aufgezählt
- Erklären sie einen davon ausführlich + Kosten -> DS_hash
- Duplikaterkennung: Wo liegt das Problem?
- Lösung? Kosten? (Simpel, also jedes Tupel mit jedem Tupel vergleichen / mit Window)
- Wenn Sie ihr Window verkleinern, wie verändert sich Precision, Recall und Kosten?

= Note (Optional)
1,3
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Absolut faire Prüfung und angemessene Benotung.

Nr.	Prüfer	Fach
556	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
  Februar 2012

= Benötigte Lernzeit als Empfehlung
  1 Woche

= Verwendete Materialien (Bücher, Skripte etc...)
  Skript

= \"Atmosphäre\" der Prüfung
  gut, relativ entspannt

= Prüfungsfragen

1. Clustering (mein Wahlthema)
 - Arten von Clusteralgorithmen
 -- hierarchisches Clustern erklären
 -- k-Mean und k-Medoid erklären und Laufzeitkomplexität bestimmen
    (Startwerte, Berechnung der Mittelwerte)

2. Star-Join
 - Erklären was das ist
 - Besonderheit der Bevorzugung des kartesischen Produktes
 - Bitmap-Join-Index erklären
 - Bloom-Filter erklären

3. OLAP vs OLTP
 - Unterschiede erklären

= Note (Optional) 
  1,3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
  Meine Ausdrucksweise war nicht immer klar und deutlich und die Antworten kamen nicht immer so wie er es gern hätte.
  Mit Nachfragen und Diskussion kann man sich aber trotzdem gut verständigen.
  Gute Benotung

Nr.	Prüfer	Fach
559	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
3.2012
= Benötigte Lernzeit als Empfehlung
Wenn man in der Vorlesung war reichen 5 Tage
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien + Lernskript von http://www2.informatik.hu-berlin.de/~A. Nonym/
(passwort Lernskript erratbar)
= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Beisitzer sagt nichts, hat nur den Studiausweis überprüft und Notizen gemacht.
Wir haben uns am Anfang über meinen Studiumsfortschritt und gemachte Prüfungen unterhalten, ging aber nicht auf die Prüfungszeit.
= Prüfungsfragen
was ist ein suffix baum
wie baut man einen suffix baum
was kann man mit einem suffix baum machen
was ist ein suffix array
was kann man mit einem suffix array nicht machen was man mit einem suffix baum machen kann

was ist ein MSA
wozu braucht man das
Scoring funktionen: SoP (was wird womit aligniert, komplexität (berechnen und optimum finden)), Center Star, Clustal-W

wozu braucht man blast
was genau tut blast (überlappende teilstücken nehmen und mit substitutionsmatrix bewerten)
was tut blast2 anders (2hit Strategie)

UPGMA kennt niemand, wie heißt das allgemein? (Hierarchisches Clustering)

= Note (Optional)
2.7
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Gute Prüfung, viel Hilfe, Querbeet gefragt, bei \"Weiß ich nicht\" wird das Thema gewechselt. Note war dem Wissensstand angemessen.

Mein Tipp:
Zu jedem Thema X die Frage \"Wozu braucht man X und was gibt es da noch\" beantworten können

Nr.	Prüfer	Fach
560	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
02.März 2012
= Benötigte Lernzeit als Empfehlung
7 Tage / 80h ohne Vorlesung zu Besuchen, Übungsaufgaben selbst gelöst
= Verwendete Materialien (Bücher, Skripte etc...)
Skript
= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
sehr angehme, schon fast familiäre Atmosphäre (10min Fragen zu Studienverlauf etc.) ; Beisitzer war still
= Prüfungsfragen

- z-Box vollständig (komplette Fallunterscheidung; worst, best und avg Komplexität)
- Boyer-Moore, nur nennen und BCR, GSR sagen
- Suche nach mehreren Pattern gleichzeitig? -> Aho-Corasick ausführlich (Wie erstelle ich den Baum? Was muss ich dann machen? -> Failure Links; Was für ein Problem gibt es? -> Manche Matches werden übersehen; Eine hinreichende Bedingung, damit soetwas auftritt? Wie behebe ich das?)
- MSA: Möglichkeiten nennen. -> Frage von mir: Wie hieß das nochmal mit dem Baum?
- Wollen Sie Sum of Pairs oder mit phylogenetischem Baum erklären? -> SoP
- darauf hin SoP sehr aufühlich erklären. Nach meiner verbalen Formulierung malte er einen 1^3 Einträge Würfel und einen Pfad und fragte wie man den einen Abschnitt berechne; man sollte hier auch detailiert wissen wie man den Score für gemischte Match/Mismach/Delete Situationen berechnet
- Alignment von Seqeunz mit einem MSA: Möglichkeiten?
- Profile HMM etwas vertieft. Im Prinzip sagtee er nur ich solle das Bild malen mit den Ins-,Del-,Match- Zuständen

= Note (Optional)
1,3
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Ich 2,3 Mal nach einem Namen fragen bzw. nach einem kurzen Stichpunkt zu einem von ihm genannten Namen fragen. Das muss er wohl (korrekterweise) als Prüfungsaufregung gedeutet haben.
Im Verlauf meiner Erklärungen hatte ich oft leichte Abweichungen zu den von Prof. Leser vorgestellten Verfahren. Wenn ich von ihm eine Auflösung gehört habe, habe ich immer deutlich gemacht inwiefern ich davon grade leicht abgewichen bin, bzw. inwiefern ich genau das gemacht habe. Ich habe hier ehrlich gasagt mit einer deutlich schlechteren Bewertung seinerseits gerechnet. Es bleibt also festzuhalten, dass ein Dialog über seine Vorstellungen und den eigenen Vortrag außerordentlich fair und aufgeschlossen behandelt wird (natürlich sollte man sich hier nicht verrennen).

Nr.	Prüfer	Fach
567	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
April 2012

= Benötigte Lernzeit als Empfehlung
Man sollte schon wenigstens eine Woche einplanen, insbesondere wenn die Übungsaufgaben nicht allzu erfolgreich waren.

= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien, Repetitoriumsfolien

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Freundliche aber fordernde Atmosphäre, bei Nicht-Wissen leiden alle Anwesenden darunter ;) Beisitzer hält sich im Hintergrund und notiert lediglich den Prüfungsverlauf.

= Prüfungsfragen
- Multidimensionales Datenmodell
- MOLAP: Typen (value per unit, flow, stock)
- ROLAP: Star-, Snow-Schema, Größenunterschiede?
- Star Join: Was ist das Problem? (Reihenfolge der Einzeljoins)
- Bitmap-Indizes: Ergebnis via AND Wie nutzen für den Join?, Wie komprimieren? (horizontal: RLE1, RLE2, vertikal)
- CUBE-Operator: Was ist das? Was ist das Problem? (Gruppierungen wiederverwenden; Wie? Smallest Parent etc)
- Iceberg Cubes, HAVING, Optimierung (Obergruppen ausschließen wenn Untergruppe schon nicht erfüllt)

= Note
2,0

= Fazit
Sehr faire Prüfung, Prof. Leser versucht mit allen Mitteln, vorhandenes Wissen zu finden. Dafür werden auch ggf. unangenehme Fragen gestellt.

Nr.	Prüfer	Fach
568	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
April 2012

= Benötigte Lernzeit als Empfehlung
10 Tage intensivlernen ohne große Vorkenntnisse

= Verwendete Materialien (Bücher, Skripte etc...)
Skript + Web

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
sehr entspannt mit Unipolitischer Diskussion zur Einstimmung

= Prüfungsfragen
Angefangen mit Wunschthema Phylogeny
 - Unterschiedliche Verfahren
 - Distanzbasiert im Detail
Umschwenken auf MSA
 - Sum of Pair mit Algorithmus
 - Clustal W (hier musste ich leider passen)
Sprung zu Keyword Trees
 - Erstellung/Suche/Komplexität

= Note (Optional)
1.7

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
harte Prüfung, da ich an vielen Stellen angeeckt bin und mich nicht immer gleich verständlich ausdrücken konnte. Prof. Lesers Hinweise helfen aber am Ende auf den Punkt zu kommen und führen zum Ergebnis. Alles in allem sehr zufrieden mit der Benotung. Wiederspiegelt auch ungefähr meinen Wissensstand

Nr.	Prüfer	Fach
569	Leser Prof.	Data Warehousing und Data Mining

Protokoll

= Datum der Prüfung
März 2012

= Benötigte Lernzeit als Empfehlung
wenige Tage intensivlernen bei gutem Vorwissen

= Verwendete Materialien (Bücher, Skripte etc...)
Skript

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
sehr entspannte Atmosphäre und Auflockerung der Aufregung durch Gespräch über s Studium zu Beginn

= Prüfungsfragen
Einstieg Wunschthema Data Mining
 - Welche Verfahren
 - Detailabstieg in Klassifikation
 - Naive Bayes sehr detailliert mit eigenen Denkansätzen

Sprung zu logischer Optimierung
 - Partionierung Horizontal / Vertikal

ETL Prozess
 - Was ist das
 - Monolog bis zum Prüfungsende

= Note (Optional)
1.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr solide Prüfung mit Ansätzen zum weiterdenken, aber auch der ein oder anderen Kante zum aufreiben.

Nr.	Prüfer	Fach
578	Leser Prof.	Informationsintegration

Protokoll

= Datum der Prüfung
13.08.12
= Benötigte Lernzeit als Empfehlung
2 Wochen
= Verwendete Materialien (Bücher, Skripte etc...)
Buch, Folien
= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Locker und entspannt.
= Prüfungsfragen

1. Architekturen
Parallele, verteilte und foderierte Datenbanken voneinander abgrenzen. Danach Mediator Wrapper Architektur erklären. Wie extrahiert ein Wrapper Daten auseiner Webquelle. DOM Baum ganz kurz erklären. Lose Kopplung erklären.

2. Schema SQL
Was kann es mehr als SQL.? Geschachtelte Deklarationen erklären. Auf was kann man zugreifen?

3. Containment Mapping
Zusammenhang mit Anfrageplanung erklären. Kriterien. Depth First und tröten facts erklären. Komplexität df erläutern. Kann man aufhören wenn man ein cm hat? Warum nicht? Am einfachen Beispiel zeigen warum cm Einfluss auf das Ergebnis hat.

4 Semi Joins
Semi join formal hinschreiben und erklären. Was ist ein semi join Programm? Reducer? Full reducer? Andere Optimierungsmöglixhkeiten (multithread, caching, multicast etc) nennen. Gilt join order Opting auch für 

= Note (Optional)
1.0
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Was soll ich sagen. Kann mich nicht beschweren. Viel Stoff. Die Fragen gingen gefühlt nicht ganz so in die Tiefe wie bei DWDM was aber auch daran liegen kann, dass ich wusste was mich erwartet. Jedoch werden immer wieder Verständnisfragen eingestreut. Die Übungen sind nicht relevant.

Nr.	Prüfer	Fach
587	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

= Datum der Prüfung
25.02.2013

= Benötigte Lernzeit als Empfehlung
Ich empfehle: 7 Tage Zeit. Es dauert, bis man alle Formeln und Beispiele durchgeacket und nachvollziehbar verstanden hat. 3 Tage Vollzeitlernen haben bei mir gereicht, jedoch konnte ich auch Kommilitonen fragen, wenn ich nicht weiter kam, die ein, zwei Dinge schon durchdrungen hatten. Ich empfehle hier besonders Lerngruppen, um die vielen Formeln und Beispiele auch zu verstehen. Gleiches dann auch kurz vor der Prüfung, wo jeder die Themen noch mal kurz erklärt bzw. auch sich selbst kontrolliert. Natürlich ist die Lernzeit Typ-abhängig!

= Verwendete Materialien (Bücher, Skripte etc...)
Hauptsächlich die Folien. Ich hatte mir das Buch >Datenbanken: Implementierungstechniken< von Saake, Heuer und Sattler noch ausgeliehen (aus der Bib), aber habe am Ende bis auf 1-2 Seiten nichts gelesen. Ansonsten viele Internetseiten zum Recherchieren der Formeln. (Google zeigte mir öfter als Treffer >Datenbanksysteme: Eine Einführung von Alfons Kemper,André Eickler< bei Google Books, was sich auch recht gut las)
Nicht zu verachten die Prüfungsprotokolle!!!! ... aber da du dies hier schon liest :)

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Sehr entspannt. Da ich im 1. Masterjahrgang bin und es mir nicht so gut ging + starke Aufregung, dauert der Smalltalk etwas länger als die geplanten 5 Minuten. Er lenkte dann aber schon zur Prüfung, als es genug war. Der Beisitzer war ruhig, hat nur ab und zu mal genickt oder nen skeptischen Blick geworfen, den mal sich zu Herzen nehmen sollte und evtl. noch mal kurz nachdenkt. Ansonsten sagt Herr Leser einem aber auch, ob die Antwort in Ordnung ist oder nicht.

= Prüfungsfragen
Ich habe mit einem Wunschthema angefangen: Recovery
- Was ist Recovery, wann wird es gebraucht -> Fehlertypen
- Fehlertypen aufzählen + Beispiele, Recovery einordnen und Lösungsvorschläge für die anderen nennen (z.b. RAID für Plattenfehler)
- Erklären von REDO Logging: kurz erklärt, aber um den Vorteil herauszuheben auch kurz auf UNDO eingangen -> Informationsfluss / IO-Fluss
- Welche Abhängigkeiten gibt es bei der IO? Wie sieht der Zugriff auf IO dann aus? (batch/random)
- Warum teilt man Log und Daten auf separate Platten
- Wie sieht das ganze bei UNDO/REDO aus?

Übergang zum Thema RAID:
- Erklären sie RAID 1 und 0 (Zeiten für Lesen/Schreiben, Ausfallsicherheit, Nettoverbrauch des Bruttoplatzes)
- - Was passiert bei kleinen Dateien mit wenigen Blöcken? Lohnt es sich hier? -> Da Seektime der statische und größte Faktor: weniger!
- Erklärung von RAID 1+0 (10): Wie sehen die genannten Punkte hier aus?
- - Wie schnell kann man bei RAID 10 lesen? (->mindestens 4fach, da mind. 4 Platten)
- Erklärung von RAID 5 (hier auch explizit nennen, dass Daten + Parität die Platte jeweils wechseln)
- - Wieviele Platten dürfen ausfallen (bei 3 Platten)? -> 1, wie kann man das steigern? Mirroring oder Parität häufiger speichern, wobei dann natürlich nur 1 Datenplatte maximal ausfallen darf + x Paritätplatten). < hier bin ich mir immer noch unsicher
- Wie sind die Ausfallzeiten einzuschätzen bei RAID 1 und 0? -> eher optimistisch, da idR. beide Platten nicht unabhängig ausfallen sondern dank Überspannung zusammen o.ä. (für 0 ebenfalls opt. auch wenn schon verringert durch MTTF/N)

Themawechsel zu Hashing
- Erklären sie allg. Hashing, wie bildet man eine Hashfunktion (z.b. über statistische Informationen, damit sie eine möglichst Gleichverteilung erstellt)
- - Wie viele Buckets erstellt man? Durch die Informationen hätte ich eben \"k\" gesagt, aber eine DB nutzt natürlich den ganzen Speicher, wenn möglich, also m Buckets
- - Wie werden die Daten aufgeteilt? -> alle lesen, hashen und wieder schreiben
- - Wie viel IO hat man hier? IdR 1 IO, aber durch Overflow-Buckets auch mehr möglich

- Dynamische Hashverfahren? > extensible und linear Hashing
- - Wie funktioniert extensible Hashing, wann wird ein Block gesplittet, wie passt sie sich dynamisch an?
- - -> Hashtabelle immer verdoppeln und Werte des Overflow-Blocks neu hashen und aufteilen; leere Buckets zeigen auf das bisherige Bucket
- - Aussagen zur Füllgarantie?
- - Fangfrage: Wenn man 50 Mio mal den gleichen Wert einfügt, wie groß wird die Hashtable (ohne Overflow)? --> Wenn dein Bucket nur 5 Werte fasst, reichen auch 6x gleicher Wert und die Hashtable würde dauernd splitten bis ins unendlich (<Antwort!), da die Werte nie aufgeteilt werden dank gleichem Hash < Hier habe ich erst falsch geantwortet, weil ich eine Formeln nennen wollte, bis er mir den Tipp gab, dass es eine Fangfrage ist..
- - Was passiert bei nicht unique (> doppelten) Werten? -> man braucht Overflow-Buckets, auch wenn bei extensible das nicht vorgesehen ist per se
- - Wie geht das löschen? -> Leere Buckets zusammenfassen, ggf. 2 Buckets mit jeweils unter der Hälfte an Werten zusammenfassen (je nach Implementierung)
- - Wann wird die Hashtabelle verkleinert: Wenn die >Local Depth< überall ungleich der >Global Depth< ist. (-> mindestens 50% der Buckets ohne eigenen Block)
- Erklären sie linear Hashing: Nur allgemein, welche Parameter braucht man, wie sieht die Cycle-Funktion aus, welche Bedingungen gibt es, was wird geteilt und welche Werte werden aufgeteilt

Ob meine Antworten hier jetzt richtig sind, sei mal dahin gestellt ...

= Note (Optional)
1.0

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Trotz der Aufregung, die sich auch nicht so recht legen wollte, eine gute Prüfung. Durch das Wunschthema, konnte ich zumindest anfangs punkten und man gewinnt Selbstvertrauen. Die detaillierten Nachfragen bringen einen immer wieder ins Grübeln, wo man jedoch kurz nachdenken sollte und dann antworten. Wenn man falsch antwortet, hat man ggf. auch Zeit es noch mal zu korrigieren, je nach Frage. Die Note hat mich sehr gefreut, hatte ja auch 1-2 Patzer drin, aber die großteils selbst korrigiert. --> Fehler & Nachdenken sind also erlaubt.
Wenn man eine Frage vergisst / nicht ganz versteht, unbedingt nachhaken - bringt einem etwas Zeit zum Nachdenken sowie evtl. eine zusätzliche, andere Sichtweise auf das Problem. Kleine Hinweise werden auch gegeben, wenn man nicht weiterkommt bzw. in die falsche Richtung geht (bei mir bei local/global Depth @Extensible Hashing).

Nr.	Prüfer	Fach
592	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
08.03.2013

= Benötigte Lernzeit als Empfehlung
1 Woche Minimum, wenn man im Semester nichts gemacht hat. Ich hätte gar nicht gedacht, dass es soooooo viel Stoff ist, aber das Wissen auf den Folien ist so komprimiert, dass man sehr viel können muss. Viel ergibt sich bei den späteren Vorlesungen auch, aber der große Teil liegt davor.

= Verwendete Materialien (Bücher, Skripte etc...)
Hauptsächlich die Folien, sowie 1-2 Kommilitonen, die auch das Buch \"IR\" teilweise gelesen haben. Zudem natürlich noch Internet für den Haufen an mathematischen Modellen.

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Da ich vor kurzem erst eine Prüfung bei ihm hatte, fiel der Smalltalk sehr kurz aus und man ist gleich gestartet. Der Beisitzer war ruhig und wie immer freundlich lächelnd :)

= Prüfungsfragen
Angefangen mit allgemeinem IR:
- Evaluationsmethode: Precision, Recall, F-Measure
- - Nachfrage: Warum F-Mesaure und nicht der Durchschnitt aus P und R? ([P+R]/2) Warum nicht sqrt(P^2 + R^2)? --> Weil man ganz leicht Systeme mit Recall 1 (alle Doks ausgeben) schaffen kann und dann die Kennzahl z.b. 0,5 ergibt, was unbrauchbar ist.
- - Wie hängen P und R miteinander zusammen?
- - Wie lassen sich P und R steigern und warum?

Welche IR Modelle kennen Sie? -> 4 Stück
- Erläutern Sie das probabilistische Modell (Binary Independence Model) --> fand ich schwierig und habe hier auch viel rumgestammelt
- Erläutern Sie LSI --> fand ich auch schwer -> Rumgestammel
- - hier sollte ich schon mathematischer werden und auch erklären, was die Konzepte dann dort sind und wieso man die Matrix zerlegt etc.
- - Nachfragen: Würde Google solch ein System nutzen? Was wäre, wenn sie das Modell im Vorfeld berechnet hätten, wie wäre die Suche?

Erklären Sie den Boyer Moore Algorithmus. (Substring-Suche, hier ist das Wort wichtig, dass man nicht \"Wörter/Token/Terme\" sucht)
- Komplexitäten nennen: Worst und Average
- Leider meinte ich, dass durch die GSR man ein riesiges Array braucht, aber eigentlich braucht man ja nur eins der Länge |s|-2 (s=substring), weil man für jedes Suffix ja nur speichern muss, wo es noch vorkommt und zwar nur das rechteste Vorkommen (relativ zum Suffix selber --> links davon somit).

Erklären Sie NER
- Sinn/Ziel/Was ist eine Domäne? Wie sehen die aus? Was für Typen gibt es (geschlossen / offene)?
- Welche Ansätze kennen Sie?
- Würden Sie Dictionaries nutzen? --> Ich meinte ja, weil es in der Übung immer gute Resultate geliefert hat, natürlich unter der Annahme, dass das Dict gut gepflegt ist
- Rule-based sowie ML musste ich nicht mehr erläutern, hatte bei >Ansätze< jedoch schon jeweils 1 Satz dazu gesagt, aber die Zeit war um

= Note (Optional)
1.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Die Benotung ist überaus fair! Ich sehe zwar, dass ich viele Themen abgearbeitet habe, aber ich wusste auch wirklich einige Dinge nicht und meine Erläuterungen der beiden IR Modelle waren gelinde gesagt schlecht. Dort habe ich viel rumgestammelt, weil ich die Modelle schwer finde zu erklären, aber Herr Leser bemüht sich die Aussagen zu verstehen und die Informationen herauszufiltern aus dem Wulst an Aussagen. Die Note war auf Grund der Probleme (bei IR Evaluation allgemein, sowie den IR Modellen) \"mit gutem Willen\" :)

Nr.	Prüfer	Fach
593	Leser Prof.	Text Analytics

Protokoll

= Datum der Prüfung
08.03.2013

= Benötigte Lernzeit als Empfehlung

wenn man im Semester nicht viel gemacht hat, mind. 1 Woche alle Folien durchgehen und Grundwissensbasis schaffen. Am besten dann noch 2-3 Tage zusammen setzen mit Kommilitonen und sich gegenseitig die Sachen erklären, das hilft und festigt ungemein.

= Verwendete Materialien (Bücher, Skripte etc...)
Folien, Internet für diverse mathematische Modelle oder Begriffserklärungen, dict.cc :P

= \"Atmosphäre\" der Prüfung / Verhalten der Beisitzer
Die Atmosphäre ist bei Prof. Leser wie immer super entspannt. Vorher viel Smalltalk, wenn er nicht gerade ganz schnell los muss nach der Prüfung ^^ Herr Leser kann auch schon mal im Raum hin und her laufen, wie man es aus seiner VL kennt. Der nette Beisitzer schreibt nur mit.

= Prüfungsfragen
ich wurde gefragt, ob ich ein Lieblingsthema hätte und habe kurz überlegt. Ich meinte dann IR-Modelle oder Stringmatching. Zu meiner Freude kam dann sogar beides =)
> IR-Modelle
- also welche IR-Modelle gibt es
- Bool\'sches Modell erklären: wie funktioniert\'s, Vor- und Nachteile
- VSM erklären: Vektorraum?; Dokumente sind Punkte im Raum?; wie sehen die Vektoren für die Dokumente aus?; was für Werte stehen in den Vektoren?; kann man auch andere Werte nehmen? was für welche (1/0, term weights, mit IDF, mit log(IDF) etc.)?; was bewirken die IDF-Werte? sind diese immer sinnvoll oder kann man sie auch weglassen? wann?; wie funktioniert das Ranking (Winkel mit cos -> Formel)?

> Stringmatching mit Boyer-Moore
 - wie funktioniert das: Pattern wird gegen Template gematched von anfang zum Ende, aber die Zeichen von rechts nach links verglichen; beim BM will man nicht alle jedes Zeichen testen, indem man springt
 - Bad Character Rule (EBCR)
 - Good Suffix Rule
 - Komplexität (Average O(n + m), Worst O(n*m), Best-Case O(n/m); n=|T|; m=|P| )
 - am besten für die Regeln ein Schema aufmalen, das hilft Prüfer und Prüfling

> Named Entity Recognition 
- wofür ist das da, warum macht man das?
- welche Möglichkeiten gab es? (Dictionary-based, Rule-based, Machine-Learning-based)
 - Vor- und Nachtteile von Dictionary-based und ML-based
- braucht ML-based ein Trainingscorpus? kann man nicht einfach über ein Dictionary lernen? (nein, ein dictionary hat keine sequentiellen Informationen. darüber kann kein HMM gelernt werden)
- können dictonary-based mit Hynonymen klarkommen? (nein, da fehlt der Kontext zu den verschiedenen semantischen Konzepten)

> über die Hynonymunterscheidung kamen wir dann am Ende noch zu Word Sense Disambiguiation, aber das Thema hatte ich beim Lernen nur überflogen, da ich darauf spekuliert habe, dass soweit hinten kein Thema rankommt :P

= Note (Optional)
1,7

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
war selber über die Note erstaunt, hatte nicht so einen guten Eindruck. Hätte ich noch zu WSD was gewusst, wäre es eine 1,3 geworden. Prof. Lesers Hobby ist viele Transferfragen zu stellen, um zu sehen, ob man Zusammenhänge und die Modelle im Ganzen verstanden hat.

Nr.	Prüfer	Fach
608	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

Datum der Prüfung:
16.7.2013
Benötigte Lernzeit als Empfehlung:
2 Wochen
Aufgaben:
Das Gedächnisprotokoll der Klausur mit allen Aufgaben und dazugehörigen Puntzahlen liegt als .pdf vor. Ich habe keine Möglichkeit gefunden, diese auf eine Fachschaftsseite hochzuladen, deshalb liegt sie vorrübergehend in der Dropbox:

https://www.dropbox.com/s/888q80fnhalseir/Klausurprotokoll.pdf

Falls der Link nicht mehr funktioniert, oder jemand eine bessere Idee als Dropbox hat bitte eine kurze Email an jonas.marasus@cms.hu-berlin.de schicken, dann lade ich die datei anderswo hoch.

Nr.	Prüfer	Fach
715	Leser Prof.	Information Retrieval

Protokoll

= Datum der Prüfung
16.03.2015

= Benötigte Lernzeit als Empfehlung
2 Wochen bei regelmäßigem Besuch der Veranstaltungen

= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien und Lehrbuch "Introduction to Information Retrieval [Manning, Schütze]

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
sehr angenehme Prüfung, kleiner Smalltalk von Herr Lesers Seite um Nervostität zu nehmen.
Beisitzer war ruhig und hat protokolliert.
Fragen haben sich sehr auf Vorlesungsfolien bezogen; er fragt allerdings auch nach möglichen Implementierungen - man sollter also zu den meisten Verfahren auch eine Idee haben, wie man diese effizient implementiert.

= Prüfungsfragen
Was muss man mit den Dokumenten machen, bevor man sie indexieren kann?
-Preprocessingverfahren aufzählen
-Lemmatizing vs Stemming Pro & Contra aufzählen

Annahme Preprocessing ist fertig - Wie kann man die Indexierung effizient implementieren?
-Gesucht war eigentlich der block-based-Ansatz aus der Vorlesung - der fiel mir aber nicht komplett ein, also habe ich mir schnell einen alternativen Algorithmus ausgedacht, der auch akzeptiert wurde - daraufhin wurde allerdings gefragt, wie man diesen denn effizient parallelisieren könne

Was ist Language Modelling?
-Definition und Beispielanwendungen aufzählen
Wie wird es implementiert?
-N-Gramm-Frequenzen zählen, man benötigt einen Test-Corpus
Welchen Corpus benutzt T9?
-vorgegebener Corpus sowie gesammelte Nutzereingaben
Welches Problem tritt beim Language Modelling auf?
-Data Sparsity
Warum löst ein größerer Corpus das Problem nicht und warum tritt es auf?
-große N-Gramme besitzen exponentiell viele Kombinationen an Wörtern, kann durch größere Corpora nicht wirklich abgedeckt werden (Annahme Alphabet Größe 100, sowieso 4-Gramm - wie viele Kombinationen? 100^4)
Besitzt eine natürliche Sprache weitaus mehr oder weniger Wortkombinationen als Kombinationen von Wörtern bei großen N-Grammen?
-weitaus weniger, Betrachtung als semantisch unabhängige Wörter entspricht nicht der reellen Sprache
Wie kann man das Data-Sparsity-Problem lösen?
-Smoothing
  -Laplace (welches Problem tritt auf? - zu viel Wahrscheinlichkeitsmaße auf unbekannte Ereignisse)
  -Lidstone (wie funktioniert das Verfahren zum Finden von Lambda?)
  -Back-Off-Model (Erklärung + alternativer Ansatz der gewichteten N-Gramm-Modell-Gleichung)

= Note (Optional)
1,7

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr angenehme Prüfung - es wird sich bemüht, dass man die Nervosität etwas abwirft bevor es zu den Fragen kommt.
Benotung war überraschend positiv, da ich zwischendrin etwas gestrauchelt habe - insofern sehr angemessene und studentenfreundliche Benotung

Nr.	Prüfer	Fach
733	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

= Datum der Prüfung
10.9.15
= Benötigte Lernzeit als Empfehlung
4 Wochen
= Verwendete Materialien (Bücher, Skripte etc...)
Folien aus Vorlesung, Übung, Tutorium; Internet; Ottmann/Widmayer
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
dritter Prüfungsversuch -> starke Nervosität
Leser beginnt mit etwas Smalltalk (Wie läuft das Studium? Warum 2 mal durchgefallen), Beisitzer waren A. Nonym und ein Protokollant, Stift und Papier wird gestellt
Beisitzer sagen nichts
= Prüfungsfragen
Quick Sort --- wie funktioniert es genau? Komplexität von Worst/Average/Best-Case herleiten - kein genauer Beweis aber gut argumentieren können
Merge Sort --- wie funktioniert es genau? Komplexität von Worst/Average/Best-Case herleiten - kein genauer Beweis aber gut argumentieren können
Suchbäume --- Definition, Wie groß?, Kosten von Einfügen/Löschen, wie funktioniert das Löschen
Starke/schwache Zusammenhangskomponenten --- Was ist das? Wie berechnet man das? Kosaraju-Algorithmus ausführen
= Note (Optional)
bestanden ;)
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Die behandelten Themen werden sehr detailliert behandelt, Leser hilft bei Unsicherheiten weiter, Prüfung ist eher schlecht gelaufen

Nr.	Prüfer	Fach
738	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

= Datum der Prüfung
30.11.15
= Benötigte Lernzeit als Empfehlung
Ich habe mich 2 Wochen im voraus auf die Prüfung vorbereitet.
= Verwendete Materialien (Bücher, Skripte etc...)
Ich bin sämtliche Foliensätze durchgegangen und habe Definitionen herausgearbeitet. Der Prüfer möchte ungern den Bereich des Lernens eingrenzen, dennoch werde keine Bewesie oder ähnliches in der Prüfung besprochen.
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Herr Leser war sehr freundlich. Leitete das Gespräch und nahm mir die Nervösität, durch ein wenig Smalltalk, zum Beginn der Prüfung.
Die Beisitzer enthalten sich eigentlich den Gesprächen.
= Prüfungsfragen
Leser hatte mir im voraus gesagt, das Sortierverfahren ein beliebtes Thema seien. Demnach besprachen wir Quick- und Mergesort. Er wollte für jedes Verfahren eine kurze Erklärung, eine Konstelation von Best- und WorstCase und anhand dieser erklärt bekommen, wie die Fälle zustande kommen.
Danach ging er zum Thema "Hashing" über. Wozu macht man dies?, Welche Strategien gibt es? (Overflow, Open) Welche Unterschiede besitzen sie? Genaue Beispiele beider Strategien(direct chainning/seperate chainning; lineares H., double H.).
Zum Schluss stellte er mich vor die Wahl: Suchbäume oder Graphen - Suchbäume war meine Wahl:
Was sind allgemein Suchbäume? Min und Max Höhe eines Suchbaumes und zum Schluss das Löschen eines Knotens in einem Suchbaum.
= Note (Optional)
Ich habe mit 3.0 bestanden. Konnte auf vieles eine Antwort geben. Es haben aber Zusammenhänge zwischen einzelnen Aussagen gefehlt, weswegen die Note zustande kam.
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Sehr angenehme Prüfung.
Man sollte vieles hinterfragen beim Lernen, sodass man wirklich sämtliche Zusammenhänge gut formuliert wiedergeben kann. Er wird viel hinterfragen!

Nr.	Prüfer	Fach
753	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
29. Juli 2016

= Benötigte Lernzeit als Empfehlung
2 Wochen

= Verwendete Materialien (Bücher, Skripte etc...)
Skript, Wikipedia

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
schriftliche Prüfung!

= Prüfungsfragen

AUFGABE 1 (PSWM)

Gegeben: - eine PSWM, 6 Spalten (Positionen), 4 Zeilen (A, C, G, T)
- Sequenz S der Länge 7

a) Welche Sequenz erzeugt den höchsten Score für M? Wie hoch ist die Wahrscheinlichkeit für diese Sequenz, wenn diese unter M entstanden ist?

b) Log Odds Ratio berechnen für alle Subsequenzen von S, die auf M angewendet werden können

c) Was beschreibt das Log Odds Ratio?

AUFGABE 2 (Local Alignment)

Gegeben sind die Scores: Indel -2, Mismatch -1, Match +1

2 Strings der Länge 7 gegeben

a) In gegebener Tabelle mit Algorithmus optimale Local Alignment Score bestimmen

b) alle optimalen Local Alignments angeben (ohne “Überhang” / Zeichen über das Alignment heraus)

c) formale Definition von Dotplots angeben

AUFGABE 3 (BLAST)

a) Was macht BLAST? Warum haben wir es als Heuristik bezeichnet?

b) 2 Strings D1 und D2 gegeben, Penalty für Replacement -1, Match +1, Threshold t=3
Seeds bestimmen, Positionen in D1 und D2 angeben

c) Wie kann man Recall erhöhen durch Änderung von t oder q? Was muss man dafür in Kauf nehmen?

d) Welche 2 entscheidenden Veränderungen wurden zu BLAST2 vorgenommen?

AUFGABE 4 (PPI)

a) Skalenfreie Netzwerke definieren, intuitiv die Struktur erklären

b) In-betwenness Algorithmus in Pseudocode schreiben mit gegebenen Methoden:

shortestPath(s, t) - bestimmt alle kürzesten Pfade zwischen s und t als Liste von Listen
contains(L, s) - bestimmt, ob s in Liste L enthalten

der in-betweennes-Wert bc(v) für alle Knoten v des Graphen berechnet. In-betweennes war in der Aufgabenstellung ausführlich erklärt. 

c) Yeast2Hybrid Verfahren erklären, was will man damit herausfinden?

AUFGABE 5

a) Wie viele Gene hat der Mensch?
Wie viele verschiedene Chromosomen hat eine Frau?
Wie viele Basen hat ihr Genom?

b) Wie viele Aminosäuren hat ein humanes Protein mindestens und durchschnittlich? Was ist Splicing? Was ist differentielles Splicing?

c) Was ist ein Gene Expression Microarray mit Oligoprobes? Was will man damit herausfinden? Warum gibt es mehr Probes als es Gene gibt?

AUFGABE 6 (DBN)

Funktionen gegeben:
fA(B) = not B
fB(C,D) = C or D
fC(A,D) = not A and not D
fD(A,B) = A or B

Anfangszustand 1 / 1 / 1 / 0

a) Tabelle ausfüllen (Folgezustände berechnen)

b) Definieren, was Punktattraktor ist, einen aus dem Beispiel von a) angeben

c) Beweisen, dass jedes DBN mit endlicher Knotenanzahl einen zyklischen Attraktor besitzt.

AUFGABE 7

a) Algorithmus findet 15 Matches, 12 davon sind richtig, insgesamt gäbe es 21 Matches, 400 Einträge in der DB
Precision und Recall bestimmen

b) Algorithmus findet 31 Matches, 29 davon sind richtig, es gibt 30 Matches die nicht erkannt wurden
Precision und Recall bestimmen

Nr.	Prüfer	Fach
783	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

= Datum der Prüfung
28.02.2017

= Benötigte Lernzeit als Empfehlung
Habe verteilt über ~2 Wochen die Kapitel für mich zusammengefasst (also etwa 1 pro Tag) und dann direkt vor der Prüfung noch 5 Tage zum Lernen Zeit gehabt. Ist schon sehr viel Stoff wenn man wirklich tief einsteigen will, mit den 5 Tagen bin ich so gerade ausgekommen.

= Verwendete Materialien (Bücher, Skripte etc...)
Skript, Saake (Grundlage für das Skript)

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
langer Smalltalk, genauso sympathisch wie sonst auch

= Prüfungsfragen
Im Gegensatz zu den etwas älteren Prüfungsprotokollen gab es kein Wunschthema zum Einstieg (auch bei meinen beiden Vorgängern nicht).

Themen waren Speicherarchitektur, Joins (mit Komplexität und im Vergleich) und in dem Kontext Merge-Sort (auch mit Komplexität) sowie Hashing (Grundlagen + ein dyn. Verfahren vorstellen). 

Prof. Leser hilft schnell auf die Sprünge wenn man mal an einer Frage/Stelle hängt und formuliert näher oder um. 

= Note (Optional)
1,3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Benotung angemessen für die Leistung, und wie erwartet und von Prof. Leser angekündigt - Bestnoten werden nicht verschenkt, aber wer sich etwas auskennt braucht auch keine Sorge haben. Wer eine 1,0 will sollte souverän auftreten ;)

Nr.	Prüfer	Fach
814	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

Datum: 29.09.2017
Zeit: 150 Minuten
Hilfsmittel: Keine
Atomsphäre: Sehr gute und ruhige Atmosphäre, Prof und Helfer / Korrektoren alle sehr freundlich :)
Lern-Materialien: Leute ihr müsst zu jeder Vorlesung und Übung.
In der Klausur wurde so ziemlich alles abgefragt.
Viel Zeit zum Überlegen war nicht, ihr lest euch die Aufgabe durch und müsst
die sofort bearbeiten. Sonst scheiterts zeitlich.
Lest euch aber die Aufgaben SORGFÄLTIG durch. Nicht nur den ersten Satz durchlesen
und denken "ach so geht das" und dann einfach loslegen. Wisst ihr bestimmt, aber will ja nur sagen.. ^^
Neben Vorlesung und Übung gibt es natürlich auch genug guten Stoff im Internet, insbesondere
auf Wikipedia, stack overflow und youtube.
Naja ich hoffe dieses Gedankenprotokoll wird einigen von euch helfen. Ich hatte genug Stress und Angst mit der Prüfung, und
mir dabei noch alles zu merken was gefragt wurde war für mich persönlich etwas zu viel.
Aber ich habe mein Bestes getan und ich hoffe ihr werdet alles gut überstehen :)

FYI: Die Reihenfolge der Aufgaben ist falsch.

1.1 Zahlenfolge gegeben. Trage die Zahlen in Hashtabelle ein mit linearer Sondierung
1.2 .. mit doppeltem Hashing
1.3, 1.4 Weitere Aufgaben zu Hashing, irgendwas mit Tombs (haben aber nicht so viele Punkte gebracht)

2. Array mit Zahlen gegeben
2.1 Mergesort (grafisch darstellen)
2.2 Bucketsort mit Alphabet {0,1,2} (grafisch darstellen)
2.3 Worst- und Best-Case von: Mergesort, Bubblesort, Quicksort angeben

3. Suche
3.1 Funktionsweise von binärer Suche und Interpolationssuche kurz erläutern
3.2 Zwei verschiedene allgemeine Anordnung von Arrays. Worst- und Best-Case von
Binärer Suche, Interpolationssuche und Fibonacci Suche angeben

4. Heaps
4.1 Kann man Heapsort in-place implementieren, ohne die Laufzeit zu strapazieren (mit Begründung)
4.2 Worst-Case Laufzeit angeben, um in einem max-Heap das zweitgrößte Element zu finden (ohne Löschen)
4.3 Worst-Case Laufzeit angeben, um in einem min-Heap das zweitgrößte Element zu finden (ohne Löschen)
4.4 Worst-Case Laufzeit angeben, um in einem AVL-Baum das zweitgrößte Element zu finden (ohne Löschen)

5. (AVL-)Bäume
5.1 AVL-Baum einen bestimmten Knoten entfernen -> Rotationen erforderlich
5.2 größerer AVL-Baum einen bestimmten Knoten entfernen -> Rotationen erforderlich
5.3 binärer Suchbaum gegeben, wobei die Knoten Buchstaben waren. Finde geheime Nachricht
(pre-order / post-order / in-order Traversierung erforderlich)

6. Amortisierte Analyse
Kam völlig unerwartet, kann leider keine Infos dazu geben.

7. Allgemein Algorithmenentwurf
7.1 Erstelle Algorithmus, der erkennt, ob ein Array eine Permutation des anderen Arrays ist, in O(nlogn)
7.2 .. in O(n)
7.3 Vergessen..

8.
8.1 4 Funktionen gegeben, ordne nach asymptotischen Wachstum (ohne Begründung)
8.2 Das gleiche für 4 andere Funktionen
8.3 Zwei Funktionen f,g gebeben. Zeige, dass f in O(g)
8.4 Zeige, dass f nicht in O(g)
8.5 Beweise, dass es eine Funktion gibt, sodass gilt: f ist in O(g) UND f ist in Omega(g)
8.6 Das gleiche nur mit klein o und klein Omega

9.
Aufgabe mit sehr viel Text und einer Adjazenzmatrix gegeben.
Floyd-Warshall Algorithmus war gefragt, war aber nicht direkt
vom Text ersichtlich.
9.1 Finde einen Weg von s1 nach s7, wobei die maximale Anzahl von Knoten vorkommen (4 Punkte)
9.2 Entwerfe Algorithmus, der irgendwelchen Weg zwischen zwei Knoten ermitteln, sry vergessen (6 Punkte)
9.3 Vergessen (3 Punkte)

10. Minimaler Spannbaum
Tabellle gegeben. Trage jeden einzelnen Schritt vom Kruskal Algorithmus in Tabelle
und zeichne den durch Kruskal entstandenen Graphen.

Nr.	Prüfer	Fach
830	Leser Prof.	Data Warehousing und Data Mining

Protokoll

23.02.2018 (schriftlich)= Datum der Prüfung
2-3 Wochen = Benötigte Lernzeit als Empfehlung
Wolfgang Lehner: Datenbanktechnologie für Data Warehouse Systeme, Skript = Verwendete Materialien (Bücher, Skripte etc...)
Schriftlich, normal halt. Es gab Schmierpapier, kein Taschenrechner etc., 120 Minuten Schreibzeit = "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Prüfungsfragen:
Aufgabe 1 (9 Punkte):
OLAP versus OLTP Tabelle. Einige Zeilen wurden abgefragt, man musste in Stichpunkten die Inhalte füllen, wie in der Folie.
Gefragt war: Typische Operationen, Typische Anfragen, Daten pro Operation, Datenart, Modellierung

Aufgabe 2 (2+2+2+1+1+1 = 9 Punkte):
a: Geben sie eine exakte Definition an von: Algebraische Funktion, Distributive Funktion, Holistische Funktion.
b: Für jedes zwei Beispiele nennen
(Achtung, hier hat Leser die Reihenfolge vertauscht, wie sie in den Folien war)

Aufgabe 3 (5+5 = 10 Punkte):
Man musste zwei OLAP: SQL Analytical Functions-Anfragen schreiben.
a: Anfrage mit RANK() OVER(ORDER BY ...) FROM SELECT (...)
Also ein Sub-Select. Es gab 2 Punkte für das Sub-Select, 1 Punkt für ORDER BY und 1 Punkt für RANK().

b: SELECT tag, monat, jahr, SUM(...), Product_ID FROM ... GROUP BY ROLLUP(jahr, monat, tag), Product_ID
Es war wichtig zu beachten Product_ID in den GROUP BY mit anzugeben.

Evtl. abweichende Anfrage, kleine Unsicherheit ;)


Aufgabe 4 (4*1,5+9 = 15 Punkte):
Query Containment.
a: Definition von Query Containment (die 4 Punkte aus dem Skript wiedergeben)
b: Containment Mapping nach Algorithmus durchführen und sagen ob gilt Q ist enthalten in V.
Man musste nach Suchbaum arbeiten, also nicht Schritte überspringen!

Punkt Depth-First Algorithmus aus dem Skript zu MV_Optimierung, so wie im Beispiel auf Folie 34.

Aufgabe 5 (9 + 4 + 2 = 15 Punkte):
a: Sorted Neighborhood (Merge-Purge) - Algorithmus in Pseudocode aufschreiben.
Wichtig war es wirklich Pseudocode zu verwenden. Wurde in der Vorlesung nur an die Tafel geschrieben.
Diese Aufgabe wurde besonders streng bewertet.

b: Laufzeiten angeben
Also für Sortieren und für Vergleiche.

c: Worauf muss man achten beim Algorithmus?
Genauigkeit ist schlecht. Entweder Window-Size größer machen oder Multipass-Verfahren.

b und c wurden aber normal bis nett bewertet.

Aufgabe 6 (5+5 = 10 Punkte):
Gegeben eine SQL Anfrage mit GROUP BY. Man musste erklären, wie man den GROUP BY-Operator implementieren kann bei der Anfrage
und wie viele Durchgänge durch die Tupel gemacht werden müssen.

a: Wenn die Tupel nicht sortiert vorliegen.
Hash-Partitionierung

b: Wenn die Tupel sortiert vorliegen.
Implementierung durch Sortierung
Ein Punkt für Pipelining.


Aufgabe 7 (2+4+4 = 10 Punkte):
Bayes:
Gegeben Tabelle mit Geschelcht, Gewicht und Größe zur Person.
a: Man bekam auch eine leere Tabelle. In diese sollte man das Gewicht und die Größe in drei Intervalle einteilen.
Das Gewicht nach Equi-Width-Binning, die Größe nach Equi-Depth-Binning.

b: Notwendige Wahrscheinlichkeiten berechnen (A-Priori - Wahrscheinlichkeiten). Wahrscheinlichkeiten und Bedingte Wahrscheinlichkeiten.
Einfach Brüche angeben, konnte man gut durchzählen.

c: Zwei Personen mit Attributen gegeben. Diese klassifizieren. Dafür einfach Rechenweg (welche Wahrscheinlichkeiten man nimmt) schreiben
und dann die Werte dafür angeben, man musste nicht ausrechnen.

Aufgabe 8 (4+8 = 12 Punkte):
Man bekam eine Tabelle mit Einkäufen. Jede Zelle enthielt einen Einkauf (z.B. Milch, Sahne, Marmelade).

a: Man musste Confidence und Support für zwei Fälle angeben. (Auch einfach der Bruch).

b: A-Priori-Algorithmus anwenden. Wichtig war es kenntlich zu machen, aus welchen Teilmengen man in jedem Schritt die Einkäufe wählt.

Durchschnitt lag bei 3,06 = Note (Optional)
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Klausur enthielt 90 Punkte. Mit 72 gab es bereits eine 1,0
den Durchschnitt hatte man bei 48 Punkten. Beste Note: 1,7
Schwierigkeit der Aufgabe 5a und 6 wurden bei der Notenskala berücksichtigt.
Teils doch streng bewertet. Zeit war angemessen verfügbar.
Manche Aufgaben waren schwierig zu verstehen. Empfehlung: In der Klausur nachfragen, wie das gemeint ist.

yo K.E.T.A.

Nr.	Prüfer	Fach
854	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung SS2018

= Prüfungsfragen
1. Stringmatching
Text- und Patternstring gegeben mit P unter T und einem gemarkerten Mismatch.
1.a Angeben, um wieviele Postionen mit der Bad Character Rule geshiftet wird und begründen.
1.b Angeben, um wieviele Postionen mit der Good Suffix Rule geshiftet wird und begründen.
1.c T der Länge 12 und P der Länge 4 angeben, für die der Boyer Moore die minimale Anzahl an Vergleichen benötigt. Die Anzahl der Vergleiche in O-Notation angeben.

2. Sequenzalignment
2.a Lokalen Alignment Score für X=GGCTG und Y=GCTGTA berechnen. InsDel=-2, Mismatches=-1, Matches=1
2.b Worst-Case und Average-Case der Berechnung des lokalen Alignmentscores zweier Sequenzen angeben und begründen. Zu Rande gezogene Basisoperationen angeben.

3. Eiweißfaltung
3.a Drei Effekte nennen und erklären, die in realen Proteinen eine Rolle in der Faltung spielen und die der Chou-Fasman Algorithmus nicht erfasst.
3.b Chou-Fasman auf eine gegebene Aminosäurenabfolge anwenden.

4. PPI
4.a Skalenfreies Netzwerk definieren, intuitiv und als Formel.
4.b Zwei gegebene Graphen, entscheiden ob sie vermutlich skalenfrei/zufällig sind (Ja/Nein ankreuzen).
4.c Algorithmus für Betweennes-Centrality in Pseudocode niederschreiben. Algorithmus war erklärt und es standen zwei Hilfsfunktionen zur Verfügung.

5. Microarrays
5.a 4 spezifische Gründe nennen, warum Messungen vor der Analyse normalisiert werden müssen.
5.b Technologien zur Messung der Genexpression in einer Tabelle charakterisieren. Dabei war nur Microarrays als Eintrag gegeben, zwei weitere Technologien mussten hinzugefügt werden. Für alle drei dann die Spalten 'Quantitativ oder Qualitativ' und 'Anzahl der Gene (niedirg/mittel/hoch)' ausfüllen.
5.c Erklären wie man mit Microarrays Genexpression misst (Teilschritte mit Erklärung).

6. Biostatistik
6.a Tabelle mit p-Value und N gegeben, Bonferroni berechnen.
6.b Zwei Visualisierungsmethoden für Genexpression erklären. Zeichen und erklärende Beschriftung der Achsen ausreichend.
6.c Erklären, warum für die Bestimmung der differentiellen Expression Log-Fold Change und statistische Tests (p-Value, T-Test) kombiniert werden müssen.

7. Bool'sche Netzwerke
7.a Tabelle ausfüllen, Startzustand war 0/0/1/0
Formeln:
fA(B)=B
fB(C,D)=notC and D
fC(A,D)=A or D
fD(A,B)=notA or B
7.b Attraktor und seine Unterarten erklären und beantworten, ob das obige Netzwerk einen hat, und wenn ja, welchen.

Nr.	Prüfer	Fach
897	Leser Prof.	Bioinformatik

Protokoll

= Datum der Prüfung
01.08.2019

= Benötigte Lernzeit als Empfehlung
2 Wochen (Wenn man gut ist vielleicht nur 1 Woche)

= Verwendete Materialien (Bücher, Skripte etc...)
Habe nur die VL Folien zum lernen verwendet, auch wenn Herr Leser mehrmals betont hat, dass wir Bücher lesen sollten.

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Herr Leser hatte erstmal keinen Schlüssel und wir mussten 20 Minuten warten. Sonst war alles normal. (Schriftliche Prüfung eben)

= Prüfungsfragen

1. PSWM (Positon - specific- weight - matrix)

Gegeben war eine PSWM mit folgenden Aufgaben: 

(a) Bestimmen Sie die Sequenzen, welche den höchsten score hat.

(b) Bestimmen Sie den log-odd-score für S=CTGATG im Zusammenhang mit dem Zero-Modell

(c) Beschreiben Sie, wie man eine PSWM bestimmt, wenn man M Sequenzen geben hat und alle eine Länge von q haben.

(d) Wie viele Zeilen und Spalten hat diese PSWM?

2. Alignment
 
(a) Welche Unterschiede gibt es bei der Initialisierung der ersten Zeilen/Spalte, zwischen globalen und lokalen Alignment? Begründen Sie woher dieser Unterschied kommt!

(b) Geben Sie alle lokalen Alignment scores folgender Sequenzen an: S1 = GTACTA , S2 = TAGGTA

(c) Markieren Sie das Backtracking im dotplot und geben sie eine Sequenz an. 

3. BLAST

(a) Welches Problem löst BLAST? Warum ist BLAST eine Heuristik? Kann BLAST mit Fehlern beim Match arbeiten, wenn ja mit welchen?

(b) q = 3, t = 3 und eine Datenbank mit den Sequenzen D1 = ATGCCCTCAT, D2 = CATGCCTG. Wo findet BLAST Seeds mit der Sequenz S = CATGC

4. Biologische Grundkenntnisse

(a) Beschreiben Sie wie genau ein Gen in ein Protein verwandelt wird! Benutzen Sie die richtigen Fachbegriffe! 

(b) Wie viele verschiedene Chromosomen hat eine Frau? Wie viele Gene hat ein Genom? Wie viele Basen hat ein Genom?

(c) 3 Technologien zur Messung von Genexpression nennen und einordnen ob diese Qualitativ/Quantitativ messen und wie viele Gene (viel oder wenig).

(d) Wie arbeiten Genom Assembly? Beschreiben Sie!

5. PPI (protein - protein - interaction)

(a) Definieren Sie ein skalenfreies Netzwerk und beschreiben sie es intuitiv!

(b) Gegeben waren zwei Netzwerke und man musste sagen welches skalenfrei ist und welches zufällig.

(c) Nennen Sie 2 Vorteile und 2 Nachteile vom Massenspektrometer im Bezug auf den Informationsgewinn für PPI!

6. Boolean Netzwerke 

(a) Gegeben war ein leeres System (Tabelle) mit Startzuständen welche auszufüllen war. Außerdem war noch gegeben: f_A(B,D) = notB ^ notD
f_B(A,D) = A v B
f_C(A) = notA
f_D(A,B) = A v D

(b) Befinden sich in (a) ein Punktaktraktor? Geben Sie ihn an!

(c) Beweisen Sie, dass in jedem DBN mit endlicher Knotenanzahl ein zyklischer Attraktor ist!

7. Biostatistik 

(a) Gegeben waren p-Werte und 10 Sequenzen. Bonferoni-Wert musste ausgerechnet werden für die ersten zwei und den letzten. 

(b) Beschreiben sie den Zusammenhang zwischen t-Wert, Nullhypothese und p-Wert! 

(c) Beschreiben sie das Vorgehen eines t-Test in der richtigen Reihenfolge! 

(d) Warum muss für die Bestimmung der Signifikanz der log - fold - change UND die Varianz betrachtet werden?


= Note (Optional)
2,0

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Im Nachhinein relativ einfach gegen dass was man normalerweise so schreibt. Es gibt viele Themen, welche miteinander alle kaum was zu tun haben, aber die Abfrage erfolgt eher oberflächlich. Schriftliche Prüfung ist mehr zu empfehlen als eine mündliche (besonders bei Herr Leser). In der Übung lernt man nichts, aber die Vorlesung ist sinnvoll und der Besuch kann einem das lernen am Ende erleichtern.

Nr.	Prüfer	Fach
899	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

= Datum der Prüfung: 26.Sep.2019

= Prüfungsfragen
Es fehlen bei manchen Aufgaben eventuell Teilaufgaben. Hilfsmittel waren nicht erlaubt.

6 Aufgaben à 20 Punkte 

1. Landau

a) Funktionen aufsteigend nach asymptotischem Wachstum ordnen. Ein Beweis ist nicht nötig.

dritte √n^2
√n * ln(3)
√ln * ln(√n)
5 * ln(n^5)

b) Beweisen Sie n(ln)... klein omega  Geschnitten ... klein o (...)

c) Beweisen Sie 
g ∈ O(f) und f ∈ Ω(h), dann f ∈ Ω max(g,h)


2. Hashing

(1)
Werte 22,44,15,51,65 in dieser Reihenfolge in eine Hashtabelle einfügen, mit
a) linearem Sondieren. h(k)=k mod 7. 
b) geordnetem Hashing auf Grundlage von doppeltem Hashing. h'(k)=1+(k mod 3). s(i,k)=(h(k) - j * h'(k)) mod 7    mit 0<=j<7

(2)
Bestimmen Sie ob es sich um geeignete Hashfunktionen handelt. (Mit Overflowhashing bei Kollision). Für eine Hashtabelle von 0 bis n-1 mit n Werten
a) h(k)= k/n abgerundet
b) h(k)= (k * random (nicht deterministisch Zahl von 1 bis n)) mod n
c) h(k)= 1
d) h(k)= k mod n

Geben Sie für die Funktionen, die Sie als geeignet bezeichnet haben an wie gut Sie sind (Gibt es viele Kollisionen oder so etwas war gemeint. wieder mit overflow)


3. Algorithmenanalyse

a)
Gegeben war ein Array A=[7,5,3,4,4]
Im Code wurde ein Array B und ein Array C mit 0 indiziert. Die hatten eine Länge von irgendwas i...z 
Man sollte 
(i) nach der ersten forschleife das Array B angeben.
(ii) nach der zweiten forschleie das Array B angeben
(iii) für das Array B und C nach jedem durchlauf der dritten forschleife die Werte angeben
(vi) Worstcase Laufzeit des Algos abhängig von n und z angeben.

die forschleifen waren nacheinander, die erste und dritte lief von 1 bis n und die zweite von 2 bis z. Es ist nicht viel passiert aber alles sehr nervig notiert um durcheinander zu kommen. sowas wie C[B[A[i]]]=B[A[i]] + 1


4. Heaps

(1)
Gegeben waren drei Zeichnungen für die man in einer Tabelle bestimmen sollte ob es sich um Min/Max heap, Binären Suchbaum oder AVL-Baum handelt. Mehreres war möglich.

(2)
Build-heap Schreibtischtest 

(3)
Was ist die Worstcase Laufzeit um das zweitgrößte Element zu finden (mit Begründung)
a) aufsteigend sortierte einfach verkettete Liste
b) Max-Heap
c) AVL-Baum

(4)
k Arrays die aufsteigend sortiert sind und alle jeweils mindestens ein Element enthalten sollen zu einem einzigen Array zusammengefügt werden, welches aufsteigend sortiert ist. Volle Punktzahl wenn in O(log(k) * n * k).


5.

(1) 
Gegeben war ein nicht ganz korrekter Code, um zu bestimmen ob ein Klammerausdruck wohlgeformt ist (also "(([]))" soll true zurück geben, aber "(()))))))" soll false zurück geben).

a) Finde ein Beispiel für nicht wohlgeformt bei dem wegen des Fehlers nicht false zurück gegeben wird.

b) erkläre den Fehler (Es waren int Variabeln für die jeweiligen Klammertypen angelegt und mit switch case bei offener +1 und bei geschlossener -1 gerechnet. False wurde nur zurück gegeben wenn ein wert <0. Wenn also am Ende zu viele offene Klammern da waren oder wenn die Reihenfolge nicht stimmte, wurde das nicht abgefangen)

c) Schreibe einen korrekten Pseusocode der das Problem löst. Als Hinweis wurde Stack empfohlen

(2)
Angenommen es gibt ein nicht-stabiles Sortierverfahren N, dann überlegen Sie ein stabiles Sortierverfahren S, dass in O(n) auf Grundlage von N sortiert.

(3)
Eine Erklärung dazu was stabil bedeutet. Beweisen oder widerlegen Sie für die Implementierung von Quicksort aus der Vorlesung ob stabil


6. Floyd Warshall

(1) Schreibtischtest

Knoten C gerichtete Kante zu A
A gerichtete Kante zu D und E
D gerichtete Kante zu E
E gerichtete Kante zu B
B gerichtete Kante zu E

Jede Kante war scheinbar 1 Wert.

(2)
Beweis für Radius eines Graphen. Es war erklärt was der Radius ist. für ungewichtete, ungerichtete Graphen

(3)
Beweis, dass es mehr als einen minimales Knoten, also mit kleinstmöglichem Radius, in einem Graphen gebgen kann.

Nr.	Prüfer	Fach
904	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

= Datum der Prüfung: 13.11.2019
= Benötigte Lernzeit als Empfehlung: 4 Wochen
= Verwendete Materialien: Bücher, Vorlesungsfolien, Altklausuren, Prüfungsprotokolle
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer: Die Prüfung war sehr angenehm. Ich war etwas nervös, weil es mein Drittversuch in diesem Modul war. Zuerst haben wir uns allgemein über das Studium unterhalten, danach haben wir mit der Prüfung begonnen. Prof Leser hilft einem auf die Sprünge, wenn man gerade nicht weiterkommt.
= Prüfungsfragen:

*QuickSort erklären*
->zwischendurch unterbrochen um nachzufragen
-Was passiert genau in diesem Schritt?
-Funktionen divide und quicksort
-Wieso wählen wir das Pivotelement so?
-WC/BC/AVC?
-Wie wurde der AVC in der Vorlesung bewiesen?

*Weiteres divide & conquer Verfahren?*
MergeSort
-> Fragen ähnlich wie bei QuickSort

*Gibt es Sortierverfahren die nicht durch Vergleiche sortieren?*
Meine Antwort: CountingSort-kurz erklärt
-> ist zwar richtig, aber er wollte auf BucketSort hinaus
BucketSort kurz die Idee erklärt (Laufzeit)

*Suchbäume*
-> Operationen/Laufzeiten/sym. Vorgänger/Nachfolger

*starke Zusammenhangskomponente*
-> Definition

-
= Note (Optional): 2.3

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...):

Alles in Allem fand ich die Prüfung entspannter als ich mir sie vorgestellt hab. Ich musste oftmals etwas länger überlegen, aber die Stille war nie zu lang. Entweder kam eine neue Frage oder Prof Leser hat versucht mir zu helfen. Er fragt auch mal nach Begriffen, die man selbst erwähnt hat(Beispiel: -QuickSort ist ein allgemeines Sortierverfahren,dh es sortiert nur durch Vergleiche-
-> *Nennen Sie ein Sortierverfahren, welches nicht durch Vergleiche sortiert*). Ich empfehle jedem, der einen Drittversuch hat, diesen mündlich zu machen, weil es weniger riskant scheint.

Nr.	Prüfer	Fach
964	Leser Prof.	Algorithmen und Datenstrukturen

Protokoll

= Datum der Prüfung : 10.08.2021
Insgesamt 120 Punkte und 150 Minuten Zeit
= Prüfungsfragen:
1.a)Beweisen oder Wiederlegen sie für folgende Funktionspaare die beiden Aussagen 
f in O(g) und f in Omega(g) (3*4 Punkte)

i: (2+n)^n und 2^n
ii: 3n^2+5n+3 und 2n^3+5n
iii: Wurzel(n) und log(n^2)

b) Sei f0 in O(f) und g0 in O(g). Beweisen sie g0+f0 in O(max(f,g)) (4 Punkte)

c) Beweisen sie o(f) geschnitten Omega(f) = Leere Menge (4 Punkte)

2.a) In einem sortierten Array der Länge n werden k nicht aufeinanderfolgende Zahlen durch zufällige andere ersetzt. Geben sie einen Algorithmus an, der dieses Array in O(n+k*log(k)) löst und begründen sie die Laufzeit.

b)Ein Tal-Array ist ein bis zu einem index i abwärts sortiertes und ab i aufwärts sortiertes Array. 
Gegeben ist ein Algorithmus foo
foo(Array C):
i=1
j=n
while(true):
  if(i<n and C[i]>C[i+1])
     i++
  elsif j>1 and C[i]>C[i-1])
     j--
  elseif(i==j)
     return C[i]
  else
     return -1

i) was gibt foo für das Tal-Array A[59,50,35,31,29,34,40,49] aus
ii) was macht der Algorithmus generell
iii) was ist die Komplexität

3. Schreibtischtest Quicksort für [5,13,17,2,3,11,7]
4.a) Hashtabelle Schreibtischtest mit linearer und doppelter Sondierung 
b)sind folgende Funktionen zum Hashen mit overflow einsetzbar?
h(k)= 2k/n abgerundet
h(k)=0
h(k)=k*(nicht deterministische random zahl) mod n
h(k)=k+c mod n
b) sind die die einsetzbar sind gut um Kollisionen zu vermeiden (mit Begründung)?
c)i)Folgende Hashtabelle gegeben: _,_,16,10,19,5,_,_,_,_,_
Geben sie eine Hashfunktion und Einfügereihenfolge an damit die Tabelle rauskommt (Sondierung ist s(k,j)=h(k)-1)
ii)wie wahrscheinlich ist es, dass die nächste Zahl an der Position 1 landet
iii) wie viele Kollisionen treten durchschnittlich auf, wenn man eine Zahl in diese Tabelle einfügt

4. Ein Array ist gegeben und man soll buildHeap darauf ausführen und dabei nach jedem swap den Heap zeichnen (6 Punkte)
delete min auf einem Heap und wiederum nach jedem swap zeichnen (4 Punkte)

5. Entwerfen sie einen Algorithmus, der in O(n) true zurückgibt, wenn der Baum balanciert ist (im sinne eines AVL Baums, also mit höhe rechts-links <=+-1) und ansonsten false. Platzverbrauch egal, der Baum darf jedoch nicht modifiziert werden. (Schwierigkeit war (für mich) dass man bei rekursion nicht die Höhe sondern nur true oder false zurückgeben durfte)

6. Schreibtischtest Prim Algorithmus an einem Graphen ( genauso wie Aufgabe 5 bei der Probeklausur 2019)

7.Es ist ein azyklischer ungerichteter gewichteter Graph gegeben, der ein Wasserverteilungssystem darstellen soll mit einer Quelle q.
  q a b c d e f g h i
q     1       
a         2      
b 1     9   2     
c     9
d   2             3
e     2           3
f                   3
g                 2
h         3 3   2   2
i             3   2
(Graphisch(lol) angegeben, nicht als Tabelle)
a)Geben sie die Adjazenzliste an
b) wie lange braucht das Wasser Bis es alle Knoten erreicht hat
c) geben sie einen Algorithmus an, der b für azyklische Graphen ausrechnet.( Ich glaube in O(n^2)

Nr.	Prüfer	Fach
966	Leser Prof.	Information Retrieval

Datei (Zugriff nur aus dem HU-Netz, zB per eduroam oder HU-VPN):

IR_Prüfungsprotokoll_SS21.pdf

Nr.	Prüfer	Fach
1022	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

= Datum der Prüfung

26.02.2024

= Benötigte Lernzeit als Empfehlung

Wer in der Vorlesung wirklich anwesend war, sollte mit einer Woche gut hinkommen. Ist aber auch immer eine Frage des eigenen Anspruchs und des Lerntyps.

= Verwendete Materialien (Bücher, Skripte etc...)

Vorlesungsfolien mit eigenen Mitschriften sowie die Folien aus den Tutorien

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

sehr ruhig und es konnten jederzeit Fragen gestellt werden

= Prüfungsfragen

2h Bearbeitungszeit, 90 Punkte

Aufgabe 1: Records und Blöcke

- Was ist die kleinste lesbare Einheit auf einer Festplatte?
- Wie hoch ist die maximale Anzahl an parallel ausführbaren Operationen bei einem RAID 0+1 mit 4 Platten?
- Welche 2 Informationen muss die Record ID bei einem directory enthalten
- Berechne die Anzahl an benötigter Blöcke für unspanned records zu einem gegebenen System
- Berechne die Anzahl an benötigter Blöcke für spanned records zu diesem System

Aufgabe 2: B+ Baum

- Interne Knoten mit Werten füllen, die durch die Blätter gegeben sind
- Löschen eines Werts und updaten des Baums

Aufgabe 3: Query optimization

- Es war eine Query gegeben, die auf die minimale Anzahl an Operationen reduziert werden sollte
- Führe alle Join orders von drei Relationen an
- Welche der drei Cache replacement policies reduziert die Anzahl der IO Zugriffe am meisten und warum? (LRU, LIFO, FIFO)

Aufgabe 4: Kardinalitäten (7+7 Punkte)

Es waren zwei Queries gegeben, für die möglichst genau die Größe des Ergebnisses berechnet werden sollte

- Die erste Query hatte ein equi-depth Histogramm für ein Attribut, welches in einer Range zwischen 13 und 21 liegen sollte sowie eine Selektion für ein zweites Attribut mit einem konstanten Wert
- Die zweite Query beinhaltete 3 Relationen, wobei für zwei eine Join Bedingung gegeben war und für die dritte Relation wurde ein exakter Wert abgefragt


Aufgabe 5: Synchronisierung

Es waren drei Transaktionen gegeben

- Dann war eine Abfolge der Transaktionen gegeben und es sollte begründet werden, ob der Schedule seriell ist und ob er serialisierbar ist
- Für eine zweite Abfolge der Operationen sollte begründet werden, ob der Schedule recoverable ist
- Zeige einen conflict-serializable Schedule für die oben aufgeführten 3 Transaktionen an

Aufgabe 6: Multiple Choice mit Minuspunkten ABER Aufgabe bringt mindestens 0 Punkte, maximal möglich waren 10 Punkte

- Wofür steht SQL?
- Frage zur 2. Normalform
- Welche ACID Eigenschaften werden durch den Recovery Manager adressiert?
- SSD ist schneller bei Random und Sequential Access [true/false]
- Welche Joins wurden in der Vorlesung behandelt?
- Tabelle beim linear hashing wächst exponentiell [true/false]
- Multi-dimensionale Indexstrukturen eignen sich schlechter als ein composite Index für einen bestimmten Fall [true/false]
- Was kann ein Schedule sein? -> sowas wie seriell etc.
- Welche Operationen kann eine Transaktion ausführen?

[eine Frage ist mir nicht mehr eingefallen]


Aufgabe 7: kdb Baum (4+5 Punkte)

- Einfügen von 3 Punkten und Baum neu zeichnen (Split der Dimensionen über Round Robin)
- Algorithmus für optimalen kdb Baum skizzieren

Aufgabe 8: Recovery

Gegeben war eine Abfolge von Transaktionsoperationen

- Welche Operationen und in welcher Reihenfolge würde der REDO Manager ausführen und warum?
- Welche Operationen und in welcher Reihenfolge würde der UNDO Manager ausführen und warum?

⇒ Ich habe bestimmt ein oder zwei Teilfragen vergessen oder nicht ganz korrekt wiedergegeben, dennoch sollte die Prüfung fast vollständig sein

= Note (Optional)

Wurde noch nicht bewertet

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Prüfung war alles in allem okay. Die Vorbereitung war etwas schwierig, da man nicht so genau wusste, was einen bei der schriftlichen Prüfung erwartet

Nr.	Prüfer	Fach
1028	Leser Prof.	DBS2 - Implementation von Datenbanken

Protokoll

= Datum der Prüfung

08.04.2024

= Benötigte Lernzeit als Empfehlung
Eine Woche, wenn man in der Vorlesung und den Übungen aufgepasst hat

= Verwendete Materialien (Bücher, Skripte etc...)

Vorlesungsfolien 

= "Atmosphäre" der Prüfung / Verhalten der Beisitzer

Entspannte Atmosphäre, es konnten jederzeit Fragen gestellt werden, man durfte keine Hilfsmittel verwenden

= Prüfungsfragen

2h Bearbeitungszeit, 90 Punkte
An alle Fragen kann ich mich nicht mehr erinnern

Aufgabe 1: Records und Blöcke

Es waren die große von Sektoren, wieviele Sektoren pro Track, Tracks pro Oberfläche, Anzahl der Platten gegeben

- Berechne die Kapazität der Festplatte in Byte
- Wie lange braucht die Festplatte zum lesen, wenn der Kopf schon an der richtigen Stelle ist?
- Wieviel Speicher braucht man um bei Raid 0+1 wenn man 1 GB speichern will
- Berechne die Anzahl an benötigter Blöcke für unspanned records zu einem gegebenen System


Aufgabe 2: B+ Baum
Ein Baum war gegeben mit Höhe 3 und doppelten Werten

- In welcher Reihenfolge wurden die Werte zu dem Baum hinzugefügt, damit dieser Baum entsteht? 
- Wie sieht der Baum aus, wenn man einen Wert in den Blättern löscht

Aufgabe 3: 
- Zwei Relationen waren gegeben
- in welcher Reihenfolge würde ein Block Nested loop die Relationen öffnen
- Es war der Anfang eines C Codes gegeben und man musste Lücken füllen, zum programmieren so eines Block Nested Loop
- IO Zugriffe bei Tabelle, Hash und Baum vergleichen und berechnen und begründen für was man sich entscheiden würde

Aufgabe 4: 

- Es waren Werte gegeben man sollte ein Equi- Depth Histogramm erstellen
- Man sollte die Kosten errechnen wenn eine Relation bleichverteilt ist und von einer anderen ein Equi-Depth Histogramm bekannt ist


Aufgabe 5: Multi-Dimensional Index
Grid File: Es war ein Grid gegeben mit A, B, C und D
C sollte gesplitted werden

- Nach welchen Strategien kann man vorgehen
- In wiefern spielt Konvexität eine Rolle

Aufgabe 6: 10 Fragen 10 Punkte

- Wofür steht SQL?
- Welche Joins wurden in der Vorlesung behandelt?
- Warum wird extensive hashing normalerweise nicht verwendet
- irgendeine Frage zu linear Hashing gab es glaube auch
- Warum machen wir Query Optimisation
- Wofür steht LRU?

Aufgabe 7: Recovery

Gegeben war eine Abfolge von Transaktionsoperationen

- Welche Operationen und in welcher Reihenfolge würde der REDO Manager ausführen und warum?
- Was wäre anders wenn man einen Checkpoint einfügen würde

Aufgabe 8: Join

Es war eine Query gegeben über Vorlesungen, Studierenden, Professor:innen und Hörende, dazu waren noch weitere Infos gegeben, Studierende belegen jeweils 4 Vorlesungen, es gibt 1000 Studierende, es gibt 80 Professor:innen, jeder davon liest 4 Vorlesungen, 4000 sind in der Hörenden Relation

Man sollte Tabellen ausfüllen, wo jeweils ein Join eingetragen ist, die Kardinalität, die Kosten und der optimale Plan (wie in Folgesatz zur Query Optimization Folie 68)

Als Beispiel waren die Atomaren Relationen gegeben, man sollte dann 8? Spalten für die Paarweisen Joins ausfüllen
4? für die mit Drei und 2 für die mit 4 Relationen

= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)

Prüfung war alles in allem okay

Nr.	Prüfer	Fach
1029	Leser Prof.	Statistik und Data Science für die Informatik

Protokoll

= Datum der Prüfung
22.07.2024
= Benötigte Lernzeit als Empfehlung
2-3 Tage, wenn man im Stoff ganz gut mitgekommen ist und die Aufgaben gemacht hat. Sonst min. eine Woche, eher 2.
= Verwendete Materialien (Bücher, Skripte etc...)
Vorlesungsfolien und Übungsfolien
= "Atmosphäre" der Prüfung / Verhalten der Beisitzer
Sehr entspannt.
= Prüfungsfragen
(Es kann sein dass ich einzelne Teilaufgaben vergesse)
#1 Wahrscheinlichkeiten und Kombinatorik
##1 Szenario: 2 maliger Wurf eines fairen 6-seitigen Würfels
-Berechne P(Augenzahl!=7)
-Berechne P(Erster Wurf<Zweiter Wurf)
##2 Ein Flughafen bedient 3 Fluggesellschaften, F1, F2 und F3. 40% der Flüge gehören zu F1 und jeweils 30% zu F2 und F3. Bei F1 kommen 10% der Flüge zu spät und bei F2 und F3 jeweils 20%. Wie viele der Verspäteteten Flüge gehören zu F1.
##3 Gegeben sei die Menge ["a","b","c",1,2,3,4]. Wie viele Möglichkeiten gibt es ein Wort aus 2 Buchstaben und 3 Zahlen zu bilden, wobei Permutationen eines Wortes unterschiedliche Wörter ergeben -> z.B. "a1b23" und "12a3b" zählen einzelnd.
#2 Verteilungen (Formeln und Wertetabellen für alle Verteilungen war gegeben)
##1 Ein Fußballteam hat eine Elfmeter-Trefferquote von 50%. Nun schießt es beim Elfmeterschießen 4 Mal, wie hoch ist die Chance höchstens ein Tor zu schießen. Nenne zudem die zugrundeliegende Verteilung.
##2 Ein Glühbirnenhersteller produziert Glühbirnen bei denen ein Messwert nach Normalverteilung verteilt ist und den Mittelwert 1000 und die Standardabweichung 10 hat. Bei wie viel Prozent der Glühbirnen liegt der Wert zwischen 980 und 1000.
##3 Definiere den Zentralen Grenzwertsatz und erläutere wann er gilt, bzw. was er aussagt.
#3 Statistische Tests
##1 Es ist eine Wertetabelle mit Wachstumsraten von 2 Pflanzenarten (jeweils 5 Einträge) gegeben. Erstelle Null und Alternativhypothese bezüglich Unterschieden in der Wachstumsrate. Die Frage zielt auf den Ranksumtest ab.
##2 Führe einen Ranksumtest auf den Testdaten bei Signifikanzniveau 0.05 durch. (Tabelle für den Test war für a=0.05 gegeben).
##3 Erkläre Typ-1 Fehler und Typ-2 Fehler an diesem Beispiel und an Null und Alternativhypothese.
#4 Maschinelles Lernen und Classifier
##1 Es ist ein Datensatz und ein Decision Tree gegeben, berechne die Accuracy des Decision Trees auf diesem Datensatz
##2 Es soll ein neuer Datenpunkt mittels des Satzes aus ##1 klassifiziert werden durch KNN mit K=3, stelle den Rechenweg dar.
##3 Es wird overfitting eines Klassifizierers beschrieben. Erkenne wovon die Rede ist, benenne das Phänomen und nenne Methoden mit denen man gegen wirken, bzw. dem vorbeugen kann.
= Note (Optional)
Noch nicht bekannt
= Fazit (Gute/schlechte Prüfung , angemessene Benotung etc...)
Relativ einfach, jedoch war auch wenig Zeit gegeben (75min). Da die Klausur mit Analysis zusammen geschrieben wird, war kein Taschenrechner erlaubt und dementsprechend wurden keine Inhalte mit Exponentialfunktionen oder Logarythmen abgefragt. Mit diesem Wissen hätte man das Lernen auf diese Inhalte beschränken können, was dann das Ziel der Prüfung verfehlt.