Sie befinden sich hier: Termine » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » Lehrstuhl 6 » kdd_ss_2018   (Übersicht)

Gedächtnisprotokoll KDD (Knowledge-Discovery in Databases) – SS2018

(Kombination KDD und DWH, wobei DWH separate schriftliche Prüfung)

Dauer: ca. 30min, dann kurz rausgehen, dann wieder reinkommen und die Note kriegen.

Allgemein: Prüfungssprache konnte ich mir aussuchen. Fachbegriffe auf Englisch in deutschen Erklärungen eingebaut waren kein Problem.

1. Erklären Sie den KDD-Prozess. (CRISP)

2. Welche Attributtypen gibt es und welche Distanzfunktion kann für diesen Attributtyp verwendet werden? insb. Mincowski-Distanz mit Formel und Sonderausprägungen Manhatten, Euklid und Supremum Wie bekommt man nun aus diesen verschiedenen Distanzfunktionen für verschiedene Attribute „eine Distanz“? – Summieren, und zwar weighted, weil die Distanzfunktionen ja nicht alle Werte zwischen 0 und 1 liefern.

3. Welche Schritte hat das Data-Preprocessing? Was ist die Schwierigkeit bei der Dataintegration? Transferaufgabe: Welche der Methoden, die wir im Kurs behandelt haben könnte man verwenden um das Entity-Identification-Problem zu lösen? – Clustering, weil es ähnliche Datenobjekte zusammengruppiert

4. Clustering: Welche Ansätze gibt es beim Clustering (distance-/density-based): Erklären sie einen davon.

5. Partitioning-Algorithmen: wie geht der k-means Algorithmus? Was sind dessen Nachteile? (sensibel für Outliers und kann nur numerische Attribute verarbeiten) Was sind Alternativen dazu? – K-medoids/modes

6. Grid-based algorithms, wie gehen die? – Zellen machen, Subzellen machen, Datenobjekte den Zellen zuordnung, von Oben nach Unten Zellen und deren Sub-Zellen aussortieren, die nicht die notwendige dichte aufweisen Was macht der Computer dabei? – partitioniert den Datenraum, macht Counter für die Zellen, zählt diese Counter hoch während er die Datenbank scannt. Transferaufgabe zur Informatik: Wann geht das besonders schnell? Wo muss ich meine Counter speichern, damit das möglichst schnell geht? – Wenn alle Counter im Hauptspeicher gespeichert sind geht das schnell! Also Anzahl der Zellen so wählen, dass alle Counter in den Hauptspeicher gehen.