Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » Lehrstuhl 9 » Hinweis:   (Übersicht)

Inhaltsverzeichnis

Modul: Informationsvisualisierung (5ECTS)

Prüfer: Dr. Grosso

Dauer: 30 min

Hinweis:

Lockere und ruhige Atmosphäre. Während den Erklärungen auch eingeworfene Witze von Dr. Grosso die dieser Atmosphäre beitrugen.

Ich wurde häufig während der Erklärung unterbrochen, um ein neues Thema anzufangen.

In dieser Prüfung wurden Streamgraphs nicht abgefragt. Jedoch sind diese auch häufig Bestandteil der Prüfung (laut Aussagen anderer Studierender) weswegen ich auch empfehle die Streamgraphen inklusive der möglichen Wege g0 zu Berechnen (nach dem Paper von Lee Byron) zu lernen und mindestens erklären zu können.

Fragen

F: Fangen wir doch mal mit multivariaten Daten an, was ist das?

A: Multivariate Daten sind Daten in mehreren Dimensionen. Das Ziel ist sich diese Dimensionen anzuschauen und daraus Korrelationen zu finden. Ein Beispiel dazu wäre eine Menge an Personen, mit den Attributen Geschlecht, Alter und Studiengang…

F: Was ist denn Geschlecht für ein Datentyp?

A: Es gibt verschiedene Datentypen, nominale, ordinale als auch quantitative. Nominale Datentypen zeichnen sich dadurch aus, dass sie nicht miteinander in Bezug genommen werden können. Das Geschlecht ist ein Beispiel dafür. Man kann nicht abmessen ob männlich oder weiblich größer ist als das Andere. Hingegen wäre Alter quantitativ, man kann sagen „derjenige ist doppelt so alt“.

F: Okay und wie würden Sie das Ganze jetzt darstellen?

A: Nun wir haben ja verschiedene Formen der Darstellung von multivariaten Daten kennengelernt. Da wären zum Beispiel Parallel Sets zu nennen.

F: Was ist das?

A: Also da werden die Daten quasi an der Oberkante eines Rechtsecks aufgezeichnet, für alle Datentypen gibt es ein eigenes Rechteck (Parallel Set begonnen) und die Entwicklung der Daten sieht man dann an diesen Einteilungen. Wir hatten in der Vorlesung das Beispiel der Titanic und wie sich die Überlebenden da einteilen (Klasse, Geschlecht..).

F: Ja das funktioniert ganz gut bei kategorischen Daten, aber was machen Sie jetzt mit quantitativen wie zum Beispiel dem Gewicht?

A: Ein anderer Ansatz wären da zum Beispiel Scatterplot-Matrizen

F: Und wie funktionieren die?

A: Die Scatterplot-Matrix ist so aufgebaut, dass sowohl auf der X- als auch auf der Y-Achse die untersuchten Daten stehen. Dadurch lassen sich Korrelationen gut erkennen.

F: Was ist hier? (Zeigt auf die Fläche auf der Datum Alter mit Alter verglichen wird, also quasi die 45° Achse)

A: Naja hier macht es eigentlich keinen Sinn das gleiche Datum zu überprüfen. Daher kann man dort zum Beispiel Histogramme zeichnen.

F: Gut. Was sind denn Nachteile von diesen Matrizen?

A: Nun wie man schon beim Zeichnen gesehen hat ist es relativ schwierig viele Daten zu zeichnen. Sie ist also nur bedingt geeignet für Multivariate Daten.

F: Was gib es sonst noch?

Begriff nicht gewusst. Gesucht waren noch Parallel Coordinates → Beispiel mit dem Auto erklärt und aufgemalt

A: Da gibt es dann die Möglichkeit einzelne Daten zu markieren. Das nennt man dann „Brushing“. Außerdem gibt es weitere Vorgehensweisen wie zum Beispiel das Ändern der Reihenfolge der Achsen, selektieren einzelner Achsen usw.

F: Sehr gut. Ein anderer Teil in der Vorlesung waren Graphen. Was können Sie dazu sagen?

A: Graphen sind eine Menge an Knoten und Kanten die in einer bestimmten Topologie zueinander zugeordnet sind

F: Wir haben da einen wichtigen Begriff kennengelernt. Centrality

A: Genau. Wir haben uns da besonders auf die drei konzentriert: Degree Centrality, Betweenness Centrality und Closeness Centrality. (Definition gegeben von Degree Centrality und Betweenness Centrality aufgemalt und erklärt)

F: Wie funktioniert Closeness?

A: Aufgemalt und berechnet

F: Wie würden Sie das dann implementieren?

A: Code dafür begonnen

F: Für ein Netzwerk wie Facebook, wäre das nicht etwas aufwändig?

A: Ja

F: Außer Communities hatten wir noch einen anderen Begriff im Zusammenhang mit Graphen, welcher war das?

A: Community

F: Und was sind Communities?

A: Communities sind Knoten in einem Graphen die zusammengehörig sind. Sie werden eher eng aneinander gezeichnet um diese Gruppenzugehörigkeit zu markieren.

F: Wie ermittelt man denn diese Gruppen?

A: Mit einem Messwert, der Modularität.

F: Was ist denn Modularität, wie funktioniert diese?

A: Modularität basiert auf der Annahme eines Nullmodells, also eines Graphen in der alle Knoten mit der gleichen Wahrscheinlichkeit miteinander verbunden sind. Die Modularität wird nun für jeden Knoten ermittelt, indem geschaut wird ob nun der Knotengrad größer oder kleiner der durchschnittlichen Anzahl ist. Dies ergibt einen positiven oder negativen Wert, welcher ein Indikator dafür ist, dass der Knoten zu einer Community gehört.

F: Zu einer Community oder zu dieser?

A: Zu dieser

F: Genau, es gibt ja auch noch andere Communities in einem Graphen. Sehr gut. Wie ermittelt man jetzt die Entfernung von einem Knoten?

A: Nun von einem Knoten wäre das ein Single-Source Algorithmus. Da wäre vor allem Dijkstra zu nennen.

F: Wie funktioniert der?

A: Dijkstra geht von dem Quellknoten aus und berechnet die kürzesten Pfade für alle Nachbarn. Danach schreitet er weiter und nimmt immer das Minimum.

F: Was heißt das für den Aufwand?

A: Naja die Komplexität von Dijkstra würde dann bei n²+m liegen.

Es folgte ein wenig hin und her weil die Komplexität anscheinend bei log n liegt. Ich bin mir nicht sicher was nun richtig ist, dies bitte selbst recherchieren.

F: Gut das war es auch schon.

Vorbereitung

Im Laufe des Semesters blieb keine Zeit um die Vorlesung zu besuchen. Stattdessen wurde von Herrn Dr. Grosso am Ende des Semesters ein Kurzüberblick über die Themen gegeben bei denen dann auch erwähnt wurde, was besonders relevant war und was ausgeschlossen. Ich habe mir auf Basis dieser Informationen die Folien zusammengesucht und einen Lernzettel darauf aufgebaut, den ich 4 Tage vorher begonnen habe hoch- und runterzulesen, bis ich alles verstanden hatte.