Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Nebenfächer » Allgemeines
Inhaltsverzeichnis
Allgemeines
Bepunktung: alle Aufgaben 2 oder 3 Punkte, sofern nicht anders vermerkt) Anmerkung: Auch wenn man keinen Taschenrechner verwenden durfte, waren die Zahlen *echt* krumm. Z.B. musste man durch 1079 teilen…
Aufgaben
Aufgabe 1
In einem hypothetischen Datensatz befinden sich zu mehreren Patienten u.a. die folgenden vier Merkmale:
- Geschlecht (männlich oder weiblich)
- Bildungsabschluss (abi, hochschule, phd)
- Krankheitsanamnese (ja, nein)
- Blutdruck (metrisch)
Schreiben Sie eine Klassifikation und eine Regression mit diesen Merkmalen nach der in der Vorlesung verwendeten Notation (die Tilde)
Unsere Lösung: Regression: Blutdruck ~ Geschlecht + Bildungsabschluss + Krankheitsanamnese Klassifikation: z.b. Abschluss ~ Geschlecht + Krankheitsanamnese
Aufgabe 2
Beschreiben Sie, was folgende Funktionen in R bewirken: (4 Punkte)
- abline
- prcomp
- scale
- pairs
- ifelse
- tapply
- IQR
- reshape
Aufgabe 3
Berechnen Sie anhand folgender Vierfeldertafel die Prävalenz sowie ein Assoziationsmaß:
[Hier eine Vierfeldertafel mit ziemlich ungeraden Zahlen einfügen]
Aufgabe 4
Beschreiben Sie anhand des folgenden Diagramms, wie viele Cluster Sie erwarten würden:
[Dendorgramm ähnlich - aber nicht identisch - zu dem in Braindump 2017 hier einfügen; Ast in Richtung von F existiert nicht.]
Erklären Sie zusätzlich Complete Linkage sowie Agglomeratives Clustering.
Unsere Antwort zum Dendrogramm: Es gab nur 2 Cluster, weil es einen großen Abstand nach oben gab ohne neue Cluster.
Aufgabe 5
[Eine Vierfeldertafel gegeben - OBACHT, FP und FN waren vertauscht! Normalerweise ist FP rechts oben und FN links unten, hier war es genau umgekehrt]
Berechnen Sie anhand der obigen Vierfeldertafel Precision und Recall und erklären Sie das Class Imbalance Problem <evtl. sollte man das auch unter Verwendung der Prävalenz, Accuracy und Missclassification Rate?>.
Aufgabe 6
[Gegeben waren 2 ROC-Kurven mit einem Punkt, der umkreist war; Es könnten z.B. die ROC-Kurven für einen Naive Bayes und für einen Random Forest gewesen sein.]
Im obigen Diagramm sind 2 ROC-Kurven abgebildet. Erklären Sie, was eine ROC-Kurve ist und beschreiben Sie, was der markierte Punkt im obigen Diagramm aussagt. Schätzen Sie zusätzlich jeweils den AUC-Score für die beiden Kurven, vergleichen Sie die beiden und erklären Sie, wie man jeweils die Performance des zugrunde liegenden Verfahren anhand der ROC-Kurve einschätzen kann.
⇒ Vermutlich sollte man hier u.a. Diskriminierung und Kalibrierung erklären und welche Verfahren man dafür verwenden kann. (Das war in derAufgabenstellung aber nicht explizit genannt)
Aufgabe 7
Erklären Sie (ggf. anhand einer Zeichnung) wie die Fakten und Dimensionen des Star-Schemas in einem Datawarehouse aufgebaut sind. (Vgl. Braindump 2017)
Aufgabe 8
Wie kann Bootstrapping in Verbindung mit einem Prädiktionsmodell genutzt werden? Welche Vorteile und welche Nachteile entstehen hierbei? (Vgl. Braindump 2017)
Aufgabe 9
[Zeichnung einer Kurve einer linearen Regression für ein binäres Attribut]
Warum könnte das für dieses Diagramm gewählte Verfahren ungeeignet sein und welches wäre besser dafür geeignet? Nennen Sie auch die R-Funktion dafür.
Aufgabe 11
Beim mittleren Arteriellen Druck werden auch Schwankungen miteinberechnet. Welche statistischen oder grafischen Verfahren gibt es, die jeweils kurzfristige Schwankungen und Dauer eines zu niedrigen Blutdrucks feststellen? (Vgl. Braindump 2017)
Aufgabe 12
Welche Probleme treten bei der Analyse von zensierten Ereigniszeiten auf? Nennen Sie eine Methode, um zensierte Ereigniszeiten graphisch oder statistisch zu analysieren?