Sie befinden sich hier: Termine » Prüfungsfragen und Altklausuren » Nebenfächer » Allgemeines   (Übersicht)

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

pruefungen:nebenfach:clinicaldatascience_2020-08 [10.09.2020 20:02] (aktuell)
Kruemel angelegt
Zeile 1: Zeile 1:
 +
 +====== Allgemeines ======
 +Bepunktung: alle Aufgaben 2 oder 3 Punkte, sofern nicht anders vermerkt)
 +Anmerkung: Auch wenn man keinen Taschenrechner verwenden durfte, waren die Zahlen *echt* krumm. Z.B. musste man durch 1079 teilen...
 +
 +====== Aufgaben ======
 +
 +
 +==== Aufgabe 1 ====
 +In einem hypothetischen Datensatz befinden sich zu mehreren Patienten u.a. die folgenden vier Merkmale: ​
 +  *     ​Geschlecht (männlich oder weiblich)
 +  *     ​Bildungsabschluss (abi, hochschule, phd)
 +  *     ​Krankheitsanamnese (ja, nein)
 +  *     ​Blutdruck (metrisch)
 +
 +Schreiben Sie eine Klassifikation und eine Regression mit diesen Merkmalen nach der in der Vorlesung verwendeten Notation (die Tilde)
 +
 +Unsere Lösung:
 +Regression: Blutdruck ~ Geschlecht + Bildungsabschluss + Krankheitsanamnese
 +Klassifikation:​ z.b. Abschluss ~ Geschlecht + Krankheitsanamnese
 +
 +==== Aufgabe 2 ====
 +Beschreiben Sie, was folgende Funktionen in R bewirken: (4 Punkte)
 +  * abline
 +  * prcomp
 +  * scale
 +  * pairs
 +  * ifelse
 +  * tapply
 +  * IQR
 +  * reshape
 +
 +
 +==== Aufgabe 3 ====
 +Berechnen Sie anhand folgender Vierfeldertafel die Prävalenz sowie ein Assoziationsmaß:​
 +
 +[Hier eine Vierfeldertafel mit ziemlich ungeraden Zahlen einfügen]
 +
 +
 +==== Aufgabe 4 ====
 +Beschreiben Sie anhand des folgenden Diagramms, wie viele Cluster Sie erwarten würden:
 +
 +[Dendorgramm ähnlich - aber nicht identisch - zu dem in Braindump 2017 hier einfügen; Ast in Richtung von F existiert nicht.]
 +
 +Erklären Sie zusätzlich Complete Linkage sowie Agglomeratives Clustering.
 +
 +Unsere Antwort zum Dendrogramm:​ Es gab nur 2 Cluster, weil es einen großen Abstand nach oben gab ohne neue Cluster.
 +
 +
 +==== Aufgabe 5 ====
 +[Eine Vierfeldertafel gegeben - OBACHT, FP und FN waren vertauscht! Normalerweise ist FP rechts oben und FN links unten, hier war es genau umgekehrt]
 +
 +Berechnen Sie anhand der obigen Vierfeldertafel Precision und Recall und erklären Sie das Class Imbalance Problem <evtl. sollte man das auch unter Verwendung der Prävalenz, Accuracy und Missclassification Rate?>.
 +
 +
 +==== Aufgabe 6 ====
 +[Gegeben waren 2 ROC-Kurven mit einem Punkt, der umkreist war; Es könnten z.B. die ROC-Kurven für einen Naive Bayes und für einen Random Forest gewesen sein.]
 +
 +Im obigen Diagramm sind 2 ROC-Kurven abgebildet. Erklären Sie, was eine ROC-Kurve ist und beschreiben Sie, was der markierte Punkt im obigen Diagramm aussagt. Schätzen Sie zusätzlich jeweils den AUC-Score für die beiden Kurven, vergleichen Sie die beiden und erklären Sie, wie man jeweils die Performance des zugrunde liegenden Verfahren anhand der ROC-Kurve einschätzen kann.
 +
 +=> Vermutlich sollte man hier u.a. Diskriminierung und Kalibrierung erklären und welche Verfahren man dafür verwenden kann. (Das war in derAufgabenstellung aber nicht explizit genannt)
 +
 +
 +==== Aufgabe 7 ====
 +Erklären Sie (ggf. anhand einer Zeichnung) wie die Fakten und Dimensionen des Star-Schemas in einem Datawarehouse aufgebaut sind. (Vgl. Braindump 2017)
 +
 +==== Aufgabe 8 ====
 +Wie kann Bootstrapping in Verbindung mit einem Prädiktionsmodell genutzt werden? Welche Vorteile und welche Nachteile entstehen hierbei? (Vgl. Braindump 2017)
 +
 +==== Aufgabe 9 ====
 +[Zeichnung einer Kurve einer linearen Regression für ein binäres Attribut] ​
 +
 +Warum könnte das für dieses Diagramm gewählte Verfahren ungeeignet sein und welches wäre besser dafür geeignet? Nennen Sie auch die R-Funktion dafür.
 +
 +==== Aufgabe 11 ====
 +Beim mittleren Arteriellen Druck werden auch Schwankungen miteinberechnet. Welche statistischen oder grafischen Verfahren gibt es, die jeweils kurzfristige Schwankungen und Dauer eines zu niedrigen Blutdrucks feststellen?​ (Vgl. Braindump 2017)
 +
 +==== Aufgabe 12 ====
 +Welche Probleme treten bei der Analyse von zensierten Ereigniszeiten auf? Nennen Sie eine Methode, um zensierte Ereigniszeiten graphisch oder statistisch zu analysieren? ​