Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Nebenfächer » Allgemeines (Übersicht)
no way to compare when less than two revisions
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.
— | pruefungen:nebenfach:clinicaldatascience_2020-08 [10.09.2020 18:02] (aktuell) – angelegt Kruemel | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
+ | |||
+ | ====== Allgemeines ====== | ||
+ | Bepunktung: alle Aufgaben 2 oder 3 Punkte, sofern nicht anders vermerkt) | ||
+ | Anmerkung: Auch wenn man keinen Taschenrechner verwenden durfte, waren die Zahlen *echt* krumm. Z.B. musste man durch 1079 teilen... | ||
+ | |||
+ | ====== Aufgaben ====== | ||
+ | |||
+ | |||
+ | ==== Aufgabe 1 ==== | ||
+ | In einem hypothetischen Datensatz befinden sich zu mehreren Patienten u.a. die folgenden vier Merkmale: | ||
+ | * | ||
+ | * | ||
+ | * | ||
+ | * | ||
+ | |||
+ | Schreiben Sie eine Klassifikation und eine Regression mit diesen Merkmalen nach der in der Vorlesung verwendeten Notation (die Tilde) | ||
+ | |||
+ | Unsere Lösung: | ||
+ | Regression: Blutdruck ~ Geschlecht + Bildungsabschluss + Krankheitsanamnese | ||
+ | Klassifikation: | ||
+ | |||
+ | ==== Aufgabe 2 ==== | ||
+ | Beschreiben Sie, was folgende Funktionen in R bewirken: (4 Punkte) | ||
+ | * abline | ||
+ | * prcomp | ||
+ | * scale | ||
+ | * pairs | ||
+ | * ifelse | ||
+ | * tapply | ||
+ | * IQR | ||
+ | * reshape | ||
+ | |||
+ | |||
+ | ==== Aufgabe 3 ==== | ||
+ | Berechnen Sie anhand folgender Vierfeldertafel die Prävalenz sowie ein Assoziationsmaß: | ||
+ | |||
+ | [Hier eine Vierfeldertafel mit ziemlich ungeraden Zahlen einfügen] | ||
+ | |||
+ | |||
+ | ==== Aufgabe 4 ==== | ||
+ | Beschreiben Sie anhand des folgenden Diagramms, wie viele Cluster Sie erwarten würden: | ||
+ | |||
+ | [Dendorgramm ähnlich - aber nicht identisch - zu dem in Braindump 2017 hier einfügen; Ast in Richtung von F existiert nicht.] | ||
+ | |||
+ | Erklären Sie zusätzlich Complete Linkage sowie Agglomeratives Clustering. | ||
+ | |||
+ | Unsere Antwort zum Dendrogramm: | ||
+ | |||
+ | |||
+ | ==== Aufgabe 5 ==== | ||
+ | [Eine Vierfeldertafel gegeben - OBACHT, FP und FN waren vertauscht! Normalerweise ist FP rechts oben und FN links unten, hier war es genau umgekehrt] | ||
+ | |||
+ | Berechnen Sie anhand der obigen Vierfeldertafel Precision und Recall und erklären Sie das Class Imbalance Problem <evtl. sollte man das auch unter Verwendung der Prävalenz, Accuracy und Missclassification Rate?>. | ||
+ | |||
+ | |||
+ | ==== Aufgabe 6 ==== | ||
+ | [Gegeben waren 2 ROC-Kurven mit einem Punkt, der umkreist war; Es könnten z.B. die ROC-Kurven für einen Naive Bayes und für einen Random Forest gewesen sein.] | ||
+ | |||
+ | Im obigen Diagramm sind 2 ROC-Kurven abgebildet. Erklären Sie, was eine ROC-Kurve ist und beschreiben Sie, was der markierte Punkt im obigen Diagramm aussagt. Schätzen Sie zusätzlich jeweils den AUC-Score für die beiden Kurven, vergleichen Sie die beiden und erklären Sie, wie man jeweils die Performance des zugrunde liegenden Verfahren anhand der ROC-Kurve einschätzen kann. | ||
+ | |||
+ | => Vermutlich sollte man hier u.a. Diskriminierung und Kalibrierung erklären und welche Verfahren man dafür verwenden kann. (Das war in derAufgabenstellung aber nicht explizit genannt) | ||
+ | |||
+ | |||
+ | ==== Aufgabe 7 ==== | ||
+ | Erklären Sie (ggf. anhand einer Zeichnung) wie die Fakten und Dimensionen des Star-Schemas in einem Datawarehouse aufgebaut sind. (Vgl. Braindump 2017) | ||
+ | |||
+ | ==== Aufgabe 8 ==== | ||
+ | Wie kann Bootstrapping in Verbindung mit einem Prädiktionsmodell genutzt werden? Welche Vorteile und welche Nachteile entstehen hierbei? (Vgl. Braindump 2017) | ||
+ | |||
+ | ==== Aufgabe 9 ==== | ||
+ | [Zeichnung einer Kurve einer linearen Regression für ein binäres Attribut] | ||
+ | |||
+ | Warum könnte das für dieses Diagramm gewählte Verfahren ungeeignet sein und welches wäre besser dafür geeignet? Nennen Sie auch die R-Funktion dafür. | ||
+ | |||
+ | ==== Aufgabe 11 ==== | ||
+ | Beim mittleren Arteriellen Druck werden auch Schwankungen miteinberechnet. Welche statistischen oder grafischen Verfahren gibt es, die jeweils kurzfristige Schwankungen und Dauer eines zu niedrigen Blutdrucks feststellen? | ||
+ | |||
+ | ==== Aufgabe 12 ==== | ||
+ | Welche Probleme treten bei der Analyse von zensierten Ereigniszeiten auf? Nennen Sie eine Methode, um zensierte Ereigniszeiten graphisch oder statistisch zu analysieren? | ||