====== Allgemeines ====== Bepunktung: alle Aufgaben 2 oder 3 Punkte, sofern nicht anders vermerkt) Anmerkung: Auch wenn man keinen Taschenrechner verwenden durfte, waren die Zahlen *echt* krumm. Z.B. musste man durch 1079 teilen... ====== Aufgaben ====== ==== Aufgabe 1 ==== In einem hypothetischen Datensatz befinden sich zu mehreren Patienten u.a. die folgenden vier Merkmale: * Geschlecht (männlich oder weiblich) * Bildungsabschluss (abi, hochschule, phd) * Krankheitsanamnese (ja, nein) * Blutdruck (metrisch) Schreiben Sie eine Klassifikation und eine Regression mit diesen Merkmalen nach der in der Vorlesung verwendeten Notation (die Tilde) Unsere Lösung: Regression: Blutdruck ~ Geschlecht + Bildungsabschluss + Krankheitsanamnese Klassifikation: z.b. Abschluss ~ Geschlecht + Krankheitsanamnese ==== Aufgabe 2 ==== Beschreiben Sie, was folgende Funktionen in R bewirken: (4 Punkte) * abline * prcomp * scale * pairs * ifelse * tapply * IQR * reshape ==== Aufgabe 3 ==== Berechnen Sie anhand folgender Vierfeldertafel die Prävalenz sowie ein Assoziationsmaß: [Hier eine Vierfeldertafel mit ziemlich ungeraden Zahlen einfügen] ==== Aufgabe 4 ==== Beschreiben Sie anhand des folgenden Diagramms, wie viele Cluster Sie erwarten würden: [Dendorgramm ähnlich - aber nicht identisch - zu dem in Braindump 2017 hier einfügen; Ast in Richtung von F existiert nicht.] Erklären Sie zusätzlich Complete Linkage sowie Agglomeratives Clustering. Unsere Antwort zum Dendrogramm: Es gab nur 2 Cluster, weil es einen großen Abstand nach oben gab ohne neue Cluster. ==== Aufgabe 5 ==== [Eine Vierfeldertafel gegeben - OBACHT, FP und FN waren vertauscht! Normalerweise ist FP rechts oben und FN links unten, hier war es genau umgekehrt] Berechnen Sie anhand der obigen Vierfeldertafel Precision und Recall und erklären Sie das Class Imbalance Problem . ==== Aufgabe 6 ==== [Gegeben waren 2 ROC-Kurven mit einem Punkt, der umkreist war; Es könnten z.B. die ROC-Kurven für einen Naive Bayes und für einen Random Forest gewesen sein.] Im obigen Diagramm sind 2 ROC-Kurven abgebildet. Erklären Sie, was eine ROC-Kurve ist und beschreiben Sie, was der markierte Punkt im obigen Diagramm aussagt. Schätzen Sie zusätzlich jeweils den AUC-Score für die beiden Kurven, vergleichen Sie die beiden und erklären Sie, wie man jeweils die Performance des zugrunde liegenden Verfahren anhand der ROC-Kurve einschätzen kann. => Vermutlich sollte man hier u.a. Diskriminierung und Kalibrierung erklären und welche Verfahren man dafür verwenden kann. (Das war in derAufgabenstellung aber nicht explizit genannt) ==== Aufgabe 7 ==== Erklären Sie (ggf. anhand einer Zeichnung) wie die Fakten und Dimensionen des Star-Schemas in einem Datawarehouse aufgebaut sind. (Vgl. Braindump 2017) ==== Aufgabe 8 ==== Wie kann Bootstrapping in Verbindung mit einem Prädiktionsmodell genutzt werden? Welche Vorteile und welche Nachteile entstehen hierbei? (Vgl. Braindump 2017) ==== Aufgabe 9 ==== [Zeichnung einer Kurve einer linearen Regression für ein binäres Attribut] Warum könnte das für dieses Diagramm gewählte Verfahren ungeeignet sein und welches wäre besser dafür geeignet? Nennen Sie auch die R-Funktion dafür. ==== Aufgabe 11 ==== Beim mittleren Arteriellen Druck werden auch Schwankungen miteinberechnet. Welche statistischen oder grafischen Verfahren gibt es, die jeweils kurzfristige Schwankungen und Dauer eines zu niedrigen Blutdrucks feststellen? (Vgl. Braindump 2017) ==== Aufgabe 12 ==== Welche Probleme treten bei der Analyse von zensierten Ereigniszeiten auf? Nennen Sie eine Methode, um zensierte Ereigniszeiten graphisch oder statistisch zu analysieren?