Du befindest dich hier: FSI Informatik » Prüfungsfragen und Altklausuren » Hauptstudiumsprüfungen » Informatik Forschungsgruppe M – Medizinische Informatik / LS für Medizinische Informatik » 2021-07-21 Mündliche Prüfung "Einführung in die Bioinformatik für die Translationale Medizin (BioInfEinf)"   (Übersicht)

2021-07-21 Mündliche Prüfung "Einführung in die Bioinformatik für die Translationale Medizin (BioInfEinf)"

Allgemein

  • Dauer: 20 Minuten (haben aber etwas überzogen)
  • sehr lockere Atmosphäre, haben erst kurz geplaudert wie mir das Seminar gefallen hat, damit meine Nervosität etwas nachlässt
  • alle Fragen waren quasi genau wie die Übungsaufgaben und die Liste mit Lernfragen

Fragen

  • Was ist Bioinformatik und was sind Anwendungsgebiete?
    • Biologische Fragen mit dem Computer beantworten
    • 3 Bereiche: Daten sammeln, analysieren/strukturieren, modellieren
  • Nennen Sie 3 Datenbanken/Software und deren bioinformatische Verwendung
    • BLAST, PubMed, EPB, SWISS-Model, PDB
  • Wofür nutze ich denn das SWISS-Model?
    • Homologie-basierte Proteinstrukturvorhersage (habe mich erst vertan und RNA-Strukturvorhersage genannt und dafür einen skeptischen Blick geerntet und habe mich dann verbessert - wurde mir nicht negativ angerechnet)
  • Also wenn ich die DNA habe, was kann ich denn hier jetzt interessantes analysieren, wofür ich auf die EPB zugreifen muss?
    • Promotoranalyse, um die Transkriptionsfaktorstellen zu identifiziern
    • Mittels Position Weight Matrix (hier habe ich dann kurz das Verfahren erklärt)
  • Was kann ich dann noch analysieren?
    • Exon-Intron-Bereiche mittels Hidden-Markov-Modellen analysieren/bestimmen
  • Wie funktioniert das?
    • Konzept der Hidden-Markov-Modelle und Viterbi-Algorithmus erklärt
  • Wie funktioniert der BLAST-Algorithmus
    • habe den Ablauf erklärt und kurz erwähnt, dass die Ergebnisse mittels E-Value bewertet/eingeschätzt werden können
  • Wie kann ich Proteinstrukturen vorhersagen und was sind dabei Schwierigkeiten und Herausforderungen
    • verschiedene Proteinstrukturen erklärt und, dass gerade bei Tertiär- und Quartärstrukturen das Problem der kombinatorischen Explosion auftritt wegen der vielen Faltungsmöglichkeiten
    • Homologie-basierte Strukturvorhersage
    • Wenn keine verwandten Strukturen bekannt Neuberechnung der Strukturen mit ab initio Verfahren
    • Prinzip von Chou-Fasman und evolutionären Algorithmen grob erklärt
  • Und wie funktioniert die RNA-Strukturvorhersage?
    • Verschiedene Algorithmen möglich, die dynamische Programmierung nutzen
    • Nussinov-Algorithmus + dessen Einschränkungen erklärt
  • Gehen wir mal weiter. Wir haben verschiedene Daten, zum Beispiel das Gewicht und die Größe - was kann ich damit machen?
    • zwei kontinuierliche Variablen deren Datenzusammenhang mittels linearer Regression analysiert werden kann
    • Prinzip der Linearen Regression erklärt: Gerade durch die Punkte finden, die die Residuen minimiert mit der dann die abhängige Variable durch die unabhängige vorausgesagt werden kann
  • Das Verfahren heißt?
    • Least Squares
  • Jetzt habe ich nicht Gewicht und Größe, sondern Gewicht und die Angabe ob Bluthochdruck vorliegt
    • (wir haben kurz gebraucht, bis die Frage so klar formuliert war und mir klar war, dass die zweite Variable jetzt binär ist - das wurde mir aber auch nicht negativ angerechnet)
    • Klassifizierung durch Anwendung der logistischen Regression möglich
    • hier habe ich die Logistische Regression sehr detailliert erklärt, inklusive der Formeln für die Transformationen, weil ich den Tipp einer Kommilitonin hatte, dass er die Formeln hören will:
      • Fitting einer Sigmoid Kurve
      • Transformation zu Chance mitteln log(y/(1-y)) → y-Werte sind jetzt +/- INF
      • Gerade durchlegen und damit ŷ bestimmen durch 'projezieren' der x-Werte daran
      • Rücktransformation mittels e^log(ŷ) * 1/(1+e^log(ŷ))
      • y-Werte sind jetzt im Intervall [0;1]
      • Likelihood berechnen
      • Vorgang mit verschiedenen Geraden wiederholen und Maximum-Likelihood wählen
  • Wir haben dadurch eine Klassifikation und Sie haben ja auch schon mal Corona erwähnt - (schreibt eine Confusion Matrix auf) - Was ist das und was kann ich damit machen?
    • das ist eine Confusion Matrix und ich kann damit Klassifikationsmodelle bewerten
  • Was kann ich hieraus zum Beispiel ablesen?
    • Sensitiviät, Spezifität, Youden-Index und PPV erklärt und das hat er mich für ein paar Werte ausrechnen lassen und wollte auch darauf raus, dass PPV und NPV immer gemeinsam wichtig sind bei Sonderfällen wie 100% Sensitivität aber nur 50% PPV
  • Wofür hilt mir der Youden-Index?
    • ROC-Kurve erklärt, wo die perfekte Klassifikation und die optimale liegt und, dass die perfekte Klassifikation Youden-Index = 1 hat
  • An die genaue Frage kann ich mich nicht mehr erinnern, aber er wollte auf die Überlebenszeit-Analyse raus
    • Berechnen der Wahrscheinlichkeit einen bestimmten Zeitpunkt zu überleben mit der Überlebensfunktion S(t) auf Grundlage der Hazards
    • Ein Plot kann mittels dem Kaplan-Meier Estimator erstellt werden, aus dem ist auch der Median zum Beispiel ablesbar
    • Pro Zeitpunkt wird die Wahrscheinlichkeit aus den Daten berechnet - es wird keine allgemeine S(t) aufgestellt - dabei werden Personen die zum Beispiel aus der Studie aussteigen, einfach aus der Grundmenge zum entsprechenden Zeitpunkt entfernt (Censoring)
    • WICHTIG er möchte die Begriffe Kaplan-Meier Estimator und Censoring erklärt haben oder sie sollten schon in der eigenen Erklärung vorkommen

An dem Punkt waren die 20 Minuten eigentlich schon rum (waren bei so 22 Minuten), wurde auch vom Beisitzer angemerkt, aber er wollte unbedingt noch Clustering und Dimensionsreduktion ansprechen

  • Was ist das Clustering?
    • habe es sehr abstrakt beschrieben und supervised/unsupervised umschrieben und jeweils den in der VL vorgestellten Algorithmus genannt (nicht mehr erklärt)
  • Und noch: was ist Dimensionsreduktion
    • kurz die Motivation für Dimensionsreduktion beschrieben und dann das Prinzip der Principal Component Analysis (also nur, dass neue Dimensionen berechnet werden, die möglich viel der Varianz der Daten beschreiben und so dann höhere Dimensionen weggelassen werden können, je nachdem wie viel Varianz erhalten bleiben soll - ich musste nicht mehr erklären, was da genau gerechnet wird)