Wiederholte Messungen und Imputation
Verantwortlicher Mitarbeiter:
Beteiligte Mitarbeiter:
Förderung:
- eigene Mittel
Wiederholte Messungen und Imputation
Wiederholte Messungen und Imputation
Beschreibung:
Fehlende Werte sind bei vielen Datensätzen ein großes Problem, jeder Proband und Patient ist wertvoll für eine Studie. Müssen zu viele Probanden aus einer Analyse auf Grund fehlender Werte ausgeschlossen werden, kann das grade bei kleinen Studien dazu führen, dass die Ergebnisse der Studie zu geringe Power erreichen.
Es gibt derzeit verschiedene Ansätze fehlende Werte durch Imputation zu ersetzten. Nach aktuellem Kenntnisstand gibt es aber grade im Bereich der longitudinalen Daten und bei Problemstellungen mit Mehrfachmessungen immer wieder Probleme die Information, die durch vorrangehende und spätere Messungen vorhanden sind, so zu nutzen, dass eine adäquate Varianzschätzung gewährleistet wird. Ein Ansatz ist die einfache Regression, die aus vorrangehenden und nachfolgenden Werten den fehlenden Wert schätzt. Diese Methode hat jedoch den Nachteil, dass bei späteren Berechnungen die Varianz der imputierten Variablen unterschätzt wird, da die imputierten Werte eben nicht streuen sondern direkt auf der Regressionsgraden liegen. In dem Projekt sollen nun zunächst aktuelle Methoden und Ansätze zur Imputation bei longitudinalen Daten gesammelt und in Form einer Übersichtsarbeit dargestellt und veröffentlicht werden. Im Anschluss sollen die populärsten Ansätze in Simulationen mit fiktiven Datensätzen mit unterschiedlicher Größe und unterschiedlichem Prozentsatz von fehlenden Werten geprüft werden. Hierbei soll auch ein neuer Ansatz erarbeitet werden, der Ansätze der multiplen Imputation mit Ansätzen zur Regression und fallspezifischen Fehlertermen kombiniert.
Überprüft wird die Güte der Imputation durch Vergleich der berechneten Kenngrößen aus den imputierten Datensätzen mit dem vollständigen Datensatz. Die Ergebnisse dieser Arbeit können dazu beitragen die Fehler und Ungenauigkeiten, die durch Imputationen entstehen, besser zu verstehen. Es soll geprüft werden, welche der Methoden Kennzahlen hervorbringt, die am ehesten den aus dem Originaldatensatz berechneten Werten entsprechen.