Das InGef nutzt für die Analyse von Routinedaten der Krankenkassen ein breites Spektrum aktueller statistischer Methoden. Neben praktischen Erwägungen bezüglich der Machbarkeit wird die Auswahl der Methodik an dem Ziel des Forschungsprojekts ausgerichtet. An vorderster Stelle steht dabei die Entwicklung performanter Analyseprogramme unter Nutzung eigens entwickelter Funktionen in den Programmiersprachen R, SQL und Python, die den Herausforderungen der sehr großen Datenmenge in der Forschungsdatenbasis gewachsen sind.
Unter anderem führt das InGef auf Basis anonymisierter Routinedaten
- querschnittliche Studien,
- Fall-Kontroll-Studien,
- längsschnittliche Kohortenstudien und
- Krankheitskostenstudien durch.
Zur Quantifizierung der Einflüsse und deren statistischer Signifikanz von interessierenden Variablen auf Studienereignisse nutzt das InGef dem Studientyp angemessene Regressionsmodelle. Dabei kommen u.a.
- generalisierte lineare Modelle (vornehmlich lineare und logistische Regression),
- Cox-Regressionen (für Überlebenszeitanalysen),
- Generalized Estimating Equations und
- Random Effects Modelle (zur Berücksichtigung von Clustern) sowie
- Two-Part Modelle (z.B. für Kostenanalysen) zum Einsatz.
Zur besseren Darstellung der Ergebnisse nutzt das InGef verschiedene Visualisierungstechniken. Beispielhaft sind hier Kaplan-Meier-Kurven zur Beschreibung von Überlebenszeiten und Alluvial-Diagramme oder Sankey Plots für den Verlauf von Behandlungen erwähnt.
Für ausgewählte Fragestellungen werden neben klassischen statistischen Methoden auch moderne maschinelle Lernverfahren eingesetzt. In verschiedenen Forschungsprojekten wurden z.B. Deep Learning Verfahren sowie Natural Language Processing zur Prädiktion von Gesundheitskosten angewendet.
Ein besonderer Fokus des InGef liegt in der Vergleichbarkeit von Patientenpopulationen im Rahmen von Beobachtungsstudien. Neben Standardisierungen und dem exakten Matching der Populationen auf spezifische Charakteristika (Alter, Geschlecht) wird häufig die Methode des Propensity Score Matchings (PSM) genutzt. In einem Forschungsprojekt des Bundesministeriums für Wirtschaft und Klimaschutz hat das InGef dabei untersucht, wie die komplette Datenbasis unter Zuhilfenahme maschineller Lernverfahren zur Verbesserung des PSMs genutzt werden kann. Auch alternative Propensity Score Anwendungen wie Inverse-Probability-of-Treatment Weighting und Stratifizierungen wurden in bisherigen Forschungsprojekten erfolgreich implementiert.
Datenbasis
Versorgungsforschungsprojekte und pharmakoepidemiologische Fragenstellungen können auf Basis der Forschungsdatenbank (FDB) bearbeitet werden, die anonymisierte Abrechnungsdaten von rund 8,8 Millionen gesetzlich Versicherten in 52 Krankenkassen enthält (siehe auch Veröffentlichung von Ludwig, Enders, Basedow, Walker und Jacob). Die FDB des InGef enthält neben soziodemographischen Angaben Informationen zu Arzneimittelverschreibungen, ambulanten und stationären Behandlungen über einen Zeitraum von sechs aufeinanderfolgenden Kalenderjahren, die longitudinal miteinander verknüpft sind.
Die Berücksichtigung nationaler und internationaler Empfehlungen zur Durchführung und Publikation von Forschungsergebnissen sind für uns selbstverständlich. Wir arbeiten u.a. nach:
- den Grundsätzen der Guten Praxis Sekundärdatenanalyse.
- den Leitlinien und Empfehlungen zur Sicherung von Guter Epidemiologischer Praxis (GEP).
- Good Biomedical Practice in Medical Research.
- Strengthening the reporting of observational studies in epidemiology (STROBE) statement: guidelines for reporting observational studies.