Covid-19-Datenbank listet Millionen von Einzelfällen |
Theo Dingermann |
01.03.2021 15:30 Uhr |
Die neue Datenbank enthält Informationen zu 24 Millionen Covid-19-Patienten und soll helfen, wissenschaftliche Fragen zu SARS-CoV-2 zu klären. / Foto: Getty Images/da-kuk
Die Datenflut rund um das neue Coronavirus und um die von ihm verursachten epidemiologischen und pathologischen Probleme ist mittlerweile riesig. Um dennoch die Übersicht nicht zu verlieren, hilft jetzt eine neue Datenbank. In diese wurden von der Data-Science-Initiative »Global.health« eine noch nie dagewesene Menge an anonymisierten Informationen über einzelne Fälle eingestellt. Für jeden dieser Fälle lassen sich bis zu 40 Variablen abfragen, darunter zum Beispiel das Datum, an dem eine Person zum ersten Mal Covid-19-Symptome verspürte, das Datum, an dem die Infektion durch einen positiven Test bestätigt wurde, oder auch Bewegungsdaten.
Die Datenbank wurde von 21 Forschern an sieben akademischen Einrichtungen in den USA und Europa erstellt. Dies waren die Universitäten Oxford, Harvard und Northeastern, das Boston Children's Hospital, die Georgetown-Universität und die University of Washington sowie das Johns Hopkins Center for Health Security. Technische und finanzielle Unterstützung hatten die Wissenschaftler von Google und der Rockefeller Foundation erhalten. Bislang hat das Team Informationen von 24 Millionen Fällen aus rund 150 Ländern gesammelt. Die Forscher hoffen, dass die Datenbank ihnen helfen wird, Coronavirus-Varianten und Impfstoffe in den kommenden Monaten zu überwachen und eine Vorlage für die Verfolgung von Echtzeitdaten bei zukünftigen Epidemien zu liefern.
Mehrere Wissenschaftler äußerten sich begeistert. Sie sind sicher, dass diese umfassende, internationale und öffentlich zugänglichen Datenbank die Forschung an mehreren Fronten beflügeln wird. »Das ist wirklich gut und muss gemacht sein«, sagt etwa Professor Dr. Robert Garry, ein Virologe an der Tulane University in New Orleans, Louisiana. »So etwas gibt es bisher nicht, da es so schwer ist, Daten in dieser Weise zusammenzutragen«, meint der Wissenschaftler gegenüber »Nature News«.
Seinen Ursprung hatte das Projekt in der Erstellung einer simplen Google-Tabelle genommen, die auf Basis individueller Initiativen von Epidemiologen im Januar 2020 angelegt worden war, um einen Überblick über die neue Krankheit aus dem chinesischen Wuhan zu bekommen. Dieses händische Projekt stieß jedoch schon bald an seine technische Obergrenze. Nachdem die Zahl von etwa 100.000 Datensätzen überschritten wurde, suchten die Protagonisten nach Hilfe und baten um Unterstützung.
Im April begannen dann Produktentwickler bei Google und Google.org, dem gemeinnützigen Arm des Datengiganten aus dem Silicon Valley, die Forscher zu unterstützen. Gemeinsam schrieb das Konsortium Computerprogramme, die automatisch die täglichen Coronavirus-Daten von etwa 60 Regierungen in ein standardisiertes Format integrierten. Zudem wurden die Daten programmgesteuert auf Dopplungen überprüft und es wurde ein Algorithmus entwickelt, der die aus der ganzen Welt einlaufenden Informationen in eine einzige Cloud-basierte Datenbank zusammenführte.
Die Datenbank ist zugänglich für jedermann. Man muss sich registrieren und kann dann auf bis zu 8 Gigabyte an anonymisierten Daten der neuesten Version der Global.health-Datenbank zugreifen. »Bei etwa der Hälfte der 24 Millionen Einzelfälle wurden Daten für ein Dutzend Variablen mitintegriert und etwa 10 Prozent der Datensätze enthalten noch mehr Variablen«, sagt Professor Dr. Samuel Scarpino, ein Epidemiologe, der das Emergent Epidemics Lab an der Northeastern University in Boston leitet. Insgesamt könnten bis zu 40 Variablen pro Fall eingetragen werden.
Entfernt werden alle Daten, die Erkrankte identifizierbar machen. Für die Fälle aus Deutschland gibt es etwa Angaben über das ungefähre Alter, das Geschlecht und das Datum der ersten Symptome. Offenbar stammen aus Deutschland überdurchschnittlich viele Einträge. Momentan sind mehr als 2,26 Millionen Fällen aus der Bundesrepublik in der Datenbank enthalten. Andere Staaten, darunter beispielsweise Frankreich, beteiligen sich derzeit noch gar nicht.
Im Moment beschränken sich die Datenvisualisierungen der Website auf Karten, die die vom Team gesammelten Daten anzeigen. Scarpino merkt an, dass Infografiken nicht im Fokus standen, weil zunächst besonderes Augenmerk auf die Standardisierung der Datenerfassung und den Umgang mit Datenschutzfragen gerichtet wurde. Man habe sich mit Rechts- und Ethikexperten darüber beraten, wie man anonymisierte Daten über Einzelpersonen, die von Regierungsbehörden, Universitäten und Krankenhäusern oft streng gehütet werden, sicher handhaben und weitergeben kann, sagt er.
Und man denkt auch schon weiter. Scarpino hofft, die Covid-19-Datenbank irgendwann auf eine anpassbare Plattform zu erweitern, um andere Krankheiten zu erfassen – insbesondere im Zusammenhang mit möglichen neuen Epidemien. Aber dazu bräuchte man ein Unternehmen oder eine gemeinnützige Organisation, die ein solches Projekt vorantreibt.
Google hat in einem Open-Data-Portal verschiedene Daten zusammengetragen, die zum Verständnis der Coronavirus-Pandemie beitragen können. Das teilte der US-Konzern mit. Man erweitere damit auch sein eigenes Datenangebot, das auf riesiges Interesse gestoßen sei. So macht das Unternehmen seit April Daten zur Mobilität vieler Millionen Nutzer zugänglich, die bis auf die regionale Ebene Auskunft dazu geben, wie die Menschen in der Pandemie etwa den öffentlichen Nahverkehr nutzen oder zur Arbeit gehen. Mit den Daten zur Mobilität wolle man »Gesundheitsbehörden bei kritischen Entscheidungen zur Bekämpfung des Coronavirus helfen«. Sie sollten beispielsweise zeigen, wie sich die teilweise drastischen Einschränkungen des öffentlichen Lebens auf die Bewegungstrends auswirken.
Noch mehr Daten sammelt Google nun in dem sogenannten »Covid-19 Open Data repository« auf Github. Mit dem »Covid-19 Open-Data explorer« lassen sich die Daten für einzelne Länder leicht visualisieren. Hierzu mahnt Scarpino an: »Das kann keine Eintagsfliege sein.«
Das Virus SARS-CoV-2 hat unsere Welt verändert. Seit Ende 2019 verbreitet sich der Erreger von Covid-19 und stellt die Wissenschaft vor enorme Herausforderungen. Sie hat sie angenommen und rasch Tests und Impfungen, auch für Kinder, entwickelt. Eine Übersicht über unsere Berichterstattung finden Sie auf der Themenseite Coronavirus.