Open Data Forscher sollen ihre Daten teilen

Wissenschaftler erheben ständig Daten, die dann nie wieder verwendet werden. "Data Sharing" will diese Verschwendung beenden und Rohdaten zugänglich machen.

Ein Wissenschaftler schaut durch ein elektronisches Mikroskop

Ein Wissenschaftler schaut durch ein elektronisches Mikroskop

Welche Faktoren machen Jugendliche anfällig für Drogenmissbrauch? Das war eine der Fragen, die eine Berliner Längsschnittstudie beantworten wollte. Sechs Jahre lang wurden dazu die Lebensumstände von 2000 Jugendlichen beobachtet. Das Team von Rainer K. Silbereisen sammelte dabei einen gewaltigen Berg an Daten. Der steht jetzt auch anderen Forschern zur Verfügung. Bislang ist es nicht üblich, dass Wissenschaftler ihre Rohdaten anderen zur Verfügung stellen. Verschiedene Projekte wollen das ändern.

PsychData ist eines von diesen zahlreichen wissenschaftlichen Datenbankprojekten, das sich dem sogenannten Data Sharing verpflichtet fühlt: Forscher sollen ihre Daten zugänglich machen. Dadurch will man zum einen erreichen, dass Studienergebnisse unabhängig überprüfbar werden – immer wieder ist es in der Vergangenheit vor allem in den Naturwissenschaften zu dreisten Fälschungen gekommen. Die Forschungsförderer – mit der EU und der DFG als treibende Kraft – wollen zudem vermeiden, dass mehrere Gruppen unwissentlich an ähnlichen Projekten arbeiten.

Anzeige

Und letztlich lautet eine große Hoffnung der modernen Wissensgesellschaft, dass geteilte Informationen den Nutzen vermehren. Was für Open Data und Open Access gilt, sollte also auch für die Forschungsergebnisse gelten: Wer Wissen teilt, verdoppelt es letztlich. Und auch von Transparenz profitieren am Ende alle.

Das klingt erst einmal so gut, dass man sich fragt, warum das nicht schon lange Praxis ist. "Die Fachcommunity ist noch lange nicht vom Data Sharing überzeugt, übrigens quer durch die Disziplinen", sagt Erich Weichselgartner vom Zentrum für Psychologische Information und Dokumentation, der an der Universität Trier das Projekt PsychData vorangetrieben hat. "Man will aus den eigenen Daten das Maximale herausholen, man gönnt anderen nicht potenzielle Entdeckungen mit den Daten, man hat Angst vor Kontrolle und vieles andere mehr", sagt er.

Deshalb versuchen die Vorkämpfer der transparenten Primärdaten, mit Data Sharing zugleich auch die Kultur in den jeweiligen Fächern zu beeinflussen.

Auch die Deutsche Zentralbibliothek für Wirtschaftswissenschaften (ZBW) hat jetzt gemeinsam mit der Kieler Christian-Albrechts-Universität ein Pilotprojekt zur Archivierung und Aufbereitung von Forschungsprimärdaten aufgelegt. Olaf Siegert, der an dem Projekt von Seiten der ZBW beteiligt ist, weist auf die besonderen Probleme in den Wirtschaftswissenschaften hin: Hier würden die Daten oft gar nicht selbst erhoben, sondern stammten von externen Dienstleistern wie der Börse oder statistischen Ämtern oder Ministerien. Deshalb ergäben sich zum Teil Urheberrechtsprobleme.

Leser-Kommentare
  1. Man kann doch oft nichts mit den Rohdaten anfangen. Das sind doch oft irgendwelche Textdateien, die nur spaltenweise nackte Zahlen aufweisen ohne Erläuterung, um sie später einfacher in irgendwelche Programme einladen zu können. Man muss quasi erst die aufbereiteten Rohdaten (mit Kommentaren, Einheiten, etc.) als "Rohdaten" weitergeben. Was für ein Aufwand, wenn dies nur halbwegs standarisiert machen möchte.

    Reaktionen auf diesen Kommentar anzeigen
    • Elite7
    • 22.09.2010 um 17:34 Uhr

    Das hätte man sich schon seit Jahren gewünscht, aber jetzt gibts ja Hoffnung.
    Wissen ist Macht und anscheinend auch Geld. Wen interessiert denn die Angst der Forscher, dass andere damit irgendwelche Entdeckungen machen könnten? Dient nur dem Allgemeinwohl und der Nachprüfbarkeit. Würde mich jetzt nur interessieren, ob diese Daten denn dann wirklich öffentlich für jedermann zugänglich sind.

    • Elite7
    • 22.09.2010 um 17:34 Uhr

    Das hätte man sich schon seit Jahren gewünscht, aber jetzt gibts ja Hoffnung.
    Wissen ist Macht und anscheinend auch Geld. Wen interessiert denn die Angst der Forscher, dass andere damit irgendwelche Entdeckungen machen könnten? Dient nur dem Allgemeinwohl und der Nachprüfbarkeit. Würde mich jetzt nur interessieren, ob diese Daten denn dann wirklich öffentlich für jedermann zugänglich sind.

    • Elite7
    • 22.09.2010 um 17:34 Uhr

    Das hätte man sich schon seit Jahren gewünscht, aber jetzt gibts ja Hoffnung.
    Wissen ist Macht und anscheinend auch Geld. Wen interessiert denn die Angst der Forscher, dass andere damit irgendwelche Entdeckungen machen könnten? Dient nur dem Allgemeinwohl und der Nachprüfbarkeit. Würde mich jetzt nur interessieren, ob diese Daten denn dann wirklich öffentlich für jedermann zugänglich sind.

    Antwort auf "Zu hoher Aufwand?"
  2. Rohdaten, die ich für meine Doktorarbeit aufgenommen habe.
    Wer die im Internet dokumentieren will, ist herzlich eingeladen, ich liefere sogar die Auswertungssoftware mit.

    Und nebenbei: Unsere Gruppe hat im Moment vier Doktoranten, also viel Spaß beim Festplatten kaufen.

    • tom310
    • 22.09.2010 um 19:55 Uhr

    Die Finanzierung einer Professur oder einer Abteilung in einer Forschungseinrichtung hängt maßgeblich vom wissenschaftlichen Output ab. Das gilt gerade in Amerika und wird seit Jahren auch in Europa im aktueller. Ein Paradebeispiel dafür ist die Excellenzinitiative. Forschung kostet Geld, teile ich meine Erkenntnisse, dann verschenke ich Geld und ermögliche anderen Gewinne. Nett, aber realitätsfern. Wissenschaft ist eine Mischung aus Wettbewerb und Zusammenarbeit, geradezu kapitalistisch. Und es gibt eine große Zahl schwarzer Schafe.

    Man überlege sich einfach mal folgendes: Alzheimer ist eine weltweit verbreitete Krankheit, die dutzende Millionen Menschen betrifft. Wer eine Therapie entwickelt und patentiert, wird schlagartig reichster Mensch der Welt sein. Glaubt denn irgend jemand, dass Wissenschaftler nicht egoistisch seien. Gleiches gilt auch für die Stammzell- und Krebsforschung. In diesen Gebieten gibt es unglaublich viele Patente und Patente sind das exakte Gegenteil von Data Sharing.

    Auf der anderen Seite werden viele Forschungseinrichtungen staatlich gefördert, da gibt es viele Töpfe von DFG über BMBF bis zur EU. Da hier Steuergelder ausgegeben werden, sollte der Steuerzahler auch einen Anspruch auf Zugang zu den erzielten Daten haben.

    Reaktionen auf diesen Kommentar anzeigen

    Interessant, viele Forscher sind für freie Daten. Aber sie wissen nicht wie man das macht (Meta Daten, Archivierung), dann spielt da noch mit, ich könnte jemand zu einem Vorteil verhelfen, wenn ich meine Daten freigeben würde. Mit der Veröffentlichung der Ergebnisse (Paper) müssen die Rohdaten freigegeben werden. Die Gründe dafür sind: mit Steuergeldern finanzierte Daten sollen für alle (Steuerzahlern) offen sein, damit ist auch eine Nachnutzung der Daten möglich, der Steuerzahler erhält mehr Ergebnisse für sein Geld. Die Ergebnisse von Veröffentlichungen werden besser nachvollziehbar. Die schützt vor Manipulationen durch die Forscher (Modell wird an die erwarteten Ergebnisse angepasst, Daten entfernt). Weiterhin kann man als Leser der Veröffentlichung auch versuchen andere Ergebnisse aus den Daten zu generieren. Wenn der Blick des Forschers durch die zu erwartenden Ergebnissen so verstellt ist, dass er falsche Schlüsse zieht, kann man das anhand der Rohdaten prüfen und verbessern. Auch Reviewer unterliegen des öfteren solchen Fehlern, z.B. in der Genetik wird viel gerechnet aber die Reviewer sind Biologen und oft nur eingeschränkt in der Lage diese mathematischen (statistischen) Modell zu bewerten.
    Um offene Rohdaten bereit zu stellen bedarf es mehrerer Dinge zu lösen: Metadaten, Archivierung, psycho-soziel Barrieren (welchen Gewinn habe ich, wenn ich meine Daten frei gebe). Wenn jemand hier auf dem Gebiet der Genetik mitmachen möchte, möge er mir bitte schreiben.

    Interessant, viele Forscher sind für freie Daten. Aber sie wissen nicht wie man das macht (Meta Daten, Archivierung), dann spielt da noch mit, ich könnte jemand zu einem Vorteil verhelfen, wenn ich meine Daten freigeben würde. Mit der Veröffentlichung der Ergebnisse (Paper) müssen die Rohdaten freigegeben werden. Die Gründe dafür sind: mit Steuergeldern finanzierte Daten sollen für alle (Steuerzahlern) offen sein, damit ist auch eine Nachnutzung der Daten möglich, der Steuerzahler erhält mehr Ergebnisse für sein Geld. Die Ergebnisse von Veröffentlichungen werden besser nachvollziehbar. Die schützt vor Manipulationen durch die Forscher (Modell wird an die erwarteten Ergebnisse angepasst, Daten entfernt). Weiterhin kann man als Leser der Veröffentlichung auch versuchen andere Ergebnisse aus den Daten zu generieren. Wenn der Blick des Forschers durch die zu erwartenden Ergebnissen so verstellt ist, dass er falsche Schlüsse zieht, kann man das anhand der Rohdaten prüfen und verbessern. Auch Reviewer unterliegen des öfteren solchen Fehlern, z.B. in der Genetik wird viel gerechnet aber die Reviewer sind Biologen und oft nur eingeschränkt in der Lage diese mathematischen (statistischen) Modell zu bewerten.
    Um offene Rohdaten bereit zu stellen bedarf es mehrerer Dinge zu lösen: Metadaten, Archivierung, psycho-soziel Barrieren (welchen Gewinn habe ich, wenn ich meine Daten frei gebe). Wenn jemand hier auf dem Gebiet der Genetik mitmachen möchte, möge er mir bitte schreiben.

  3. Interessant, viele Forscher sind für freie Daten. Aber sie wissen nicht wie man das macht (Meta Daten, Archivierung), dann spielt da noch mit, ich könnte jemand zu einem Vorteil verhelfen, wenn ich meine Daten freigeben würde. Mit der Veröffentlichung der Ergebnisse (Paper) müssen die Rohdaten freigegeben werden. Die Gründe dafür sind: mit Steuergeldern finanzierte Daten sollen für alle (Steuerzahlern) offen sein, damit ist auch eine Nachnutzung der Daten möglich, der Steuerzahler erhält mehr Ergebnisse für sein Geld. Die Ergebnisse von Veröffentlichungen werden besser nachvollziehbar. Die schützt vor Manipulationen durch die Forscher (Modell wird an die erwarteten Ergebnisse angepasst, Daten entfernt). Weiterhin kann man als Leser der Veröffentlichung auch versuchen andere Ergebnisse aus den Daten zu generieren. Wenn der Blick des Forschers durch die zu erwartenden Ergebnissen so verstellt ist, dass er falsche Schlüsse zieht, kann man das anhand der Rohdaten prüfen und verbessern. Auch Reviewer unterliegen des öfteren solchen Fehlern, z.B. in der Genetik wird viel gerechnet aber die Reviewer sind Biologen und oft nur eingeschränkt in der Lage diese mathematischen (statistischen) Modell zu bewerten.
    Um offene Rohdaten bereit zu stellen bedarf es mehrerer Dinge zu lösen: Metadaten, Archivierung, psycho-soziel Barrieren (welchen Gewinn habe ich, wenn ich meine Daten frei gebe). Wenn jemand hier auf dem Gebiet der Genetik mitmachen möchte, möge er mir bitte schreiben.

  4. Aus den Wirtschaftswissenschaften kenne ich es so, dass die verwendeten Daten mindestens auf Anfrage zur Verfügung gestellt werden. Ergebnisse, die ohne eine solche, wenigstens limitierte Freigabe an Kollegen erfolgt, haben einen ganz schlechten Leumund.

    Dass es sich häufig um Rohdaten handelt ist nicht so problematisch wie sich ein Laie das vielleicht vorstellt. Eine Beschreibung der Daten muss sowieso im Paper erfolgen um die Ergebnisse verständlich zu machen und daraus ergeben sich für den Fachmann auch meist Struktur und Interpretation der Rohdaten.

    Das wichtigste Argument ist aber m.E. nach, dass die meisten dieser Datensammlungen mittels öffentlicher Gelder zustande gekommen sind. Wenn jetzt Erhebungen jedes mal wieder neu gemacht werden müssen, weil Kollegen ihre Daten nicht rausrücken, ist das eine grandiose Geldverschwendung.

  5. Die Erhebung von Daten ist auch immer ihre Produktion. Daten sind niemals neutral, und das Ergebnis davon sieht man bei den Sekundäranalysen (die WiWi sind ein gutes Beispiel) allzu oft. Die Veröffentlichung der Rohdaten ist sicher eine gute Idee -man denke nur an die Veröffentlichung des Feldtagebuchs von Malinowski-, ihre Weiternutzung nur bedingt. Und ich glaube nicht, dass es Vordenkern dieses Ansatzes um eine höhere Transparenz geht (was definitiv erstrebenswert ist), sondern eher um eine Nutzenmaximierung. Dafür sind die Daten anderer Leute nur bedingt hilfreich.

Bitte melden Sie sich an, um zu kommentieren

Service