Ein Sparschwein gefüllt mit Daten. Das Bild ist AI generiert.
Generiert mit AI (DALL-E)

Nachhaltiger Umgang mit Daten

Datensparsamkeit und ein effizienter Umgang mit vorhandenen Ressourcen

Die stetig wachsende Bedeutung des Forschungsdatenmanagements sowie die Technologisierung fast aller Bereiche der Geistes- und besonders der Naturwissenschaften führt zu immer größeren Mengen an Forschungsdaten. Auch wenn dies u.a. im Sinne der Nachnutzbarkeit vorhandener Forschungsergebnisse eine sehr begrüßenswerte Entwicklung darstellt, so bringt sie dennoch auch technische und organisatorische Herausforderungen für Forschungsdatenmanager*innen und Wissenschaftler*innen mit sich. Hierzu zählt ein Mehr an erforderlichen Ressourcen in allen Phasen des Forschungsdatenlebenszyklus, sowohl in technischer, wie in personeller Hinsicht; auch können juristische und ethische Herausforderungen entstehen oder es kann schlicht und einfach der Überblick verlorengehen.

Vor diesem Hintergrund hat der Arbeitskreis Forschungsdatenmanagement in Baden-Württemberg (AK FDM) in Zusammenarbeit mit der Landesinitiative für Forschungsdatenmanagement bwFDM einen Leitfaden veröffentlicht, der praktische Ansätze liefert, wie durch digitale Datensparsamkeit notwendige technische und organisatorische Ressourcen reduziert werden können.

Herausforderungen bei der digitalen Datensparsamkeit

Entscheidungsbefugnis

Es muss klar sein, wer die Befugnis hat, über die Verwendung der Daten zu entscheiden. Formal liegt dieses Weisungsrecht in der Regel bei der Leitung eines Forschungsprojektes, doch die wissenschaftliche Realität ist weniger eindeutig. Die eigentliche Arbeit und damit auch das Wissen über die Bedeutung der Daten liegt häufig bei anderen Beteiligten. Weiterhin muss man Urheber-, Nachnutzungs- und ggf. Eigentumsrechte an Daten berücksichtigen. Deshalb ist eine frühzeitige, gemeinsame und schriftlich dokumentierte Entscheidung mit klaren Rollenverteilungen zu empfehlen.

Endgültigkeit

Gelöschte Daten sind meist unwiederbringlich verloren. Auch wenn es in speziellen Fällen technische Möglichkeiten gibt, gelöschte Daten wiederherzustellen, so sind diese aufwändig, ohne garantierten Erfolg und vor allem bei größeren Datenmengen kaum praktikabel. Diese Irreversibilität erfordert eine durchdachte und bewusste Entscheidung zur Löschung von Daten. Solche Entscheidungen sollten keineswegs leichtfertig oder gar unter Zeitdruck getroffen werden.

Datenformate

Diese unterscheiden sich in ihrer Offenheit, der langfristigen Zugreifbarkeit sowie hinsichtlich des Platzbedarfs. Daten zu komprimieren, trägt zu einem geringeren Speicherbedarf bei, allerdings muss immer gewährleistet sein, dass Daten auch in Zukunft wieder dekomprimiert werden können. Zudem sind Verfahren mit einer hohen Kompressionsrate bei Bildern oder Videos fast immer mit einem Qualitätsverlust verbunden. Es gilt folglich, Formate zu nutzen, die verlustfrei oder mit vertretbarem Informationsverlust arbeiten.

Technische Hürden

Speichersysteme sind für Nutzende selten vollständig transparent. So ist bei Cloud-Systemen in der Regel nicht festzustellen, ob eine oder mehrere interne Kopien der Daten auf verteilten Servern abgelegt sind und ob und wie lange z.B. gelöschte Dateien noch in Backup-Systemen vorgehalten werden. Dies ist insbesondere dann problematisch, wenn man bei sensiblen Daten deren Löschung zusagt. Hier sind auch die Betreibenden von Diensten gefordert, eine entsprechende Transparenz herzustellen bzw. mit Angeboten wie einer „Garbage Collection“ technische Unterstützung anzubieten. Das Wissen über die Speicherredundanz erlaubt es Forschenden, qualifiziert zu entscheiden, ob sie Kopien ihrer Daten nochmal an anderer Stelle vorsehen (oder nicht).

Machbarkeit

Forschung ist sehr individuell und damit auch das Management der Forschungsdaten. Das bezieht sich auch auf die Möglichkeit, Daten einzusparen oder im Forschungsverlauf frühzeitig zu löschen. Daten, die während verschiedener Schritte des Forschungsprozesses anfallen, unterscheiden sich stark im Aufwand ihrer Reproduzierbarkeit. Daraus folgen unterschiedliche Möglichkeiten, Daten einzusparen oder sie im Forschungsverlauf frühzeitig zu löschen. Beispielsweise können aggregierte Datensätze oder textanalytische Daten schnell und einfach reproduziert und daher frühzeitig gelöscht oder gar nicht erst gesondert abgespeichert werden. Dem gegenüber stehen z.B. Rohdaten und Ergebnisdaten zeitintensiver Simulationen, die aufgrund der aufwändigen und zeitintensiven Reproduzierbarkeit kaum Einsparpotenzial bieten. Deshalb kann es nur rudimentäre pauschale Regelungen zur Datensparsamkeit geben, in allen Fällen sind Einzelfallbetrachtungen mit individuellen Lösungen anzuraten. Sinnvollerweise greift man hierzu auf die Empfehlungen z.B. der Nationalen Forschungsdateninfrastruktur (NFDI) für das Fachgebiet zurück und berät sich mit entsprechend qualifizierten Data Stewards.

Bewusstsein

Digitale Daten sind oft nicht sichtbar. Im Gegensatz zu Aktenordnern, die im Büroregal stehen, sind sie eine visuell nicht fassbare Menge, die sich im Computer bzw. auf entfernten IT-Infrastrukturen oder in einer Cloud befindet. Es ist sinnvoll, soweit möglich automatisierte Erinnerungsroutinen anzulegen, die beispielsweise an den Ablauf von Vorhaltefristen erinnern und Datensätze zur erneuten Entscheidung über den Verbleib vorlegen.

Datensparsamkeit ist in diesem Sinne keine rein speicherkapazitätsbezogene Frage, sondern sollte auch vor dem Hintergrund ethischer Fragestellungen und Datenschutz sowie der eigenen vereinfachten Arbeit mit den Daten zu einem Kernelement aller Forschungsprojekte werden.
Grundsätze zur Datensparsamkeit

Grundsätze

  • Wie viele Kopien der Datensätze werden benötigt? Über welche Sicherungs- und Backup-Funktionen verfügen die genutzten Speichersysteme? Ein automatisches Backup eines CloudDienstes kann z.B. eine eigene Kopie auf einem anderen Speichersystem unnötig machen.
  • Wenn Daten von anderen Systemen für die eigene Forschung aus externen Quellen bezogen werden, reicht für die lokale Speicherung einfache Redundanz aus.
  • Ist es sinnvoll, Daten auf verschiedenen Systemen zu publizieren, beispielsweise einmal auf einem international anerkannten Publikationsserver und zum anderen auf dem lokalen Repositorium der eigenen Universität? Dies kann als Absicherung notwendig sein, wenn die Nachhaltigkeit des externen Publikationssystems nicht sichergestellt ist oder man befürchtet, dass die Daten perspektivisch hinter einer Paywall verschwinden.
  • In welcher Auflösung werden die Resultate datenerzeugender Verfahren benötigt, kann die Anwendung von Kompressionsalgorithmen sinnvoll sein? Eine geringere Auflösung reduziert den Speicherbedarf signifikant.
  • Wie soll der Umgang mit älteren Daten sein, welche durch neue Daten oder Versionen redundant bzw. obsolet wurden.
  • Ist es zur Nachvollziehbarkeit notwendig, in jedem Zwischenschritt der Datenverarbeitung den vollständigen Datensatz zu speichern? Wenn die getätigten Schritte dokumentiert und auf den Originaldatensatz erneut angewendet werden können, können die Daten im Zwischenzustand eingespart werden.
  • Bei der Arbeit mit Teilmengen von Daten – z.B. bei Rechnungen oder Simulationen – muss abgewogen werden, ob jede Teilmenge einzeln gespeichert werden muss oder ob die Teilmenge mit geringem Aufwand erneut aus den Daten generiert werden kann.
  • Beim Teilen von Daten mit Projektbeteiligten ist festzulegen, ob diese immer eine vollständige Kopie bekommen oder ob man gemeinsam Daten an einer zentralen Stelle nutzt.
  • Wie soll mit unbrauchbaren Daten umgegangen werden? Werden bei Simulationen oder Datenverarbeitung Resultate erzielt, die für die weitere Forschung nicht verwendet werden können oder sind Messungen invalide, muss entschieden werden, ob diese Daten direkt entfernt oder zu Dokumentationszwecken aufbewahrt werden

Praxisbeispiele

Naturwissenschaften

In der fiktiven Arbeitsgruppe Mayer, für Umweltanalytik werden täglich Massenspektrometriedaten aus Umweltproben erhoben, welche sich häufig im zweistelligen Gigabyte-Bereich befinden. Diese umfassen Daten aus Methodenentwicklung, Testmessungen und den eigentlichen Messungen, welche letztlich für die Publikation wissenschaftlicher Abhandlungen gedacht sind. Damit die limitierten Speicher-Ressourcen nicht überbeansprucht werden, werden zunächst alle Daten in einem nach Projekten geordnetem Verzeichnis abgespeichert. Testmessungen und weitere nicht zur Nachnutzung bzw. Archivierung vorgesehene Daten (temporäre Dateien) werden in einem gesonderten Ordner abgespeichert, welcher regelmäßig gelöscht wird. Allen Messdaten wird eine Beschreibung der verwendeten Messmethode (e.g., Methodendatei der Instrument-Software, .txt-Datei) beigefügt, sodass diese auch reproduzierbar und replizierbar sind. Ebenfalls wird den Messdaten eine .txt-Datei beigefügt, welche sowohl den Kontext der Messung wiedergibt als auch weitere Informationen (e.g., Probenahmen, Probenaufbereitung, messende Personen, etc.) enthält. Zusätzlich sind alle Mitarbeitenden von Frau Prof. Mayer dazu angehalten, Messdaten, welche durch neue Messungen oder Erkenntnisse redundant oder obsolet wurden, unverzüglich zu löschen. In monatlichen Abständen löscht Frau Mayer den Ordner für temporäre Dateien und bittet alle Mitarbeiter*innen gewissenhaft, ihre Daten hinsichtlich Datenqualität, Reproduzierbarkeit, Nachvollziehbarkeit und ob sie für andere Forschende zukünftig von Nutzen sein könnten, zu überprüfen und gegebenenfalls zu löschen. So behält Frau Mayer stets den Überblick über die Forschungsdaten ihrer Arbeitsgruppe und garantiert für andere Personen eine einfache Auffindbarkeit und Nachnutzbarkeit dieser Daten.

Geisteswissenschaften

In einem sozialwissenschaftlichen Forschungsprojekt werden dreißig leitfadengestützte Interviews mit Expertinnen und Experten von Bürgerstiftungen geführt. Ziel der Untersuchung ist eine textbasierte Auswertung der Befragungsergebnisse. Die Interviews werden online per Videokonferenz geführt und als Videodateien aufgezeichnet. Den Interviewpartner*innen wird dabei aus Datenschutzgründen zugesichert, dass die Aufzeichnung nach erfolgter Transkription gelöscht wird. Nach Abschluss aller Interviews werden diese transkribiert und in Textdateien gespeichert. Diese dienen als Grundlage der weiteren Analyse. Die Videomitschnitte der Interviews können nach Abschluss der Transkription gelöscht werden.

Biodiversität

In einem Projekt zur Erforschung der Biodiversität von Vögeln erfolgt die Erhebung von Audiodaten durch Aufnahmen im Wald über einen längeren Zeitraum mit dem Ziel die Menge an vorhandenen Vögeln zu überwachen. Diese Daten sind unwiederbringlich, d.h. wenn Teile verloren gehen, lassen diese sich nicht wiederherstellen. Die Daten werden dann zur Beantwortung unterschiedlicher wissenschaftlicher Fragestellungen von mehreren Promovierenden analysiert und weiterverarbeitet Zunächst liegen die Daten in einem unkomprimierten Audio-Format (WAV-File) vor. Nach der Verarbeitung müssen diese Rohdaten noch als Referenz zur Verfügung stehen, wobei es sich insgesamt um mehr als 100 TByte handelt, allerdings muss nicht mehr direkt auf diese Daten zugegriffen werden.

Anfänglich wurden die Daten auf ein großes iSCSI-Speichersystem gespeichert, welches über eine Virtuelle Linux-Maschine als Netzwerklaufwerk bereitgestellt wurde. Dieses iSCSI-System hat eine eingebaute RAID-Redundanz sonst aber keine weiteren Sicherungsmechanismen. Deshalb wurden die Daten nochmal komplett auf ein weiteres Speichersystem gespiegelt. Dieses hatte bereits eingebaute Sicherheitsmechanismen, welche bewirkten, dass die absolute Datenmenge durch diese Maßnahme auf ein Vielfaches anstieg. Dabei wurde weder Versionierung etc. in Betracht gezogen, sondern primär das Werkzeug rsync zum Datentransfer benutzt.

Nach einer Beratung zum Datenmanagement entschied sich die Projektleitung zu einem Übergang auf eine neue Speicherlösung. Alle Daten welche sich in akutem Gebrauch befinden werden fortan auf einem gesicherten zentralen Speichersystem gespeichert. Alle Daten welche sich nicht mehr in akutem Gebrauch befinden und lediglich als Referenz aufbewahrt werden sollen, werden in ein Object Storage bei höherer Redundanz und gleichzeitig hoher Speichereffizienz verschoben. Dieser Schritt führte letztlich zu einer erheblichen Abnahme der Bruttodatenmenge. In weiteren Schritten könnte eine verlustfreie Audiokompression in Betracht gezogen werden