Hochschulbibliothek
"FDM kompakt", unser FDM-Glossar, bietet einen Überblick über wichtige Begriffe rund um das Thema Forschungsdaten und Forschungsdatenmanagement. Von Archivierung und Backup über CARE- und FAIR-Prinzipien bis hin zu Repositorien und Zitation von Forschungsdaten werden hier alle relevanten Begriffe erläutert sowie die damit verbundenen Aufgaben im Forschungsalltag. Das FDM-Glossar wird fortlaufend ergänzt.
Im Kontext des Forschungsdatenmanagements bezieht sich der Begriff Archivierung auf die Aufbewahrung von Forschungsdaten in einem langlebigen Dateiformat und Aufbewahrungsort. Im Sinne der Guten wissenschaftlichen Praxis hat sich im Laufe der Jahre eine Archivierungsfrist von 10 Jahren etabliert. Als Speicherort für digitale Objekte werden sogenannte Repositorien genutzt.
Mit Backup (Datensicherung) bezeichnet man die Erstellung einer Sicherheitskopie von Daten, auf die im Falle eines Systemausfalls oder bei Datenverlust zurückgegriffen und so die ursprünglichen Daten wiederhergestellt werden können. Beim Befolgen der sogenannten 3-2-1-Backup-Regel werden drei Kopien auf mindestens zwei verschiedenen Speichermedien gespeichert, wovon eine Kopie dezentral, z. B. in einer Cloud, abgelegt wird. Cloud-Dienste wie etwa Nextcloud, Myfiles oder TeamDrive und Softwareprogramme wie Duplicati zählen zu den gängigen Backup-Tools.
Aufgelöst steht das Akronym für Collective Benefit, Authority to Control, Responsibility and Ethics. Es wurde ergänzend zu den FAIR-Prinzipien erarbeitet und soll Forschende sensibilisieren, die Rechte und Interessen indigener Völker in allen Phasen des Forschungsprozesses zu wahren. Im Einzelnen bedeutet dies:
Collective Benefit: Daten über indigene Völker sollen so bereitgestellt werden, dass indigene Völker auch selbst von diesen profitieren können.
Authority to Control: Bei der Datenerhebung ist einzuplanen, wie die Beforschten die sie betreffenden Daten kontrollieren können, um ihre eigenen Rechte und Interessen zu schützen.
Responsibility: Forschende sind dafür verantwortlich, Daten über indigene Völker zum kollektiven Nutzen zur Verfügung zu stellen, d. h. die Daten so aufzubereiten, dass sie für die Beforschten klar und verständlich sind.
Ethics: Die Rechte indigener Bevölkerungsgruppen sollen in allen Phasen des Datenlebenszyklus im Vordergrund stehen.
Durch eine Lizenz können Urheber:innen Dritten sogenannte Nutzungsrechte einräumen, die beschreiben, auf welche Weise die Daten genutzt werden dürfen. Durch die Wahl einer passenden Lizenz, z. B. eine Creative-Commons-Lizenz wie CC-BY, können Nutzungsrechte und die darin enthaltenen Bedingungen so vergeben werden, dass publizierte Forschungsdaten optimal für die angestrebte Nachnutzung zur Verfügung stehen.
Mit Data Stewards bezeichnet man Expert:innen im Bereich des Forschungsdatenmanagements. Sie werden als Schnittstelle zwischen der zentralen Infrastruktur und den Forschenden an Forschungseinrichtungen eingesetzt, erarbeiten lokale Richtlinien und unterstützen durch Beratungen, Schulungen sowie Informationsmaterialien beim professionellen Umgang mit Forschungsdaten.
Data Literacy (oder auch Datenkompetenz) steht für eine Schlüsselkompetenz des 21. Jahrhunderts, nämlich einen kritischen Umgang mit Daten. Im Kontext des Forschungsdatenmanagements bedeutet dies, dass grundlegende Datenkompetenzen in allen Phasen des Datenlebenszyklus benötigt werden, um die Erhebung, Analyse und Interpretation von Daten professionell umsetzen zu können.
Ein Dateiformat gibt an, wie Daten für bestimmte Anwendungen strukturiert und gespeichert werden. Dadurch können Anwendungsprogramme den Inhalt der Dateien interpretieren und zur Verfügung stellen. Es können zwei Formatvarianten unterschieden werden: proprietäre Formate erlauben das Öffnen von Dateien nur mit bestimmten Anwendungsprogrammen, während offene Formate das Öffnen und Bearbeiten mit verschiedenen Softwareprogrammen erlauben. Im Hinblick auf eine Publikation von Forschungsdaten ist es von Bedeutung, offene und standardisierte Dateiformate zu verwenden (Stichwort: Nachnutzung).
Der Hauptzweck von Datenjournalen (engl. Data Journals) ist die Veröffentlichung von Forschungsergebnissen in Form von Datensätzen. Neben den Datensätzen wird auch eine ausführliche Beschreibung der Daten sowie der Methodik publiziert, jedoch keine Interpretation.
Daten, die während des Forschungsprozesses entstehen, durchlaufen verschiedene (Lebens-)Phasen. Das klassische Modell des Datenlebenszyklus veranschaulicht alle Stationen:
Forschungsvorhaben planen
Daten-Erhebung
Aufbereitung und Analyse der Daten
Publizieren der Daten
Archivierung der Daten
Nachnutzung der Daten
Ein Datenmanagementplan dient der systematischen Strukturierung eines Projekts und dokumentiert den geplanten Umgang mit Forschungsdaten während der gesamten Projektlaufzeit – und darüber hinaus. Ein DMP beschreibt folglich den Umgang mit Daten von der Erhebung über die Veröffentlichung bis hin zur Archivierung und hält zugleich Bedingungen für eine mögliche Nachnutzung fest. Inzwischen wird ein DMP zum Umgang mit Forschungsdaten immer häufiger von Drittmittelgebern als Teil des Förderantrags gefordert, da dieser zur langfristigen Nutzbarkeit und Sicherung der Daten beiträgt.
Um den FAIR-Prinzipien und der Guten wissenschaftlichen Praxis gerecht zu werden, ist es notwendig, dass Forschungsergebnisse nachvollziehbar sind. Eine wichtige Voraussetzung hierfür ist die Publikation der zugrunde liegenden Forschungsdaten. Möglichkeiten zur Veröffentlichung von Forschungsdaten sind z. B. die Ablage in geeigneten Repositorien oder die Publikation in sogenannten Data Journals. Beide Möglichkeiten erhöhen die Transparenz in der Forschung.
Elektronische Laborbücher sind Softwareanwendungen zur Dokumentation von Forschungsdaten und stellen die digitale Alternative zum analogen Papierlaborbuch dar. Die digitale Variante bietet Vorteile wie das leichtere Auffinden von Daten durch Such- und Filterfunktionen, Zeitersparnis durch bereits erstellte Vorlagen und Standards sowie die Möglichkeit eines zeit- und ortsunabhängigen Zugriffs.
Ein Embargo definiert einen Zeitraum, in dem eine Datenpublikation und die darin enthaltenen Forschungsdaten noch nicht zugänglich sind, sondern lediglich die deskriptiven, d. h. die beschreibenden Metadaten der Forschungsdaten einsehbar sind. Ein Embargo wird z. B. dann verwendet, wenn Forschungsdaten einem Peer-Review-Prozess unterliegen und die Daten daher erst zeitverzögert veröffentlicht werden sollen.
Aufgelöst steht das Akronym für Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel) und Reusable (Wiederverwendbar). Die FAIR-Prinzipien dienen dazu, ein nachhaltiges Forschungsdatenmanagement zu ermöglichen, denn sie schaffen die notwendigen Voraussetzungen um Forschungsdaten für Menschen und Maschinen optimal aufzubereiten und auffindbar zu machen.
Findable: Damit die Daten auffindbar sind, erhalten sie neben einer eindeutigen Kennung (z. B. in Form von persistenten Identifikatoren) auch eine Beschreibung mit Metadaten.
Accesssible: Nach dem Auffinden der Daten etwa in einem Repositorium muss für den Nutzer ersichtlich sein, wie der Zugang – Stichwort Authentifizierung und Autorisierung – zu den Daten erfolgt.
Interoperabel: Die Interoperabilität bezieht sich auf die Fähigkeit der Daten, mit anderen Datensätzen kombiniert werden zu können oder mit anderen Anwendungen kompatibel zu sein. Ein erster Schritt kann die Verwendung von Metadatenstandards sein, die in der entsprechenden wissenschaftlichen Community weit verbreitet sind.
Reusable: Die Nachnutzbarkeit von Daten ist das Hauptziel der FAIR-Prinzipien. Voraussetzung hierfür ist eine ausführliche Beschreibung der Daten. Ein weiteres unumgängliches Muss: Um die Bedingungen der Nachnutzung klar und transparent festzulegen, sollten die Forschungsdaten mit einer Lizenz wie etwa einer Creative-Commons-Lizenz versehen werden.
Als Bestandteil der Antragsstellung verlangen immer mehr Forschungsförderer (wie etwa DFG, MWFK und BMBF), dass der Umgang mit Forschungsdaten während und vor allem auch nach dem Projekt in Form eines Datenmanagementplans detailliert dargestellt wird. Was im Einzelnen unter FDM-Förderung fällt, lässt sich nicht pauschal festhalten, in der Regel können jedoch Sach- und Personalmittel für das FDM beantragt werden.
Zu Forschungsdaten zählen alle Daten, die im Rahmen der wissenschaftlichen Arbeit entstehen, entwickelt oder ausgewertet werden. Auch methodische Testverfahren wie Fragebögen, Software und Simulationen können wesentliche Ergebnisse wissenschaftlicher Forschung darstellen und sind daher unter den Begriff der Forschungsdaten aufzufassen. Die DFG liefert in ihren "Leitlinien zum Umgang mit Forschungsdaten" eine umfassende Definition.
Forschungsdatenmanagement – kurz FDM – steht für einen optimierten Umgang mit Forschungsdaten. Ziel des Forschungsdatenmanagements ist, die eigenen Forschungsdaten im Sinne von Open Science auch über das Projektende hinaus und personenunabhängig auffindbar, zugänglich, nachprüfbar und nachnutzbar zu machen.
Mit den "Leitlinien zur Sicherung guter wissenschaftlicher Praxis" liefert die DFG eine erste Orientierung zum Umgang mit Forschungsdaten. Der sogenannte DFG-Kodex befasst sich insbesondere mit der Qualitätssicherung, rechtlichen und ethischen Fragen, der Dokumentation, Veröffentlichung, Archivierung und der damit verbundenen Nachnutzbarkeit von Forschungsdaten.
Der Ingest (auch Auf- oder Übernahme genannt) ist im Datenlebenszyklus die Phase, in der Forschungsdaten in ein Archiv oder Repositorium aufgenommen werden. Hierbei ist zu entschieden, welche Daten in welcher Form übernommen werden. Daran schließen sich entsprechende Workflows an sowie (zumeist auch) eine Qualitätskontrolle.
Der Begriff Interoperabilität beschreibt die Fähigkeit verschiedener Systeme, miteinander zu interagieren. Im Kontext von Forschungsdaten ist es eines der Kriterien der FAIR-Prinzipien und soll den Datenaustausch mittels Metadaten, kontrolliertem Vokabular und persistenten Identifikatoren effizient gestalten und maschinell interpretierbar machen.
Die Langzeitarchivierung (kurz LZA) hat die langfristige Speicherung, Zugänglichkeit und Verständlichkeit von Forschungsdaten zum Ziel. Hierfür werden sogenannte Repositorien genutzt. In den meisten Disziplinen hat sich eine Aufbewahrungsfrist von 10 Jahren etabliert.
Damit Forschungsdaten sowohl für Menschen als auch für Maschinen auffindbar und lesbar sind, werden Metadaten hinzugefügt, um den Forschungsdaten eine zusätzliche Beschreibung zur Seite zu stellen. Man unterscheidet zwischen:
Bibliografischen Metadaten: Titel, Autoren, Beschreibungen etc.
Administrativen Metadaten: Dateitypen oder Lizenzen
Prozessmetadaten: angewandte Methoden, Schritte oder Hilfsmittel
Inhaltsbeschreibende Metadaten: Titel, Schlagwörter, Klassifikation etc.
Metadatenstandards sind notwendig, um Daten strukturiert und einheitlich zu beschreiben. Damit wird die Interoperabilität der Metadaten sichergestellt, die eine gemeinsame Verarbeitung und Verknüpfung gewährleistet. Ein verbreiteter Standard für die bibliographische Beschreibung von Forschungsdaten ist DataCite, einen Überblick über fachspezifische Metadatenstandards bieten u. a. der Metadata Standards Catalog oder das DDC (Digital Curation Centre).
Die Nachnutzung von Forschungsdaten ist Teil der FAIR-Prinzipien (Reusable). Voraussetzung hierfür ist die Aufbereitung und Publikation der Daten, so dass diese von Dritten gefunden und wiederverwendet werden können. Gemäß der Guten wissenschaftlichen Praxis sollte die Nachnutzung von Forschungsdaten Dritter durch eine entsprechende Zitation kenntlich gemacht werden.
Die Auffindbarkeit und Zitierbarkeit von Forschungsdaten wird durch die Vergabe eines persistenten Identifikators wie beispielsweise eines DOI (Digital Object Identifier) deutlich verbessert. Für die Publikation von Forschungsdaten sind sie folglich ein Muss. Persistente Identifikatoren verweisen auf ein digitales Objekt selbst, so dass sie unabhängig von URL-Änderungen gültig bleiben. Sie bestehen aus einer Ziffern- und/oder alphanumerischen Zeichenfolge, z. B.:
DOI: 10.5281/zenodo.345954
Mit einer FDM-Policy sollen Leitlinien für einen professionellen, den FAIR-Prinzipien entsprechenden Umgang mit Forschungsdaten geschaffen werden. Derzeit wird an der THB die "Satzung zum Umgang mit Forschungsdaten der Technischen Hochschule Brandenburg" erarbeitet. Die Satzung greift die nachvollziehbare Verwaltung, sichere Archivierung und nachhaltige Veröffentlichung von Forschungsdaten auf und benennt die dafür geeigneten technisch-wissenschaftlichen Dienste und Maßnahmen.
Ein Repositorium ist ein Speicherort für digitale Objekte und kann als eine spezielle Form des Archivs verstanden werden. Sofern keine geeigneten fachspezifischen Repositorien für die Archivierung und Publikation von Forschungsdaten zur Verfügung stehen, wird die Nutzung eines disziplinübergreifenden Repositoriums empfohlen. In der deutschen Hochschullandschaft hat sich etwa RADAR etabliert.
Im Sinne der Guten wissenschaftlichen Praxis ist es von Bedeutung, dass auch Forschungsdaten korrekt zitiert werden. Da es noch keinen einheitlichen Standard für die Zitation von Forschungsdaten gibt, sollten die jeweiligen fach- und forschungsspezifischen Zitationsregeln beachtet werden. Zwingend anzugeben ist der zu den Daten zugehörige persistente Identifikator.