Phase 6: Archivierung der Daten
WISDOM begrüßt Datendeponierungen von ForscherInnen und lädt diese dazu ein, sich möglichst frühzeitig im Forschungsprozess mit dem Archiv in Verbindung zu setzen. Bei der Datendeponierung wird von DatengeberInnen die Zugriffsklasse des Datensatzes bestimmt, die festlegt, wer den Datensatz unter welchen Bedingungen nutzen darf. Außerdem werden neben den Daten selbst alle notwendigen Projektdokumentationen an das Archiv übermittelt, sodass später ein Katalogeintrag mit den notwendigen Metainformationen erstellt werden kann. Die Vereinbarungen zwischen ForscherInnen und Datenarchiv werden in einem Datenabgabeformular (Deposit Form) festgehalten. Einen genauen Ablauf des formalen Datenabgabeprozederes, sowie Details zu den Zugriffsklassen finden Sie unter dem Menüpunkt Datenabgabe.
Metadaten
Im Kontext der Datendokumentation für eine Archivierung bilden Metadaten eine Art Basisdokumentation, welche standardisierte, strukturierte Informationen zum betreffenden Datensatz - wie Urheber, Ziel und Zweck der Untersuchung, Schlüsselwörter, Zeit und Ort der Erhebung, Zugangs- und Nutzungsbedingungen - zur Verfügung stellen. Metadaten werden in erster Linie für die Quellensuche genutzt, da sie indizierte Informationen bereitstellen, die NutzerInnen die Recherche nach Datensätzen ermöglichen. Außerdem enthalten sie bibliografische Informationen, die bei der Weiterverwendung des Datensatzes durch SekundärforscherInnen für die Zitation des Datensatzes verwendet werden und gewährleisten, dass die UrheberInnen der Daten entsprechend gewürdigt werden.
Onlinekataloge oder Datenportale verwenden meist internationale Metadatenstandards wie Dublin Core, ISO 19115 oder ISAD(G). Die Datenarchive im Verbund der europäischen Datenarchive (CESSDA) – zu denen auch WISDOM gehört - verwenden den Metadatenstandard der Data Documentation Initiative (DDI). Die Metadaten können im Webbrowser dargestellt und durch Suchfunktionen abgerufen werden. Außerdem können die CESSDA Datenarchive untereinander auf ihre Kataloge zugreifen. Durch ein kontrolliertes Vokabular bei Schlüsselwörtern und eine vereinheitlichte Themenklassifizierung kann eine Vergleichbarkeit zwischen den Archiven garantiert werden.
ForscherInnen generieren Metadaten in der Regel dann, wenn sie ihren Datensatz bei einem Archiv deponieren (Deposit Form). In einigen Fällen – so bspw. auch bei WISDOM – werden die Metadaten vom Archiv erstellt. Eine Liste der Informationen, die im Zuge einer Dokumentation nach dem DDI Standard abgefragt werden, finden Sie hier.
(Auszug aus dem WISDOM Online-Datenkatalog Nesstar)
Datenformate
Statistische, Tabellenkalkulations- und Datenbankprogramme weisen allesamt ein geringfügig verschiedenes Datenhandling und Beschränkungen auf. Dies kann einen unwiederbringlichen Verlust von Daten oder internen Metadaten (fehlende Wertedefinitionen, Variablelabels, etc.) während einer eventuellen Konvertierung bedeuten. Daten sollten daher von Datenverantwortlichen oder anderen kompetenten Teammitgliedern exportiert werden, welche mit den Daten vertraut sind und eine Überprüfung auf Fehler und ungewollte Veränderungen währen des Exportprozesses durchführen können.
Unabhängig von der Methode der Konversion - ob eine Exportfunktion oder eine spezielle Software - sollten die Ergebnisse genau getestet werden. Die überprüfte Methode sollte während des kompletten Konvertierungsprozesses verwendet werden, da neue bzw. andere Methoden möglicherweise Fehler erzeugen können. Back-ups von Masterfiles sollten nicht in proprietären Dateiformaten erstellt werden, sondern in Formaten die für eine langfristige digitale Speicherung in einem Archiv geeignet und frei verfügbar sind.
Alle empfohlenen Formate unterliegen im Verlauf der Zeit Veränderungen, da regelmäßig neue archivarische Formate und Austauschformate entwickelt werden. Besonders für statistische Datensätze (tabellarische Datensätze mit umfangreichen Metadaten) sind XML Schemata sinnvoll. Die Entwicklung, die dem am nächsten kommt ist das Triple-S Datenmodell, obwohl es immer noch nicht möglich ist, alle internen Metadaten und Variablenformat-Informationen eines typischen SPSS, SAS oder Stata Files abzuspeichern. Neueste Versionen von SAS, SPSS und Stata haben ihre eigenen XML Datenmodelle, die brauchbare Übergangsformate für die Konvertierung (mit XSLT) in einen gemeinsamen XML Standard sein können.
Empfohlene Datenformate
| Art der Daten |
Bevorzugte Formate zur Datensicherung |
Andere bevorzugte Formate zur Datensicherung |
Quantitative tabellarische Daten mit geringen Metadaten
Eine Datenmatrix mit/ ohne Spaltenüberschrift/ Variablennamen, aber ohne weitere Metadaten |
Kommabegrenzte Dateien (.csv)
Tabulatorbegrenzte Dateien (.tab)
Abgegrenzter Text mit bestimmtem Zeichensatz, mit SQL Datendefinitionen wenn geeignet |
Dateien mit anderen Trennzeichen
Weit verbreitete Formate wie bspw. MS Excel (.xls/.xlsx), MS Access (.mdb/.accdb), dBase (.dbf), Open Document (.ods) |
Quantitative tabellarische Daten mit umfangreichen Metadaten
Ein Datensatz mit Variablenlabels, Kodelabels und fehlenden Werten zusätzlich zu der Datenmatrix |
SPSS portable Format (.por)
Abgegrenzte Text- und Kommandofiles (SPSS, Stata, SAS, etc.) mit integrierten Metadateninformationen
Andere strukturierte Texte/ Markup-Files mit Metadaten Informationen, bspw. DDI XML Files |
Proprietäre Formate statistischer Software bspw. SPSS (.sav), Stata (.dta), MS Access (.mdb/.accdb) |
Raumbezogene Daten
Vektor- und Rasterdaten |
ESRI Shapefile (.shp, .shx, .dbf, optional: .prj, .sbx, .sbn)
Raumbezogenes TIFF (.tif, .tfw)
CAD Daten (.dwg)
tabellarische GIS Attributdaten |
ESRI Geodatabase Format (.mdb)
MapInfo Interchange Format (.mif) für Vektordaten
Keyhole Mark-up Language (KML) (.kml)
Adobe Illustrator (.ai), CAD Daten (.dxf, .svg)
Binäre Formate von GIS und CAD Software |
| Qualitatives (textbasiertes) Material |
Extensible Markup Language (XML) Text entsprechend einer geeigneten Dokumenttypdefinition (DTD)
Rich Text Format (.rtf)
Textdaten ASCII (.txt) |
Hypertext Mark-up Language (HTML) (.html)
Weit verbreitete Formate wie bspw. MS Word (.doc/.docx)
Proprietäre softwarespezifische Formate bspw. Atlas.ti, MAXQDA, NUD*IST, NVivo |
| Digitale Audiodaten |
Free Lossless Audio Codec (FLAC) (.flac)
Waveform Audio Format (WAV) (.wav) |
MPEG-1 Audio Layer 3 (.mp3)
Audio Interchange File Format (AIFF) (.aif) |
Digitale Bilddaten
|
Verlustfreie TIFF (Version 6) Komprimierung (.tif) |
JPEG (.jpeg, .jpg)
TIFF (andere Versionen) (.tif, .tiff)
Adobe Portable Document Format (PDF/A, PDF) (.pdf)
RAW Bild Format (.raw)
softwarespezifische Formate bspw. Photoshop Dateien (.psd) |
| Digitale Videodaten |
MPEG-4 (.mp4)
JPEG 2000 (.mj2) |
|
| Dokumentation |
Rich Text Format (.rtf)
PDF/A or PDF (.pdf)
HTML (.htm)
OpenDocument Text (.odt) |
Textdaten (.txt)
Weit verbreitete Formate wie bspw. MS Word (.doc/.docx), MS Excel (.xls/.xlsx)
XML marked-up Text entsprechend einem geeigneten DTD oder Schema, bspw. XHTML 1.0 |
(Quelle: Managing and Data Sharing Guide)
Weiter zu Phase 7: Archivarische Aktivitäten