|
Während der Analyse
Während dieser entscheidenden Phase im Forschungsprozess ist es besonders wichtig, den Datensatz gut organisiert und auf dem aktuellen Letztstand zu halten, denn Teammitglieder arbeiten mit den Daten, verändern den Datensatz, fügen Ergänzungen hinzu oder löschen Teile des Datensatzes. Es ist daher sinnvoll, einen Datensatz zu erstellen, bei dem nur eingeschränkte Änderungen erlaubt sind. Jede Änderung dieser Version sollte sorgfältig geprüft und kontrolliert, benannt und dokumentiert werden. Die letzte Version dieses Datensatzes ist die Basis der aus der Forschung resultierenden Publikation und ist jene, die an das Archiv abgegeben wird. Versionskontrollen, Archivierung, Dateistruktur, Back-ups, Sicherheit, Formatkonvertierungen und bevorzugte Formate sollten in die Überlegungen einbezogen werden.
Versionskontrolle
Es ist anzuraten, verschiedene Versionen des Datenfiles separat (mit individuellen Versionsnummern) zu speichern. Wichtig ist auch, dass sichergestellt wird, dass die einzelnen Kopien einer Datei, Materialien in verschiedenen Formaten und Querverweise zwischen verschiedenen Dateien Gegenstand einer Versionskontrolle werden. Derartige Überprüfungsverfahren sollen gewährleisten, dass die Informationen, die in einer Datei geändert werden, auch in den korrespondierenden Dateien korrigiert werden. Des Weiteren sollte beachtet werden:
- Eindeutige Identifizierung von Dateien, bevorzugter Weise mittels eindeutiger Ressourcennamen (Unique Ressource Name – URN)
- Aufzeichnungsversion und Status, bspw. Entwurf, Vorläufig, Endversion, für internen Gebrauch.
- Beibehaltung von Masterfiles in geeigneten Formaten, um etwaige Probleme im Zusammenhang mit parallel entstehenden unterschiedlichen Arbeitsversionen lösen zu können.
- Aufzeichnung von Beziehungen zwischen Elementen des Datensatzes: In vielen Fällen werden Informationen in einem Dokument durch Informationen in anderen Dokumenten ergänzt, bspw. zwischen Kodebuch und Datenfile oder zwischen Datenfile und der zugehörigen Dokumentation bzw. den Metadaten.
- Nachverfolgen der Standorte der gesamten Dateien, wenn diese an unterschiedlichen Orten gespeichert wurden.
Datenspeicherung
Das passende Abspeichern der Daten als Rohdatenfiles oder statistischen Systemfiles sollte geplant werden. Die Digital Preservation Coalition (DPC) stellt Informationen und Best-practice Beispiele zur Verfügung.
Dateistruktur
Entscheidungen über die Ordner- und Dateistruktur (flach oder hierarchisch) und dazugehörige Dokumentation.
Back-ups
Gute Sicherungsverfahren sollen vor Missgeschicken wie dem unbeabsichtigten Löschen oder Verändern von Daten, dem Verlust der Daten aufgrund von Medien- oder Softwarefehlern, Viren, Hackversuchen oder Unglücken wie Feuer- oder Wasserschäden schützen. Punkten, denen besondere Aufmerksamkeit zugedacht werden sollte sind:
- Häufigkeit von Back-ups: Back-ups in angemessenen Zeitintervallen
- Erstellen neuer Back-up Kopien: Alte Back-ups nicht einfach überschreiben
- Externe Back-up Kopien: Zumindest eine Back-up Kopie sollte außerhäuslich aufbewahrt werden
- Institutionelle Back-up Richtlinien: Entscheidende Daten separat abspeichern
- Validierung der Back-up Kopien durch Prüfsummenverfahren und Speicherung der Prüfsummenergebnisse
- Wahl passender, robuster und verlässlicher Back-up Medien; typischer Weise Band oder DVD, etc.
- Austausch von Back-up Medien: Regelmäßige Ersetzung alter Medien
- Lagerbedingungen für physikalische Medien: Befolgung der Herstelleranweisungen
Sicherheit
Da digitale Daten leicht kopiert, verändert oder gelöscht werden können, ist es wichtig die Authentizität der Daten nachzuweisen und unautorisierten Zugang zu Daten aus ethischen, rechtlichen und qualitätsbezogenen Gründen zu verhindern. Die Führung eines Masterfiles, eine formalisierte und geprüfte Version der Daten (und zugehöriger Informationen) hat höchste Relevanz. Außerdem können Kopien während verschiedener Phasen des Forschungsprozesses erstellt werden, die sich von vorübergehenden Arbeitsversionen der Daten unterscheiden.
- Zuweisung von Verantwortlichkeiten an einzelne Projekt- und Teammitglieder
- Beschränkung der Veränderungsrechte der Masterversionen auf bestimmte Projekt- und Teammitglieder
- Schaffung formaler Vorgaben für die Zerstörung des Masterfiles
- Dokumentation von Veränderungen des Masterfiles
- Aufbewahrung der alten Masterfiles (im Falle dass neuere Versionen Fehler enthalten)
Format Konvertierungen
Statistische, Tabellenkalkulations- und Datenbankprogramme weisen allesamt ein geringfügig verschiedenes Datenhandling und Beschränkungen auf, die sich wiederum von den Gegebenheiten von CAI Softwarelösungen wie Blaise unterscheiden können.
Eine Übersicht über die Beschränkungen der drei am meisten gebräuchlichen statistischen Softwarepakete (SPSS, Stata und SAS) kann auf der UCLA’s Stata Webpage gefunden werden. Diese verschiedenen Beschränkungen können einen unwiederbringlichen Verlust von Daten oder internen Metadaten (fehlende Wertedefinitionen, Variablelabels, etc.) während der Konvertierung bedeuten. Daten sollten von Datenverantwortlichen oder anderen kompetenten Teammitgliedern exportiert werden, welche vertraut mit den Daten sind und eine Überprüfung auf Fehler und ungewollte Veränderungen währen des Exportprozesses durchführen können. Kontaktieren Sie die einzelnen CESSDA Datenarchive mit Fragen zu Formatkonvertierungen.
Welche Methode der Konversion auch gewählt wird, ganz gleich ob eine Exportfunktion oder eine eigenständige Lösung zur Konvertierung eines Softwareherstellers wie StatTransfer, die Ergebnisse sollten ausgiebig getestet werden und die überprüfte Methode sollte während des kompletten Konvertierungsprozesses verwendet werden, da neue bzw. andere Methoden möglicherweise Fehler erzeugen können. Back ups von Masterfiles sollten in Formaten erstellt werden die für eine langfristige digitale Speicherung in einem Archiv geeignet und frei verfügbar sind und nicht in geschützten Dateiformaten. Von Archiven bevorzugt verwendete Datenformate für Datenmanagement, Weitergabe und Bewahrung der Daten sind in der untenstehenden Tabelle aufgelistet.
Text sollte als ASCII oder Unicode kodiert werden. Enthalten die Daten nicht ASCII kompatible Zeichen (in der Regel nicht in der Lateinschrift verwendete Zeichen) sollten sie als Unicode kodiert werden. Neuere Softwareversionen verwenden standardmäßig zumeist Unicode. Auch XML setzt die Verwendung von Unicode voraus. Alle empfohlenen Formate unterliegen im Verlauf der Zeit Veränderungen, da regelmäßig neue archivarische- und Austauschformate entwickelt werden. Besonders für statistische Datensätze (tabellarische Datensätze mit umfangreichen Metadaten) sind XML Schemata sinnvoll. Die Entwicklung, die dem am nächsten kommt ist das Triple-S Datenmodell, obwohl es immer noch nicht möglich ist alle internen Metadaten und Variablenformat-Informationen eines typischen SPSS, SAS oder Stata Files abzuspeichern. Neueste Versionen von SAS, SPSS und Stata haben ihre eigenen XML Datenmodelle, die brauchbare Übergangsformate für die Konvertierung (mit XSLT) in einen gemeinsamen XML Standard sein können.
Bevorzugte Datenformate
| Art der Daten |
Bevorzugtes Format für Datenabgabe |
Zulässige Formate für Datenabgabe |
Tabellarische Daten mit geringen Metadaten
Bspw. eine Datenmatrix mit/ ohne Spaltenüberschrift/ Variablennamen, aber ohne weitere Metadaten |
Abgegrenzter Text mit bestimmtem Zeichensatz, mit SQL Datendefinitionen wenn geeignet |
Abgegrenzter Text mit bestimmtem Zeichensatz, mit SQL Datendefinitionen wenn geeignet
Trennzeichen (Delimiter) wie Kommas oder Tabulatoren sind die meist gebräuchlichen und werden zumeist von Import „Wizards“ erkannt
Nur Zeichen welche nicht in den Daten vorkommen sollten als Trennzeichen verwendet werden oder, falls unvermeidlich, sollten Daten von Anführungszeichen umgeben sein, um von Trennzeichen und anderen Zeichen unterscheidbar zu sein
Weitverbreitete geschützte Formate wie bspw. Excel, Access, dBase sind zulässig, bieten aber wenig längerfristige Sicherheiten |
Tabellarische Daten mit umfangreichen Metadaten
Bspw. ein Survey Datensatz mit Variablenlabels, Kodelabels und fehlenden Werten zusätzlich zu der Datenmatrix |
Abgegrenzte Text- und Kommandofiles – SPSS, Stata, SAS, etc.
Andere strukturierte Texte/ Markup-Files mit Metadaten Informationen, bspw. DDI XML Files |
SPSS portable (.por) oder abgegrenzte Text- und Kommandofiles (SPSS, Stata, SAS, etc.) mit Metadaten Information
Binäre Formate statistischer Programme (SPSS, Stata, SAS, etc.) sind zulässig, bieten aber wenig längerfristige Sicherheiten
Es kann sein, dass Formate aus sehr alten Softwareversionen nicht mehr angenommen werden |
GIS und CAD Daten
Bspw. Vektor und Raster |
Arcinfo Exportformat (.e00) für Vekrordaten
Mapinfo Interchange Format (MIF) für Vektordaten
TIFF (Version 6) für Rasterdaten
DXF oder SVG für CAD Daten
GIS Attributdaten als tabellarische Daten mit minimalen Metadaten |
Arcinfo Exportformat (.e00) für Vekrordaten
Mapinfo Interchange Format (MIF) für Vektordaten
TIFF für Rasterdaten
Adobe Illustrator, DXF oder SVG für CAD Daten
GIS Attributdaten als tabellarische Daten mit minimalen Metadaten
Binäre Formate von GIS und CAD Software können zulässig sein |
| Qualitatives (textbasiertes) Material |
XML marked-up Text entsprechend einem geeigneten DTD oder Schema
RTF |
Klartext
RTF oder HTML
Softwarespezifische Formate wie NUD*IST, NVivo und Atlas.ti sind zulässig, bieten aber wenig längerfristige Sicherheiten |
| Digitale Audiodaten |
MS Waveform
Audio Interchange File Format (.aiff) |
Microsoft Waveform
MPEG-1 Audio Layer 3 (MP3) |
| Digitale Videodaten |
MPEG-2
JPEG 2000 |
MPEG-2
JPEG 2000 |
| Digitale Bilddaten |
TIFF (Version 6) |
TIFF (die meisten Formate, obwohl CCITT Group 4 meist als das unkomplizierteste angesehen wird)
PDF oder PDF/A |
| Dokumentation |
Klartext
PDF, RTF, HTML
XML marked-up Text entsprechend einem geeigneten DTD oder Schema, bspw. XHTML 1.0 |
PDF, RTF, HTML |
(Source: the ESDS Data Formats and Software web page.)
|
|