PhotoMIX-Company / Pixabay / Pixabay-Lizenz

Bearbeiten und Analysieren großer Daten

Große Datensätze stellen auch jenseits der Speicherung besondere Herausforderungen. In der Regel sind sie zu groß, als dass Bearbeitung, Qualitätskontrolle und Analyse manuell erfolgen könnten. Dazu werden u. a. folgende gute Praktiken empfohlen:

  • Daten visualisieren, um mögliche Fehler bei der Erzeugung der Daten leichter zu identifizieren
  • Den gesamten Workflow der Datenanalyse bis hin zur Qualitätskontrolle und dem benutzten Code dokumentieren, um den Weg zu den publizierten Ergebnissen transparent zu machen und Reproduzierbarkeit zu gewährleisten. Mit Werkzeugen wie Docker oder Binder können ganze Rechnerumgebungen dokumentiert und geteilt werden.
  • So viele Schritte wie möglich automatisieren, um sicherzustellen, dass Daten Standards genügen und Fehler manueller Arbeit verhindert werden.
  • Versionskontrolle nutzen und Rohdaten in schreibgeschützter Rohversion aufbewahren.
  • Daten mit Metadaten beschreiben – das hilft bei der eigenen späterem Weiterverwendung, bei der Kompilation von Datensätzen und bei Metaanalysen, und ist ein entscheidender Schritt, die Daten gemäß den FAIR-Kriterien aufzubereiten.

Rechenoperationen mit großen Datensätzen brauchen spezielle Technik – etwa große Mengen von Rechenprozessoren oder besondere Job-Management-Systeme, welche die Rechenaufträge auf die Prozessoren verteilen. Die Infrastruktur für Hochleistungsrechnen wird oft zentral an Universitäten vorgehalten, aber auch darüber hinaus auf der Ebene von (Bundes-)Ländern, auf nationaler oder sogar internationaler Ebene. Voraussetzung für die Nutzung sind oftmals institutionelle Zugehörigkeit und/oder vorgängige HPC-Projektanträge.

Quelle: