Datenqualität?! – Keine Zeit, keine Ahnung, keine Lust…

Ergebnisse der FAIRagro-Umfrage zum Thema Datenqualität

Warum Datenqualität?

Im Zeitalter der modernen Landwirtschaft nimmt die Anzahl digitaler Daten täglich zu. Dadurch spielen präzise und verlässliche Daten eine immer bedeutendere Rolle und das Thema Datenqualität rückt weiter in den Fokus. Doch was genau macht Datenqualität in den Agrarwissenschaften aus? Welche Herausforderungen entstehen dabei? Und was wird bereits umgesetzt? Die Ergebnisse der FAIRagro-Umfrage „Datenqualität in der Anwendung von Agrosystemdaten“ geben Aufschluss darüber.

Die Teilnehmenden

An der Umfrage, die vom 14.11.2023 bis 21.01.2024 online verfügbar war, nahmen insgesamt 321 Personen teil. Von diesen konnten 211 in der Auswertung berücksichtigt werden. Die Mehrheit der Teilnehmenden stammt aus der Forschung und erhebt überwiegend Daten im Pflanzen- und Bodenbereich. Über alle Disziplinen der Agrarwissenschaften hinweg werden am häufigsten Schlag-, Wetter und Omicsdaten („Omics“ als Oberbegriff für molekularbiologische Methoden) genutzt.

Die aktuellen Herausforderungen

Die Umfrage ist in die beiden großen Bereiche Datenerhebung und Datennachnutzung gegliedert. Als die größte Herausforderung für Datenqualität im Bereich der Datenerhebung gilt mit Abstand der Zeitmangel. Hinzu kommen fehlende Standards in der Datenerhebung, der Datenqualität und den Metadaten. Ergänzend werden auch fehlendes Wissen über Datenqualität selbst und der Einfluss von Umweltbedingungen genannt. Während wir in FAIRagro leider das Wetter nicht beeinflussen können, können wir jedoch Infomaterialien über Datenqualität und Metadaten bereitstellen.

Abbildung 1: Antworten auf die Multiple-Choice-Frage zu aktuellen Herausforderungen in der Datenerhebung bezüglich der Datenqualität

Als Herausforderungen in der Datennachnutzung wiederholt sich die Kritik an fehlenden Metadaten, an fehlenden Standards und an der mangelnden digitalen Infrastruktur. Stattdessen sind Wünsche der Teilnehmenden eine gute Dokumentation mit konsistenter Nomenklatur und Informationen zur Methodik und Reproduzierbarkeit sowie Statistiken und Beschreibungen der Werte und Einheiten. Die Daten an sich sollen mit den eigenen Daten vergleichbar sein, als verlässliche Datenquelle dienen sowie authentisch, interoperabel und standardisiert sein.

Der aktuelle Stand

Obwohl für die Datenerhebung und für die Datennachnutzung die fehlenden Informationen zur Datenqualität bemängelt wurden, gab die Mehrheit der Teilnehmenden an, aktuell Methoden zur Sicherstellung der Datenqualität zu nutzen. Die Qualität wird vor allem durch statistische Analysen, standardisierte Methoden und Protokollen sowie Mehrfachmessungen sichergestellt. Zusätzlich kommen regelmäßig diverse weitere Methoden wie Diskussionen mit Kolleg*innen, manuelle Kontrollen und die Kalibrierung von Instrumenten zum Einsatz. Insgesamt nutzt jede Person im Durchschnitt mehr als vier verschiedene Methoden, um die Datenqualität sicherzustellen.

Dies zeigt, dass obwohl die Informationsdichte zur Datenqualität gering sein soll und die fehlende Zeit als größte Herausforderung gilt, trotzdem bereits Datenqualitätsanalysen durchgeführt werden und dabei sogar mehrere Methoden gleichzeitig zur Anwendung kommen. Von wegen: Keine Zeit, keine Ahnung und keine Lust auf Datenqualität.

Die Datenqualitätskriterien

Sowohl in der Datenerhebung als auch in der Datennutzung sind die Vollständigkeit, eine detaillierte Beschreibung der Daten und die Auflösung (räumlich, inhaltlich oder zeitlich) die wichtigsten Kriterien für die Datenqualität. In der Kombination der verschiedenen Antworten ist zudem deutlich geworden, dass die verschiedenen Qualitätskriterien maßgeblich vom Datentyp, der Datenkategorie und auch dem Anwendungsbereich abhängen.

Abbildung 2: Antworten der Teilnehmenden auf die Rangfolgenfrage für drei von zwölf Antworten zu den wichtigsten Datenqualitätskriterien für die Datennachnutzung

Die Zeit

Ein Großteil der Teilnehmenden hält Informationen über die Datensatzperformanz für hilfreich und die Mehrheit dieser ist wiederum bereit selbst bis zu 2 Stunden pro Datensatz in dessen Dokumentation zu investieren. Diese wertvolle Einschätzung der zeitlichen Ressourcen ermöglicht es uns, in Zukunft gezielter auf die Wünsche und Bedürfnisse der Informationsbereitstellenden einzugehen.

Das Fazit

Die Umfrage hat erstmals die Bedürfnisse der Datenproduzierenden und -nutzenden erfasst und dabei die wichtigsten Datenqualitätskriterien definiert, die allerdings stark vom Datentyp, der Kategorie und dem Anwendungsbereich abhängen. Die Ergebnisse verdeutlichen zudem den Wunsch der Community nach mehr Standards und Informationen zu Datenqualität. Trotz der zahlreichen Herausforderungen und des Zeitmangels werden allerdings bereits diverse Methoden zur Sicherung der Datenqualität angewendet.

Trotz der anfänglichen Annahmen zeigen die Ergebnisse, dass Zeit und Wissen über Datenqualität vorhanden sind und Interesse am Thema besteht. Die Formulierung des Titels spiegelt also bei deutlicher Betrachtung der Ergebnisse (glücklicherweise) nicht die Realität wider. Stattdessen liefern die Umfrageergebnisse wertvolle Einblicke in die Bedürfnisse der Community und ermöglichen uns, diese in zukünftigen Materialien, Tools und Workshops zu berücksichtigen.

Wir danken nochmals allen, die an der Umfrage teilgenommen haben!

Eine umfassende Übersicht der Ergebnisse ist hier zu finden: https://doi.org/10.5281/zenodo.11612449

Autor: Jannes Uhlott (jannes.uhlott@julius-kuehn.de)


Beitrag veröffentlicht

in

,