Sven Gedicke erklärt das Data Quality Tool
In Task Area 3 (TA3) “Standardization, Interoperability and Quality“ geht es in erster Linie darum, die Wiederverwendung, Qualitätsprüfung und Kommentierung von Forschungsdaten zu erleichtern. Die wesentlichen Voraussetzungen dafür sind umsetzbare Richtlinien, Qualitäts- sowie rechtliche Metadatenstandards.
Einer der sechs Aufgabenbereiche von TA3 ist “Data Quality Annotation, Curation and Feedback/Review” – innerhalb dessen Sven Gedicke von der Uni Bonn und seine Kolleg*innen das Thema “Light-weight algorithms for in-field data quality assessment in agricultural science” entwickeln.

Um was es dabei geht und welche Vorteile das mit sich bringt, erklärt Sven Gedicke (SG):
Ihr entwickelt eine Schnittstelle für die Bewertung der Qualität von Daten “vor Ort”, also im Feld. Wie muss ich mir das konkret vorstellen?
SG: Schon heute nutzen Agrarwissenschaftler*innen bei der Datenerhebung im Feld häufig mobile Geräte wie Smartphones oder Tablets. Oft kommen dabei einfache Apps zum Einsatz, die das analoge Feldbuch ersetzen und die Dokumentation der Datenaufnahme erleichtern. Daran knüpfen wir an und erweitern diese etablierte Arbeitsweise um eine direkte Analyse der Qualität der gerade aufgenommenen Daten. Unsere Toolbox wird daher browserbasiert entwickelt, um flexibel auf allen Geräten und Betriebssystemen einsetzbar zu sein. Forschende sollen die Anwendung auf ihren gewohnten Endgeräten öffnen und sich verschiedene Qualitätsmetriken der gerade aufgenommenen Daten anzeigen lassen können, zum Beispiel zu Plausibilität oder Auffälligkeiten in den Daten.
Welche Vorteile hat diese Entwicklung für den / die Forschenden?
SG: Unsere Toolbox ermöglicht es Forschenden, bereits während der Datenerhebung im Feld auf mögliche Qualitätsprobleme aufmerksam gemacht zu werden. So lassen sich Unstimmigkeiten oder fehlende Werte direkt erkennen und beheben, zum Beispiel durch die erneute Erfassung eines auffälligen Datenpunkts. Das verhindert, dass Probleme erst später im Büro auffallen, wenn Korrekturen deutlich aufwändiger wären oder im schlimmsten Fall eine erneute Feldbegehung nötig wäre. Durch die frühzeitige Rückmeldung spart unsere Lösung Zeit, Ressourcen und erhöht die Gesamtdatenqualität.
Stichwort Metadaten und Wiederverwendbarkeit von Daten – bringt diese Entwicklung an der Stelle ebenfalls Vorteile?
SG: Absolut! Unsere Toolbox verfolgt neben der Unterstützung bei der Datenerhebung auch das Ziel, die Verfügbarkeit qualitätsbezogener Metadaten für veröffentlichte Datensätze zu verbessern. Das zusätzliche Berechnen und Dokumentieren von Qualitätsmetriken stellt für Datenbereitsteller*innen einen erheblichen Mehraufwand dar, weshalb solche Informationen bei veröffentlichten Datensätzen bislang häufig fehlen. Durch die Verwendung unserer Toolbox können diese Qualitätsinformationen bereits automatisch im Rahmen der Datenerhebung erzeugt und gespeichert werden. So stehen sie auch für die Nachnutzung direkt als Metadaten zur Datenqualität zur Verfügung. Das erhöht die Transparenz und Wiederverwendbarkeit der Daten erheblich und trägt gezielt zur Umsetzung der FAIR-Prinzipien bei.
Habt Ihr Lösungen gefunden für die Herausforderung, dass man im Feld mit mobilen Geräten häufig keine Verbindung zu einem Server hat und mobile Geräte nur begrenzten Speicherplatz aufweisen?
SG: Da eine stabile Internetverbindung im Feld nicht immer gewährleistet ist, verzichten wir bewusst auf serverseitige Berechnungen und setzen stattdessen auf lokale Algorithmen, die direkt auf dem Mobilgerät ausgeführt werden können. Dabei legen wir besonderen Wert darauf, dass die Verfahren speichereffizient sind und trotz der begrenzten Ressourcen mobiler Endgeräte Ergebnisse in Echtzeit liefern. Dieser Ansatz verbessert nicht nur die Zugänglichkeit und Zuverlässigkeit der Anwendung im Feld, sondern bringt auch Vorteile im Datenschutz: Alle Berechnungen erfolgen lokal, sodass die Daten das Gerät nicht verlassen.
Nun existieren ja bereits institutionalisierte Abläufe zur Datenerfassung. Kann Eure Entwicklung dort ergänzend integriert werden oder handelt es sich um einen komplett neuen Workflow?
SG: Aktuell entwickeln wir unsere Toolbox als eigenständiges Interface, das flexibel auf jedem Endgerät mit Browserzugang genutzt werden kann. Langfristig verfolgen wir jedoch das Ziel, die Qualitätsanalyse auch direkt in bestehende Anwendungen zur Datenerfassung zu integrieren, etwa als Plugin oder optionales Modul. Dafür müssten unsere Algorithmen als modulare Bibliothek verfügbar gemacht werden, die sich nahtlos in bestehende Architekturen einbetten lässt.
Du stellst in dem Video das Produkt in einem relativ frühen Entwicklungsstadium vor. Wie ist denn der Zeithorizont bis zur “Marktreife”?
SG: Da die Heterogenität der erhobenen Daten in der Agrarwissenschaft enorm ist (von einfachen In-situ-Messungen bis hin zu komplexen Punktwolken) haben wir uns bewusst für eine Bottom-up-Strategie entschieden. Wir starten mit einfacheren, weit verbreiteten Datentypen und entwickeln darauf aufbauend schrittweise zusätzliche Funktionalitäten, die sich an den konkreten Bedarfen der Fachcommunity orientieren. Aktuell liegt eine prototypische Implementierung vor, in der Analysefunktionen für Zeitreihendaten umgesetzt sind. Unser Ziel ist es, bis Ende 2026 eine stabile und voll funktionsfähige Version bereitzustellen, die sowohl im Feld als auch bei der Nachnutzung veröffentlichter Daten sinnvoll eingesetzt werden kann. Begleitend sollen Dokumentationen und Video-Tutorials entstehen, um den Einstieg zu erleichtern.
Sven Gedicke – Light-Weight Algorithms for In-Field Data Quality Assessment in Agricultural Science International Conference on Digital Technologies for Sustainable Crop Production (DIGICROP 2025) • July 8-9, 2025

