SciWIn – was ist das eigentlich?

Besser, leichter, schöner arbeiten … welche/r gestresste Forscher*in möchte das nicht?

In Task Area 4 von FAIRagro werden die zentralen Infrastruktur-Services für das Konsortium entwickelt und bereitgestellt. Einer der vier Aufgabenbereiche von TA 4 ist Measure 4.4: Scientific Workflow Infrastructure (SciWIn). Ein wesentlicher Teil dieses Arbeitspakets ist die Konzeption und Entwicklung des SciWIn-Client. Um was es sich dabei handelt, erläutern Harald von Waldow und Jens Krumsieck (beide vom Thünen-Institut).
 

SciWIn steht für Scientific Workflow Infrastructure – was genau ist eigentlich ein “Workflow” in diesem Zusammenhang?

Wir beziehen uns auf Computer-Workflows in einem eher lockeren Sinne: Wissenschaftler*innen arbeiten sehr häufig an hochgradig interaktiven Prozessen wie Datenextraktion, -exploration -bereinigung, –transformation, -visualisierung und  -analyse. Alles digital, alles unter Verwendung von Skripten und allerhand digitaler Tools. Das Ganze mündet schliesslich in eine oder mehrere Abfolgen von Rechenschritten, wobei ein Schritt aus der Verbindung von Input mit Output durch eine Rechenoperation besteht. Erfolgreiche Abfolgen dieser Art, d.h. solche, die die Forscherin wiederverwerten möchte, sind „Workflows“ in diesem Sinne.

Was ist dabei die Herausforderung?

Es gibt momentan keine etablierte Praxis, solche Workflows zu speichern, zu reproduzieren, zu organisieren und sie geordnet zu kommunizieren, beispielsweise an Kolleginnen oder Kooperationspartner. Es gibt jedoch formalisierte Workflow-Beschreibungssprachen, wie etwa SnakeMake, Nextflow oder CWL. Diese Sprachen sind jedoch recht komplex und müssen zunächst erlernt werden, bevor rechengestützte Workflows auf diese Art beschrieben werden können. Das ist der Grund, warum nur wenige Wissenschaftsdomänen, die über die entsprechende Kompetenzen verfügen, wie etwa die Bioinformatik, solche Werkzeuge eingeführt haben. Quantitative Wissenschaftler in vielen anderen Bereichen jedoch habe keine Mittel zur systematischen Verwaltung solcher Workflows zur Verfügung, arbeiten mit ad-hoc Techniken des Datenmanagements und laufen Gefahr, den Überblick zu verlieren und weniger effizient zu sein.

SciWIn als Lösung!

Um diesen Herausforderungen zu begegnen, entwickeln wir in FAiRagro den SciWIn-Client: Wir holen Wissenschaftler*innen direkt im Computerterminal ab, wo sie iterative und hoch interaktive Prozesse wie Datenextraktion, -bereinigung, – visualisierung, -exploration, -analyse und -transformation durchführen.

Beim SciWIn-Client handelt es sich um ein Befehlszeilen-Tool (s4n), das für die einfache Erstellung, Aufzeichnung, Kommentierung und Ausführung von rechengestützten Workflows konzipiert ist.

Was Git für die Versionierung ist, ist s4n für das Provenienz-Management: Von einfachen Ein-Schritt-Berechnungen bis hin zu komplexen Pipelines mit mehreren Zweigen zeichnet s4n die gegenseitigen Abhänigkeiten von Daten- und Code-Artefakten auf. Diese Aufzeichnungen können nachvollzogen und erneut ausgeführt werden, auch auf anderen Rechnern. Die einzelnen Artefakte und Berechnungsschritte bilden einen gerichteten Graphen, der mit Metadaten annotiert werden kann. s4n wird auch diese Annotation unterstützen. Schliesslich zielt s4n darauf ab, den resultierenden Workflow in dem sich als aktueller Standard herausbildenden Format Workflow Run RO-Crate zu verpacken. Auf diese Weise wird der SciWIn-Client Teil eines innovativen Ökosystem für den FAIRen Umgang mit Forschungsdaten und -Software und wird z.B. die Veröffentlichung der Workflows über workflowhub.eu ermöglichen.

Beteiligen Sie sich gerne: Lassen Sie uns wissen, ob Sie SciWIn als FAIRagro-Service bereits ausprobiert haben (Download von GitHub) oder teilen Sie uns Ihre Ideen und Ihr Feedback in Form eines GitHub-Issues mit.

Wenn Sie mehr wissen möchten, wenden Sie sich gerne an Harald von Waldow


 


Beitrag veröffentlicht

in

,