Fünftes Deep-Rain Projekttreffen

In diesem Projekttreffen, das wieder virtuell stattfand, wurden die Projektfortschritte der vergangenen Monate diskutiert. Hierbei gab es einige erfreuliche Fortschritte zu verzeichnen, obwohl sich die interdisziplinäre Zusammenarbeit aufgrund der Pandemie-Situation teilweise schwieriger gestaltete als erhofft.

Die Universität Bonn hat eine Analyse durchgeführt, wie sich die großräumigen Wetterdaten auf das Auftreten von Niederschläge an den Messstationen Münster und Osnabrück auswirken. Dazu wurde eine sogenannte logistische Regression benutzt. Je nach Jahreszeit ergibt sich aus diesem Ansatz eine deutliche Verbesserung gegenüber einer rein lokalen Vorhersage.
Der DWD hat unterschiedliche Ansätze für eine Regression mit einem generalisierten linearen Modell getestet und dabei vor allem untersucht, inwieweit es einen Unterschied macht, ob die Auswahl der Input-Variablen für jede Messstation getrennt oder für alle gemeinsam vorgenommen wird. Tatsächlich können auch mit einem generalisierten Ansatz ähnlich gute Ergebnisse für die Schätzung der Niederschlagsmenge erzielt werden wie bei dem getrennten Verfahren. Allerdings wird die ja-nein Entscheidung, ob es regnen wird oder nicht, an manchen Stationen weniger genau.
Die Jacobs University hat anhand von Jupyter Notebooks demonstriert, wie Abfragen der Rasdaman-Datenbank in Datenanalyse und Machine Learning Workflows integriert werden können. Ferner wurde Jülich dabei unterstützt, der Datenförderation im Earth Server Datenwürfel beizutreten.
Das Forschungszentrum Jülich berichtete über Fortschritte bei der Entwicklung von machine learning workflows, die inzwischen zu einem großen Teil parallelisiert worden sind, was den Durchsatz von Daten und Rechnungen erheblich steigert. Das Datenmanagement für die riesige Menge an Wetterdaten ist nun weitgehend konsolidiert; in der Hauptsache müssen noch Radardaten fertig prozessiert werden.
Die Universität Osnabrück setzte erfolgreich neuronale Netze ein, um an einem kleinen Satz von Messstationen den Zusammenhang zwischen den Niederschlagsmengen des nächsten Tages und den aktuellen Wetterdaten zu lernen. Die neuronalen Netze übertrafen die klassische Regression. Die Implementierung des maschinellen Lernprozesses auf dem Jülicher Supercomputer stellte einige Herausforderungen dar, da ein effizientes und flexibles Datenverarbeitungswerkzeug benötigt wurde, das mit der riesigen Menge an Rohdaten, die im Projekt zur Verfügung stehen, arbeiten kann.