News – DeepRain

Abschlußbericht des DeepRain Projektes

15. Dezember 202213. April 2023

Das DeepRain-Projekt zielte auf die Entwicklung neuer Ansätze für die Kombination aus modernen Methoden des maschinellen Lernens mit leistungsstarken IT-Systemen für die Datenverarbeitung und -verbreitung kombinieren, um verbesserte hochauflösende räumliche Karten des Niederschlags über Deutschland zu erstellen. Grundlage für dieses Projekt war das mehrjährige Archiv von Ensemble-Modellvorhersagen des numerischen Wettermodells COSMO des Deutschen Wetterdienstes (DWD).

Sechs transdisziplinäre Forschungseinrichtungen arbeiteten in DeepRain zusammen, um eine durchgängige Verarbeitungskette zu entwickeln, die potenziell in der zukünftigen operationellen Wettervorhersage eingesetzt werden kann. Der Projektantrag hatte mehrere Herausforderungen identifiziert, die es in diesem Zusammenhang zu bewältigen galt. Neben den technischen Herausforderungen bei der Schaffung einer neuartigen Datenfusion von recht unterschiedlichen Datensätzen (numerische Modelldaten, Radardaten, Beobachtungen von Bodenstationen), dem Aufbau skalierbarer maschineller Lernlösungen und der Optimierung der Leistung der Datenverarbeitung und des maschinellen Lernens gab es verschiedene wissenschaftliche Herausforderungen im Zusammenhang 1. mit den kleinräumigen Strukturen von Niederschlagsereignissen, 2. Schwierigkeiten bei der Suche nach robusten Bewertungsmethoden für Niederschlagsvorhersagen und 3. den nichtnormalverteilten Niederschlagsstatistiken in Verbindung mit stark unausgewogenen Datensätzen.

Zum Projektstart von DeepRain war die Anwendung von maschinellem Lernen auf Wetter und Klimadaten noch sehr neu und es gab kaum Veröffentlichungen oder Softwarecodes, auf denen man aufbauen konnte. DeepRain leistete somit Pionierarbeit bei der Anwendung moderner Deep-Learning-Modelle im Bereich der Wettervorhersage. Gleichzeitig konnte man in den letzten drei Jahren einen exponentiellen Anstieg der Zahl der Veröffentlichungen in diesem neuen Bereich beobachten. Sehr oft handelte es sich dabei um Studien, die in Nordamerika oder China durchgeführt wurden. Globale Unternehmen wie Google, Amazon, NVidia oder Microsoft haben inzwischen Gruppen von Wissenschaftlern und Ingenieuren gegründet, um die Forschung zu “Wetter-KI” voranzutreiben und marktfähige Wetter- und
Klimaanwendungen mit Deep Learning zu entwickeln. Daher kam das DeepRain-Projekt zur rechten Zeit, da es eine Basis für maschinelles Lernen im Bereich Wetter und Klima in Deutschland geschaffen hat. DeepRain ermöglichte es dem Konsortium, das Potenzial von Deep Learning im Zusammenhang mit der erforderlichen gigantischen Datenverarbeitung zu erforschen und mit den internationalen Entwicklungen in diesem schnell wachsenden Forschungsbereich Schritt zu halten.
DeepRain konnte das geplante Ergebnis, d. h. den Bau eines Prototyps für einen durchgängigen Arbeitsablauf für hochauflösende Niederschlagsvorhersagen auf der Grundlage von Deep Learning, zwar nicht vollständig erzielen, aber es wurden alle damit verbundenen Forschungsfragen beantwortet und alle erforderlichen Bausteine für einen solchen Arbeitsablauf wurden entwickelt. Beispielsweise wurde die moderne Datenwürfel-Technologie erfolgreich eingesetzt, um vier- bis sechsdimensionale atmosphärische
Simulationsdatenwürfel auf der Basis von DWD-Daten für die Extraktion und Analyse bereitzustellen.

Zusätzlich zu den oben beschriebenen erwarteten Herausforderungen traten während des Projekts die folgenden schwerwiegenden Probleme auf: 1. ein weitreichender Datenverlust aufgrund von Hardwareausfällen im Frühjahr 2021, 2. die Covid-19-Pandemie von März 2020 bis heute und 3. Schwierigkeiten, hochqualifiziertes Personal zu finden – insbesondere in Zeiten, in denen die meiste Arbeit im Home-Office erledigt werden musste.

Die wichtigsten Ergebnisse von DeepRain sind:

Datentransfer im Petabyte-Bereich von archivierten COSMO-DE-EPS-Vorhersagen von Bandlaufwerken des DWD und des RADKLIM-Datensatzes vom OpenData-Server zum Dateisystem JUST am JSC/FZ Jülich, Organisation und Bereinigung dieser Daten und Gewährleistung des Datenzugangs für alle Projektpartner,
Parallelisierte Verarbeitung von COSMO-EPS- und RADKLIM-Daten (Ensemblestatistik, Remapping für Datenfusion und für das Einfügen in Rasdaman),
Implementierung von Rasdaman Datenwürfel Array Datenbankservern am FZ Jülich und Ingestion von mehreren TBytes an Wetterdaten,
Aufnahme des Jülicher Rasdaman-Servers in den EarthServer-Datenwürfel-Verbund,
Weiterentwicklung von Rasdaman zur Beschleunigung des Dateneinfügens und -abrufs, Definition neuer benutzerdefinierter Funktionen für die Analyse topographischer Daten, Definition eines neuen Koordinatenreferenzsystems für gedrehte Polkoordinaten und Vorbereitung der Anbindung von Prozessierungsketten für maschinelles Lernen,
Entwicklung von statistischen Downscaling-Techniken und maschinellen Lernmodellen, um:
- dichotomen und quantitativen Niederschlagsvorhersagen an Stationsstandorten zu generieren und
- Gebietsvorhersagen in der Auflösung der RADKLIM-Radardaten zu erzeugen,
Erforschung neuer Verifikationsstatistiken auf der Grundlage partieller Korrelationen und des Regression Boostings.

In diesem Bericht geben wir einen detaillierten Überblick über die Arbeit und das Erreichte im Rahmen des DeepRain-Projekts. Dieser Bericht ist in fünf Abschnitte gegliedert: In Abschnitt 1 stellen wir den Arbeitsplan aus dem Projektantrag vor und geben Informationen über den Stand der Erbringung jeder einzelnen Aufgabe, um einen kompakten Vergleich zwischen dem Projektplan und seinen Ergebnissen zu ermöglichen. In Abschnitt 2 werden dann die im Rahmen des Projekts durchgeführten Arbeiten für jedes einzelne Arbeitspaket detailliert beschrieben. In Abschnitt 3 werden die Projektergebnisse und deren mögliche künftige Nutzung erörtert. In Abschnitt 4 geben wir einen allgemeinen Überblick über die außerhalb des Projektes erfolgten Fortschritte in den Forschungsbereichen, die mit DeepRain in Verbindung stehen. Im Einzelnen sind dies: maschinelles Lernen für die Niederschlagsvorhersage, Methoden zur Bewertung von Niederschlagsvorhersagen, Umgang mit Big Data und FAIR-Datenpraktiken. Schließlich werden in Abschnitt 5 alle Zeitschriftenveröffentlichungen, Datensätze und Softwarepakete sowie geplante Einreichungen aufgeführt, die aus dem DeepRain-Projekt hervorgegangen sind.

Abschnitt 6 beinhaltet das Literaturverzeichnis.

Link zum vollständigen Abschlussbericht: https://hdl.handle.net/2128/33144

Fortschritte in der Machine Learning Sektion des Projekts!

4. Mai 202120. Juli 2021

Nach der Erstellung einer Ensemblestatistik über die numerische Wettervorhersage von COSMO-DE EPS, haben wir künstliche neuronale Netze und lineare Regression als Post-Processing-Modelle für den Niederschlag an mehreren Wetterstationen verglichen. Nach dem Testen zahlreicher verschiedener möglicher neuronaler Netzwerkarchitekturen hat sich gezeigt, dass diese die lineare Regression im Vergleich durchweg übertreffen und das Ergebnis der numerischen Wettervorhersage deutlich verbessern können. Die Ergebnisse werden gerade in einer Veroeffentlichung aufgearbeitet.

Artikel zu “Kann Deep Learning die numerische Wettervorhersage schlagen?” veröffentlicht

15. Februar 202115. Februar 2021

Der Open-Access-Artikel von Martin Schultz et.al. ist heute in den Philosophical Transactions of the Royal Societ A veröffentlicht worden. Das Paper diskutiert die Frage, ob es möglich ist, die aktuellen numerischen Wettermodelle und Datenassimilationssysteme vollständig durch Deep-Learning-Ansätze zu ersetzen. Es ist verfügbar unter https://royalsocietypublishing.org/doi/10.1098/rsta.2020.0097.

Fünftes Deep-Rain Projekttreffen

17. November 202016. Dezember 2020

In diesem Projekttreffen, das wieder virtuell stattfand, wurden die Projektfortschritte der vergangenen Monate diskutiert. Hierbei gab es einige erfreuliche Fortschritte zu verzeichnen, obwohl sich die interdisziplinäre Zusammenarbeit aufgrund der Pandemie-Situation teilweise schwieriger gestaltete als erhofft.

Die Universität Bonn hat eine Analyse durchgeführt, wie sich die großräumigen Wetterdaten auf das Auftreten von Niederschläge an den Messstationen Münster und Osnabrück auswirken. Dazu wurde eine sogenannte logistische Regression benutzt. Je nach Jahreszeit ergibt sich aus diesem Ansatz eine deutliche Verbesserung gegenüber einer rein lokalen Vorhersage.
Der DWD hat unterschiedliche Ansätze für eine Regression mit einem generalisierten linearen Modell getestet und dabei vor allem untersucht, inwieweit es einen Unterschied macht, ob die Auswahl der Input-Variablen für jede Messstation getrennt oder für alle gemeinsam vorgenommen wird. Tatsächlich können auch mit einem generalisierten Ansatz ähnlich gute Ergebnisse für die Schätzung der Niederschlagsmenge erzielt werden wie bei dem getrennten Verfahren. Allerdings wird die ja-nein Entscheidung, ob es regnen wird oder nicht, an manchen Stationen weniger genau.
Die Jacobs University hat anhand von Jupyter Notebooks demonstriert, wie Abfragen der Rasdaman-Datenbank in Datenanalyse und Machine Learning Workflows integriert werden können. Ferner wurde Jülich dabei unterstützt, der Datenförderation im Earth Server Datenwürfel beizutreten.
Das Forschungszentrum Jülich berichtete über Fortschritte bei der Entwicklung von machine learning workflows, die inzwischen zu einem großen Teil parallelisiert worden sind, was den Durchsatz von Daten und Rechnungen erheblich steigert. Das Datenmanagement für die riesige Menge an Wetterdaten ist nun weitgehend konsolidiert; in der Hauptsache müssen noch Radardaten fertig prozessiert werden.
Die Universität Osnabrück setzte erfolgreich neuronale Netze ein, um an einem kleinen Satz von Messstationen den Zusammenhang zwischen den Niederschlagsmengen des nächsten Tages und den aktuellen Wetterdaten zu lernen. Die neuronalen Netze übertrafen die klassische Regression. Die Implementierung des maschinellen Lernprozesses auf dem Jülicher Supercomputer stellte einige Herausforderungen dar, da ein effizientes und flexibles Datenverarbeitungswerkzeug benötigt wurde, das mit der riesigen Menge an Rohdaten, die im Projekt zur Verfügung stehen, arbeiten kann.

DeepRain Projekt Fortschritt

22. Juli 202029. Juli 2020

Aufgrund der anhaltenden Covid-19 Situation führt das DeepRain Team jetzt monatliche Online-Projekttreffen durch. Für spezielle wissenschaftliche und technische Fragen gibt es zudem kleinere Treffen, die wöchentlich abgehalten werden. Am JSC wurde im Lauf des letzten Monats der Datenimport der COSMO-Wettermodelldaten verbessert und die Benchmarking-Tests zur Dateneingabe und Datenextraktion wurden erfolgreich abgeschlossen. Neue Instanzen der Rasdaman Array-Datenbank (sogenannte „data cubes“) wurden auf JSC-Ressourcen installiert. Darunter auch eine Enterprise Instanz, die bald zu einem Knoten in einer internationalen Daten-Föderation werden soll. Das JSC Team unterstützte außerdem das Team der Universität Osnabrück bei der Implementierung ihrer Maschinenlernprogramme auf den Jülicher Superrechnern.

Regenvorhersage mit DeepLearning

22. Juli 202029. Juli 2020

Die Vorhersage von Niederschlag basiert auf einer Vielzahl von Faktoren die durch Wettermodelle produziert werden. Der Einfluss dieser Faktoren auf die Menge und die Wahrscheinlichkeit für Niederschlag ist komplex, nicht linear und im Detail oft unbekannt. Um die Güte der Vorhersage zu verbessern nutzt das DeepRain Projekt neuronale Netzwerke, die lernen, diese Faktoren der Wettermodelle durch nicht lineare Kombinationen über mehrere Lagen des Netzwerkes hinweg zu kombinieren. Als Ergebnis des Projektes DeepRain konnten wir nun zeigen, dass dieser deep learning Ansatz besser als klassische Methoden der linearen Kombination sein kann. Dazu nutzen und vergleichen wir neuronale Netze mit verschiedenen Tiefen (‚Anzahl und Lagen‘) und verschieden Komplexitäten in Bezug auf die Anzahl der Neuronen des neuronalen Netzes. Die beste Performance konnten wir mit einem Netzwerk, welches 3 Lagen nutzt, erreichen. Das Ergebnis zeigt, dass die nicht lineare Kombination von Faktoren von Wettermodellen eine bessere Vorhersage-Qualität für den Niederschlag ermöglicht.

Viertes DeepRain-Projekttreffen

11. März 202023. September 2020

Icons made by surang from www.flaticon.com

Aufgrund der Covid-19-Situation musste das 4. DeepRain-Projekttreffen, das vom 10. bis 12. März 2020 stattfinden sollte, in eine Reihe von Web-Meetings mit den Projektpartnern umgewandelt werden. Der Schwerpunkt des Treffens lag auf der Vorbereitung von Input für den kommenden Projektbericht im April und der Planung konkreter Aktionen für die nächsten 6 Monate. In den letzten Monaten wurden viele Fortschritte in Bezug auf die Datenaufbereitung und die Machine Learning Workflows erzielt, aber es bleiben noch einige Fragen hinsichtlich der Implementierung dieser Abläufe auf dem JSC-Supercomputersystem. Dies hat das Projekt bisher daran gehindert, durch Machine Learning aussagekräftige Niederschlagsvorhersagen zu erstellen. Alle Projektpartner arbeiten zusammen, um diese Arbeitsabläufe in Gang zu bringen, und wir sind optimistisch, dass es, sobald diese Probleme gelöst sind, relativ einfach sein wird, die Lösungen auf viel größere Datensätze zu skalieren. Im nächsten Monat wird der Schwerpunkt auf Leistungsverbesserungen beim Datenimport, auf der Anwendung des Machine Learning auf Stations-Zeitreihendaten und auf der Nutzung der Parallelisierung auf allen Ebenen liegen, um Arbeitsabläufe, Werkzeuge und Datenverarbeitung auf dem HPC-System zu optimieren.

Workshop “Machine Learning in weather and climate modelling” in Oxford

5. September 201911. Dezember 2019

Martin Schultz und Lukas Leufen besuchten einen Workshop zum Thema “Machine Learning in weather and climate modeling” am Corpus Christi College in Oxford. Dieser Workshop führte mehr als 100 hochkarätige Klimawissenschaftler und Experten für HPC-Computerwissenschaft und maschinelles Lernen zusammen, um die laufenden Arbeiten vorzustellen und das weitere Vorgehen zu diskutieren. Von Anfang an wurde deutlich, dass maschinelles Lernen in fast allen Phasen eines Wetter- und Klimamodellierungs-Workflows eine wichtige Rolle spielen kann. Viel diskutierte Themen waren die wahrgenommene Notwendigkeit, den Algorithmen des maschinellen Lernens physische Einschränkungen aufzuerlegen und Unsicherheiten zu quantifizieren. Martin Schultz’ Präsentation zu den Projekten IntelliAQ und DeepRain wurde gut angenommen und die positive Resonanz bestätigte die Forschungsstrategie dieser Projekte.

Masterarbeit “Deep Hyperresolution for Weather Forecasting”

16. August 201916. Dezember 2019

An der Universität Osnabrück schloss Jonas Rebstadt sein Studium mit einer Masterarbeit zum Thema “Deep Hyperresolution for Weather Forecasting” erfolgreich ab. Ziel ist es, ein System zu entwickeln, das in der Lage ist, die Genauigkeit der Regenvorhersage ohne exorbitanten höheren Rechenaufwand zu erhöhen. Der in dieser Arbeit vorgestellte Ansatz versucht, die räumliche Auflösung eines aktuell produktiv genutzten Prognosemodells des Deutschen Wetterdienstes (DWD) zu erhöhen, indem er ein neuronales Netzwerk trainiert, das auf höherauflösenden Radarbildern als Ziel basiert.

Meilenstein bei der Datenübertragung: 100. Terabyte

8. Juli 201928. Februar 2020

Fortschritte beim Datentransfer: Ein wesentlicher Aspekt des DeepRain-Projekts ist die große Datenmenge, die für die Schulung und Bewertung von Methoden des maschinellen Lernens verwendet wird. Insgesamt werden derzeit über 430 Terabyte Daten vom Deutschen Wetterdienst an das Forschungszentrum Jülich übertragen, um sie auf JSC-Supercomputern für Deep Learning zu nutzen. Heute wurde das 100. Terabyte erfolgreich übertragen und in die Speichersysteme der JSC integriert. Dies ist ein wichtiger Meilenstein, da nun genügend Daten zur Verfügung stehen, um die ersten sinnvollen tiefen Erkenntnisse und Analysen durchzuführen.

Datenspeicher beim JSC zugeteilt

22. Mai 201916. Dezember 2019

Das Jülicher Supercomputing Center (JSC) hat für das DeepRain-Projekt zwei große Datenprojekte mit einem Volumen von mehreren hundert Terabyte vergeben.

Die ersten 30 TByte meteorologischer Modelldaten wurden erfolgreich vom Deutschen Wetterdienst an die JSC übertragen und ein prototypischer Workflow zur Verarbeitung dieser Daten wurde etabliert.