Fortschritte in der Machine Learning Sektion des Projekts!

Nach der Erstellung einer Ensemblestatistik über die numerische Wettervorhersage von COSMO-DE EPS, haben wir künstliche neuronale Netze und lineare Regression als Post-Processing-Modelle für den Niederschlag an mehreren Wetterstationen verglichen. Nach dem Testen zahlreicher verschiedener möglicher neuronaler Netzwerkarchitekturen hat sich gezeigt, dass diese die lineare Regression im Vergleich durchweg übertreffen und das Ergebnis der numerischen Wettervorhersage deutlich verbessern können. Die Ergbenisse werden gerade in einer Veroeffentlich aufgearbeitet.

Artikel zu “Kann Deep Learning die numerische Wettervorhersage schlagen?” veröffentlicht

Der Open-Access-Artikel von Martin Schultz et.al. ist heute in den Philosophical Transactions of the Royal Societ A veröffentlicht worden. Das Paper diskutiert die Frage, ob es möglich ist, die aktuellen numerischen Wettermodelle und Datenassimilationssysteme vollständig durch Deep-Learning-Ansätze zu ersetzen. Es ist verfügbar unter https://royalsocietypublishing.org/doi/10.1098/rsta.2020.0097.

Fünftes Deep-Rain Projekttreffen

In diesem Projekttreffen, das wieder virtuell stattfand, wurden die Projektfortschritte der vergangenen Monate diskutiert. Hierbei gab es einige erfreuliche Fortschritte zu verzeichnen, obwohl sich die interdisziplinäre Zusammenarbeit aufgrund der Pandemie-Situation teilweise schwieriger gestaltete als erhofft.

  • Die Universität Bonn hat eine Analyse durchgeführt, wie sich die großräumigen Wetterdaten auf das Auftreten von Niederschläge an den Messstationen Münster und Osnabrück auswirken. Dazu wurde eine sogenannte logistische Regression benutzt. Je nach Jahreszeit ergibt sich aus diesem Ansatz eine deutliche Verbesserung gegenüber einer rein lokalen Vorhersage.
  • Der DWD hat unterschiedliche Ansätze für eine Regression mit einem generalisierten linearen Modell getestet und dabei vor allem untersucht, inwieweit es einen Unterschied macht, ob die Auswahl der Input-Variablen für jede Messstation getrennt oder für alle gemeinsam vorgenommen wird. Tatsächlich können auch mit einem generalisierten Ansatz ähnlich gute Ergebnisse für die Schätzung der Niederschlagsmenge erzielt werden wie bei dem getrennten Verfahren. Allerdings wird die ja-nein Entscheidung, ob es regnen wird oder nicht, an manchen Stationen weniger genau.
  • Die Jacobs University hat anhand von Jupyter Notebooks demonstriert, wie Abfragen der Rasdaman-Datenbank in Datenanalyse und Machine Learning Workflows integriert werden können. Ferner wurde Jülich dabei unterstützt, der Datenförderation im Earth Server Datenwürfel beizutreten.
  • Das Forschungszentrum Jülich berichtete über Fortschritte bei der Entwicklung von machine learning workflows, die inzwischen zu einem großen Teil parallelisiert worden sind, was den Durchsatz von Daten und Rechnungen erheblich steigert. Das Datenmanagement für die riesige Menge an Wetterdaten ist nun weitgehend konsolidiert; in der Hauptsache müssen noch Radardaten fertig prozessiert werden.
  • Die Universität Osnabrück setzte erfolgreich neuronale Netze ein, um an einem kleinen Satz von Messstationen den Zusammenhang zwischen den Niederschlagsmengen des nächsten Tages und den aktuellen Wetterdaten zu lernen. Die neuronalen Netze übertrafen die klassische Regression. Die Implementierung des maschinellen Lernprozesses auf dem Jülicher Supercomputer stellte einige Herausforderungen dar, da ein effizientes und flexibles Datenverarbeitungswerkzeug benötigt wurde, das mit der riesigen Menge an Rohdaten, die im Projekt zur Verfügung stehen, arbeiten kann.

DeepRain Projekt Fortschritt

Aufgrund der anhaltenden Covid-19 Situation führt das DeepRain Team jetzt monatliche Online-Projekttreffen durch. Für spezielle wissenschaftliche und technische Fragen gibt es zudem kleinere Treffen, die wöchentlich abgehalten werden. Am JSC wurde im Lauf des letzten Monats der Datenimport der COSMO-Wettermodelldaten verbessert und die Benchmarking-Tests zur Dateneingabe und Datenextraktion wurden erfolgreich abgeschlossen. Neue Instanzen der Rasdaman Array-Datenbank (sogenannte „data cubes“) wurden auf JSC-Ressourcen installiert. Darunter auch eine Enterprise Instanz, die bald zu einem Knoten in einer internationalen Daten-Föderation werden soll. Das JSC Team unterstützte außerdem das Team der Universität Osnabrück bei der Implementierung ihrer Maschinenlernprogramme auf den Jülicher Superrechnern.

Regenvorhersage mit DeepLearning

Die Vorhersage von Niederschlag basiert auf einer Vielzahl von Faktoren die durch Wettermodelle produziert werden. Der Einfluss dieser Faktoren auf die Menge und die Wahrscheinlichkeit für Niederschlag ist komplex, nicht linear und im Detail oft unbekannt. Um die Güte der Vorhersage zu verbessern nutzt das DeepRain Projekt neuronale Netzwerke, die lernen, diese Faktoren der Wettermodelle durch nicht lineare Kombinationen über mehrere Lagen des Netzwerkes hinweg zu kombinieren. Als Ergebnis des Projektes DeepRain konnten wir nun zeigen, dass dieser deep learning Ansatz besser als klassische Methoden der linearen Kombination sein kann. Dazu nutzen und vergleichen wir neuronale Netze mit verschiedenen Tiefen (‚Anzahl und Lagen‘) und verschieden Komplexitäten in Bezug auf die Anzahl der Neuronen des neuronalen Netzes. Die beste Performance konnten wir mit einem Netzwerk, welches 3 Lagen nutzt, erreichen. Das Ergebnis zeigt, dass die nicht lineare Kombination von Faktoren von Wettermodellen eine bessere Vorhersage-Qualität für den Niederschlag ermöglicht.

Viertes DeepRain-Projekttreffen

Icon Virtual Meeting
Icon Virtual Meeting
Icons made by surang from www.flaticon.com

Aufgrund der Covid-19-Situation musste das 4. DeepRain-Projekttreffen, das vom 10. bis 12. März 2020 stattfinden sollte, in eine Reihe von Web-Meetings mit den Projektpartnern umgewandelt werden. Der Schwerpunkt des Treffens lag auf der Vorbereitung von Input für den kommenden Projektbericht im April und der Planung konkreter Aktionen für die nächsten 6 Monate. In den letzten Monaten wurden viele Fortschritte in Bezug auf die Datenaufbereitung und die Machine Learning Workflows erzielt, aber es bleiben noch einige Fragen hinsichtlich der Implementierung dieser Abläufe auf dem JSC-Supercomputersystem. Dies hat das Projekt bisher daran gehindert, durch Machine Learning aussagekräftige Niederschlagsvorhersagen zu erstellen. Alle Projektpartner arbeiten zusammen, um diese Arbeitsabläufe in Gang zu bringen, und wir sind optimistisch, dass es, sobald diese Probleme gelöst sind, relativ einfach sein wird, die Lösungen auf viel größere Datensätze zu skalieren. Im nächsten Monat wird der Schwerpunkt auf Leistungsverbesserungen beim Datenimport, auf der Anwendung des Machine Learning auf Stations-Zeitreihendaten und auf der Nutzung der Parallelisierung auf allen Ebenen liegen, um Arbeitsabläufe, Werkzeuge und Datenverarbeitung auf dem HPC-System zu optimieren.

Workshop “Machine Learning in weather and climate modelling” in Oxford

Martin Schultz und Lukas Leufen besuchten einen Workshop zum Thema “Machine Learning in weather and climate modeling” am Corpus Christi College in Oxford. Dieser Workshop führte mehr als 100 hochkarätige Klimawissenschaftler und Experten für HPC-Computerwissenschaft und maschinelles Lernen zusammen, um die laufenden Arbeiten vorzustellen und das weitere Vorgehen zu diskutieren. Von Anfang an wurde deutlich, dass maschinelles Lernen in fast allen Phasen eines Wetter- und Klimamodellierungs-Workflows eine wichtige Rolle spielen kann. Viel diskutierte Themen waren die wahrgenommene Notwendigkeit, den Algorithmen des maschinellen Lernens physische Einschränkungen aufzuerlegen und Unsicherheiten zu quantifizieren. Martin Schultz’ Präsentation zu den Projekten IntelliAQ und DeepRain wurde gut angenommen und die positive Resonanz bestätigte die Forschungsstrategie dieser Projekte.

Masterarbeit “Deep Hyperresolution for Weather Forecasting”

An der Universität Osnabrück schloss Jonas Rebstadt sein Studium mit einer Masterarbeit zum Thema “Deep Hyperresolution for Weather Forecasting” erfolgreich ab. Ziel ist es, ein System zu entwickeln, das in der Lage ist, die Genauigkeit der Regenvorhersage ohne exorbitanten höheren Rechenaufwand zu erhöhen. Der in dieser Arbeit vorgestellte Ansatz versucht, die räumliche Auflösung eines aktuell produktiv genutzten Prognosemodells des Deutschen Wetterdienstes (DWD) zu erhöhen, indem er ein neuronales Netzwerk trainiert, das auf höherauflösenden Radarbildern als Ziel basiert.

Meilenstein bei der Datenübertragung: 100. Terabyte

Fortschritte beim Datentransfer: Ein wesentlicher Aspekt des DeepRain-Projekts ist die große Datenmenge, die für die Schulung und Bewertung von Methoden des maschinellen Lernens verwendet wird. Insgesamt werden derzeit über 430 Terabyte Daten vom Deutschen Wetterdienst an das Forschungszentrum Jülich übertragen, um sie auf JSC-Supercomputern für Deep Learning zu nutzen. Heute wurde das 100. Terabyte erfolgreich übertragen und in die Speichersysteme der JSC integriert. Dies ist ein wichtiger Meilenstein, da nun genügend Daten zur Verfügung stehen, um die ersten sinnvollen tiefen Erkenntnisse und Analysen durchzuführen.

Datenspeicher beim JSC zugeteilt

Das Jülicher Supercomputing Center (JSC) hat für das DeepRain-Projekt zwei große Datenprojekte mit einem Volumen von mehreren hundert Terabyte vergeben.

Die ersten 30 TByte meteorologischer Modelldaten wurden erfolgreich vom Deutschen Wetterdienst an die JSC übertragen und ein prototypischer Workflow zur Verarbeitung dieser Daten wurde etabliert.

>