Das Aurora Exascale System des Argonne National Lab

Die Leistung von Aurora, die voraussichtlich eine Milliarde Milliarden FLOPS überschreiten wird, wird die Bemühungen von Forschung und Ingenieurwesen stärken.

Auf einen Blick:

  • Das Argonne National Laboratory mit Sitz in Illinois ist ein multidisziplinäres Forschungszentrum, das sich mit den wichtigsten Fragen der Menschheit befasst.

  • Mit HPE und Intel sowie der Unterstützung des US-Energieministeriums wird erwartet, dass die Leistung von Aurora einen exaFLOPS übersteigt, was einer Milliarde Milliarden Berechnungen pro Sekunde entspricht.

author-image

Von

Kurzübersicht:

Nach der Auslieferung wird Aurora vom Argonne National Laboratory das erste Exascale-HPC-System des Landes sein, das auf Intel® Architektur basiert. Mit Hewlett Packard Enterprise (HPE) als Subunternehmen und Intel sowie der Unterstützung des US-Energieministeriums (DOE) wird erwartet, dass die Leistung von Aurora einen exaFLOPS übersteigt, was einer Milliarde Milliarden Berechnungen pro Sekunde entspricht. Mit seiner extremen Größe und Leistungsstufe bietet Aurora der wissenschaftlichen Gemeinschaft die Rechenleistung, die für die fortschrittlichste Forschung in Bereichen wie Biochemie, Ingenieurwesen, Astrophysik, Energie, Gesundheitswesen und mehr benötigt wird.

Herausforderung

Als führendes Forschungsinstitut in den USA steht das Argonne National Laboratory an vorderster Front bei den Bemühungen des Landes, künftige Exascale-Computerfunktionen bereitzustellen. Die Argonne Leadership Computing Facility (ALCF), die zukünftige Heimat von Aurora, treibt das wissenschaftliche Computing durch die Konvergenz von HPC, Hochleistungsdatenanalyse und KI voran.

ALCF-Rechenressourcen stehen Forschern von Universitäten, Industrie und Regierungsbehörden zur Verfügung. Durch beträchtliche Zuerkennung von Supercomputing-Zeit und Benutzerunterstützungsdiensten ermöglicht die ALCF umfangreiche Computerprojekte, die darauf abzielen, einige der weltweit größten und komplexesten Probleme in den Bereichen Wissenschaft und Technik zu lösen. Neben dem Wunsch, die Wettbewerbsfähigkeit sicherzustellen, wollten DOE und ALCF Wissenschaftlern die Möglichkeit geben, Herausforderungen wie KI-gestützte Analysen massiver Datensätze oder umfassende Simulationen zu bewältigen.

Die Argonne Leadership Computing Facility (ALCF) wird dazu beitragen, den Bereichen Simulation, Daten und Lernforschung eine neue Dimension zu verleihen, wenn die Institution Aurora vorstellt, eine der ersten Exascale-Maschinen des Landes, die auf Intel Architektur basiert.

Lösung

Intel baute auf internem Know-how über HPC-Systeme und einer engen Partnerschaft mit HPC-Experten von Argonne und HPE als Integrator auf. Zusammen werden sie das Exascale-System Aurora liefern, das einen Exaflop, d. h. eine Milliarde Milliarden Berechnungen pro Sekunde, liefert.

Das Team hat mehrere Jahre damit verbracht, das System zu entwickeln und mit speziellen Software- und Hardware-Innovationen zu optimieren, um die für fortgeschrittene Forschungsprojekte erforderliche Leistung zu erzielen. Weitere Anforderungen an das Design von Aurora waren Komponenten mit langfristiger Zuverlässigkeit und Energieeffizienz.

Aurora wird über mehrere neue Intel Techniklösungen verfügen. Jeder eng integrierte Knoten wird über zwei zukünftige skalierbare Intel® Xeon® Prozessoren sowie sechs zukünftige GPUs mit Intel® Xe-Architektur verfügen. Jeder Knoten bietet außerdem Skalierungseffizienz mit acht Fabric-Endpunkten, einer einheitlichen Speicherarchitektur und einer Konnektivität mit hoher Bandbreite und geringer Latenz. Das System unterstützt zehn Petabyte Datenspeicher für die Anforderungen von Exascale-Computing.

Aurora-Benutzer profitieren außerdem von Intel® DAOS (Distributed Asynchronous Object Storage), einer Technik, mit der Engpässe bei datenintensiven Workloads behoben werden. DAOS wird auf dem persistenten Intel® Optane™ Speicher unterstützt und ermöglicht einen softwaredefinierten Objektspeicher, der für massiven verteilten Non-Volatile Memory (NVM, nichtflüchtiger Speicher) erstellt wurde.

Das System wird auf der HPE Cray Shasta-Supercomputerarchitektur aufbauen, die HPE-Systemsoftware der nächsten Generation enthält, um Modularität, Erweiterbarkeit, Flexibilität bei der Verarbeitungsauswahl und nahtlose Skalierbarkeit zu ermöglichen. Es wird auch die HPE Slingshot-Verbindung als Netzwerk-Backbone enthalten, die eine Vielzahl bedeutender neuer Funktionen wie adaptives Routing, Überlastungskontrolle und Ethernet-Kompatibilität enthält.

Die parallele Speicherplattform Cray ClusterStor E1000 wird die zunehmend konvergierten Workloads der Forscher unterstützen, indem insgesamt 200 Petabyte (PB) neuer Datenspeicher bereitgestellt werden. Die neue Lösung umfasst das zentrumsweite 150-PB-Speichersystem Grand und das 50-PB-Community-Dateisystem Eagle für den Datenaustausch. Sobald Aurora betriebsbereit ist, wird Grand, das eine Bandbreite von einem Terabyte pro Sekunde (TB/s) unterstützt, optimiert, um die Wissenschaft der konvergierten Simulation und neue datenintensive Workloads zu unterstützen.

Der Aurora Supercomputer wird das erste Exascale-System in den USA sein, das die demnächst verfügbaren HPC- und KI-Hardware- und Software-Innovationen von Intel integriert, darunter:

  • Skalierbare Intel Xeon Prozessoren der zukünftigen Generation
  • Zukünftige GPUs mit Intel Xe Architektur
  • 230 Petabyte Datenspeicher basierend auf der DAOS-Technik (Distributed Asynchronous Object Storage), Bandbreite >25 TB/s
  • oneAPI Unified Programming-Modell zur Vereinfachung der Entwicklung in verschiedenen CPU-, GPU-, FPGA- und KI-Architekturen

Das Argonne-Team wird sich auf das oneAPI-Programmiermodell verlassen, das die Entwicklung heterogener Architekturen vereinfachen soll. oneAPI wird ein einziges, einheitliches Programmiermodell für verschiedene CPUs, GPUs, FPGAs und KI-Beschleuniger bereitstellen.

Ergebnisse

Das Team arbeitet derzeit an der Ökosystementwicklung für die neue Architektur. Die ALCF hat das Aurora Early Science Program (ESP) gegründet, um sicherzustellen, dass die Forschungsgemeinschaft und kritische wissenschaftliche Anwendungen zum Zeitpunkt der Bereitstellung für die Größe und Architektur des Exascale-Rechners bereit sind.

Das ESP vergab vor der Produktion Zeit und Ressourcen an verschiedene Projekte in den Bereichen HPC, Hochleistungsdatenanalyse und KI. Die meisten der ausgewählten Projekte sind komplexe wissenschaftliche Forschungsprojekte, die der Leistungsfähigkeit herkömmlicher HPC-Systeme entwachsen sind. Daher wird Aurora dazu beitragen, den Schritt in eine neue Ära der Wissenschaft zu leiten, in der rechenintensive wissenschaftliche Bemühungen, die heute nicht möglich sind, Realität werden.

Im Blickpunkt: Hewlett Packard Enterprise
HPE kombiniert Rechenleistung und Kreativität, sodass Visionäre immer wieder Fragen stellen können, die die Grenzen des Möglichen herausfordern. Mit mehr als 45 Jahren Erfahrung entwickelt HPE die fortschrittlichsten Supercomputer der Welt und erweitert die Grenzen von Leistung, Effizienz und Skalierbarkeit. Mit Entwicklungen wie der HPE Cray-Programmumgebung für die HPE Cray EX-Supercomputing-Architektur und der HPE Slingshot-Verbindung entwickelt HPE weiterhin neue Lösungen für die Konvergenz von Daten und Erkennung. HPE bietet ein umfassendes Portfolio an Supercomputern sowie Hochleistungsspeicher-, Datenanalyse- und KI-Lösungen.

Wissenschaft der nächsten Generation erfordert extreme HPC-Systeme

Die ersten auf Aurora geplanten Projekte gehören zu den schwierigsten und rechenintensivsten Projekten. Zu den zahlreichen Projekten, die in das Aurora Early Science-Programm aufgenommen wurden, gehören:

Entwicklung sicherer, sauberer Fusionsreaktoren
Die Fusion, die Art und Weise, wie die Sonne Energie erzeugt, bietet ein enormes Potenzial als erneuerbare Energiequelle. Ein Fusionsreaktortyp verwendet Magnetfelder, um den Brennstoff einzuschließen – ein heißes Plasma, einschließlich Deuterium, einem aus Meerwasser gewonnenen Wasserstoffisotop. Dr. William Tang, Principal Research Physicist am Princeton Plasma Physics Lab, plant, mit Aurora ein KI-Modell zu trainieren, um unerwünschte Störungen des Reaktorbetriebs vorherzusagen. Aurora wird riesige Datenmengen aus heutigen Reaktoren aufnehmen, um das KI-Modell zu trainieren. Das Modell kann dann in einem Experiment eingesetzt werden, um Kontrollmechanismen auszulösen, die bevorstehende Störungen verhindern. Dank Exascale-Computing, KI und Deep Learning wird Tang neue Erkenntnisse liefern, die die Bemühungen zur Erzielung von Fusionsenergie vorantreiben.

Neuronen, die aus der Analyse elektronenmikroskopischer Daten gewonnen wurden. Das Bild zeigt eine Datenscheibe mit farbigen Bereichen, die identifizierte Zellen anzeigen. Durch Verfolgen dieser Regionen durch mehrere Schichten werden die Teilvolumina extrahiert, die den anatomischen Zielstrukturen entsprechen. (Bild mit freundlicher Genehmigung von Nicola Ferrier, Narayanan (Bobby) Kasthuri und Rafael Vescovi, Argonne National Laboratory)

Neurowissenschaftliche Forschung
Dr. Nicola Ferrier, Senior Computer Scientist bei Argonne, arbeitet mit Wissenschaftlern der University of Chicago, Harvard University, Princeton University und mit Google zusammen. Die gemeinsame Anstrengung zielt darauf ab, mithilfe von Aurora ein Verständnis der Gesamtstruktur des Gehirns zu erhalten und zu verstehen, wie sich jedes Neuron mit anderen verbindet, um die kognitiven Bahnen des Gehirns zu bilden. Das Team hofft, dass seine Bemühungen Informationen zum Nutzen der Menschheit enthüllen werden, z. B. potenzielle Heilmittel für neurologische Erkrankungen.

Suche nach effektiveren Krebsbehandlungen
Dr. Amanda Randles, Alfred Winborne Mordecai und Victoria Stover Mordecai, Assistenzprofessorin am Department of Biomedical Engineering at Duke University, und ihre Kollegen entwickelten das „HARVEY“-System. HARVEY sagt den Fluss von Blutzellen voraus, die sich durch das hochkomplexe menschliche Kreislaufsystem bewegen. Mit der Zeit, die ihr auf Aurora gewährt wird, versucht Dr. Randles, mithilfe von HARVEY ein besseres Verständnis von der Metastasierung bei Krebs zu erhalten. Durch die Vorhersage, wo sich metastasierte Zellen im Körper bewegen könnten, kann HARVEY Ärzten helfen, frühzeitig vorherzusagen, wo sich sekundäre Tumoren bilden können.

Verstehen des „dunklen“ Universums
Die Kombination von Sternen, Planeten, Gas, Wolken und allem anderen, was im Kosmos sichtbar ist, macht nur fünf Prozent des Universums aus. Die anderen 95 Prozent bestehen aus dunkler Materie und dunkler Energie. Das Universum wächst nicht nur – seine Expansionsrate beschleunigt sich. Dr. Katrin Heitmann, Physikerin und Computerwissenschaftlerin am Argonne National Laboratory, hat große Ziele für ihre Zeit bei Aurora. Ziel ihrer Forschungsarbeit ist es, ein tieferes Verständnis des dunklen Universums zu erlangen, über das wir heute so wenig wissen.

Diese Simulation einer massiven Struktur, eines sogenannten Galaxienhaufens, wurde im Rahmen eines früheren ESP auf dem Theta-System von Argonne durchgeführt. Die Masse des Objekts beträgt 5.6e14 Msun. Die Farbe zeigt die Temperatur und die weißen Bereiche zeigen die Baryonendichte. (Bild mit freundlicher Genehmigung von JD Emberson und dem HACC-Team)

Entwicklung von treibstoffeffizienteren Flugzeugen
Dr. Kenneth Jansen, Professor für Luft- und Raumfahrttechnik an der University of Colorado, Boulder, verfolgt Entwürfe für sicherere, leistungsfähigere und sparsamere Flugzeuge. Zu diesem Zweck analysiert er die Turbulenzen um eine Flugzeugzelle. Die Variabilität der Turbulenzen erschwert die Simulation der Interaktion eines gesamten Flugzeugs. Jede Sekunde unterliegen die verschiedenen Flugzeugteile unterschiedlichen Einwirkungen des Luftstroms. Daher müssen Dr. Jansen und sein Team die Daten im Verlauf der Simulation in Echtzeit auswerten. HPC-Systeme sind derzeit nicht in der Lage, die Aufgabe zu erfüllen. Sie simulieren den Luftstrom um ein Flugzeug, das ein Neunzehntel seiner tatsächlichen Größe beträgt und sich mit einem Viertel seiner realen Geschwindigkeit bewegt.

Aurora wird Dr. Jansen und seinem Team helfen, mehr über die grundlegende Physik zu erfahren, die mit dem vollen Flugmaßstab und den realen Flugbedingungen verbunden ist. Von dort aus können sie ermitteln, wo Designverbesserungen einen bedeutenden Unterschied für die Eigenschaften während des Fluges ausmachen können.

HPE fühlt sich geehrt, mit Intel zusammenzuarbeiten, um den ersten US-amerikanischen Exascale-Supercomputer für Argonne zu bauen und zu liefern. Es ist ein aufregender Beweis für das flexible Design und die einzigartigen System- und Softwarefunktionen von HPE Cray EX. Zusammen mit unserer HPE Slingshot-Verbindung wird sie die Grundlage für die extremen wissenschaftlichen Bemühungen und datenorientierten Workloads von Argonne bilden. Der HPE Cray EX Supercomputer wurde für diese transformative Exascale-Ära und die Konvergenz von künstlicher Intelligenz, Analysen, Modellierung und Simulation – alle gleichzeitig auf demselben System – in unglaublichem Maßstab entwickelt.“ – Peter Ungaro, Senior Vice President und General Manager, HPC and AI, bei HPE

Unterstützung des Large Hadron Collider Project (LHC) des CERN

Dr. Walter Hopkins, Physiker bei Argonne, ist Mitglied des ATLAS-Experiments, einer internationalen Zusammenarbeit, die die grundlegenden Teilchen und Kräfte untersucht, aus denen unser Universum besteht. Das ATLAS-Experiment bildet die Ergebnisse von Protonenkollisionen im Large Hadron Collider (LHC) des CERN ab.

Diese Bilder wurden bei der historischen Entdeckung des Higgs-Bosons im Jahr 2012 verwendet, die das Standardmodell der Teilchenphysik vervollständigte. In den nächsten zehn Jahren werden im Rahmen des aktualisierten LHC- und ATLAS-Experiments zehnmal mehr Daten gesammelt, um die verbleibenden Fragen zu beantworten, z. B. „Was ist dunkle Materie?“ oder „Wie hängt die Schwerkraft mit den elektromagnetischen, starken oder schwachen Kräften zusammen?“ Während sich die Datenmenge um das 10-Fache erhöht, erhöht sich die für Physikstudien erforderliche Simulationsmenge um das 100-Fache, was die aktuellen Ressourcen schnell übertrifft. Dieses Projekt portiert einige der rechenintensiveren Simulationen auf Beschleuniger, um diesen Anstieg zu bewältigen. Darüber hinaus nutzt das Projekt Deep Learning, um die analytische Reichweite aktueller Partikelidentifizierungsalgorithmen zu erweitern. Mit diesem Projekt wird Aurora in der nächsten Phase der Suche nach neuer Physik zu einer wichtigen Ressource für Entdeckungen.

Eine glänzende Zukunft für die Forschung

Exascale-Computing wird Forschern ein tiefgreifendes und transformatives Werkzeug bieten. Das Leistungsniveau, die Skalierbarkeit und die Fähigkeit von Aurora zur Verarbeitung enormer Datenmengen bieten ein unglaubliches Potenzial. Das System wird dazu beitragen, Rätsel zu lösen, die Wissenschaftler und Ingenieure seit Jahrzehnten verblüffen. Aurora wird auch ein beispielloses Maß an Innovation und Entdeckung im Ingenieurwesen ermöglichen.

Im Blickpunkt: Argonne National Laboratory

Das Argonne National Laboratory mit Sitz in Illinois ist ein multidisziplinäres Forschungszentrum, das sich mit den wichtigsten Fragen der Menschheit befasst. Mit Unterstützung des US-Energieministeriums (DoE) arbeitet Argonne mit vielen Organisationen zusammen, darunter Unternehmen und akademische Einrichtungen sowie anderen Labors im ganzen Land, um wissenschaftliche Durchbrüche in verschiedenen Disziplinen wie Physik, Chemie, Kosmologie und Biologie zu erzielen.

Technische Komponenten

PDF herunterladen ›