UVic: Neue Cloud-Computing- und ML-Ressourcen

Wissenschaftler nutzen die neueste Cloud-Infrastruktur der UVic, um das Wissen mithilfe von nicht traditionellem HPC zu erweitern.

Auf einen Blick:

  • Die „Research Computing Services“-Einheit der University of Victoria (UVic) bietet universitären Forschern und Wissenschaftlern in landesweiten Einrichtungen und durch internationale Kooperationen Advanced-Research-Computing-Dienste (ARC) mit der entsprechenden Infrastruktur an. Die Einrichtung beherbergt eines der ARC-Rechenzentren von Compute Canada und die Arbutus-Cloud, eine OpenStack-Cloud, die in erster Linie der Bereitstellung von virtuellen Maschinen und anderen Cloud-Anwendungen dient.

  • Arbutus wurde mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und persistentem Intel® Optane™ Speicher sowie Intel® SSDs aufgebaut und soll die Kapazitäten der herkömmlichen großen Cluster für HPC-Workloads erweitern.

author-image

Von

Kurzübersicht

An der University of Victoria (kurz: UVic) auf der kanadischen Insel Vancouver Island sind mehr als 22.000 Studenten und Hunderte von Dozenten und Forschern tätig. Der Bereich Research Computing Services (RCS) stellt Forschern an Universitäten, Wissenschaftlern in landesweiten Einrichtungen und über internationale Kooperationen die Infrastruktur und Dienste für Advanced Research Computing (ARC) zur Verfügung. Die Einrichtung beherbergt eines der ARC-Rechenzentren von Compute Canada und die Arbutus-Cloud, eine OpenStack-Cloud, die in erster Linie der Bereitstellung von virtuellen Maschinen und anderen Cloud-Anwendungen dient. Arbutus wurde entwickelt, um die Kapazität für traditionelle HPC-Workloads zu erweitern und Forschungsprojekte zu unterstützen, die andere Funktionseigenschaften erfordern als herkömmliche HPC-Cluster, zum Beispiel den Onlinebetrieb für maschinelles Lernen/künstliche Intelligenz, Big Data und Collaborative Computing. Arbutus wurde mit Lenovo-Knoten des Typs SR630, SR670 und SD530 mit Intel® Xeon® Gold Prozessoren der 2. Generation und mit persistentem Intel® Optane™ Speicher (Intel Optane PMem) sowie Intel® SSDs gebaut.

„Wenn Forscher eine IT-Umgebung anfordern, in unseren Augen also deren eigenes virtuelles Labor, richten wir das Netzwerk und die Hardware zur Unterstützung ihrer Arbeit ein. Sie können dann innerhalb von Minuten ihr eigenes virtuelles Lab einrichten – mit oder ohne Unterstützung durch unseren Service.“ – Belaid Moa, Ph.D., Advanced Research Computing Specialist in der Abteilung Research Computing Services der University of Victoria

Herausforderung

2015 startete die UVic in Zusammenarbeit mit Compute Canada, WestGrid und der University of Sherbrooke die erste Arbutus-Phase, um die Arbeit einer neuen Generation von Forschern zu ermöglichen. Im Gegensatz zu Forschern, die auf herkömmliche HPC-Cluster zählen, um Massively-Parallel-Computing-Jobs oder große, auf Simulationen konzentrierte Workloads zu verarbeiten, hatten diese Forscher andere Anforderungen.

„Unsere vorhandenen IT-Dienste verfügten zu diesem Zeitpunkt nicht über die Infrastruktur, die einige der anspruchsvolleren Computeranforderungen unserer Forscher hätte befriedigen können“, meint Belaid Moa, Ph.D., Advanced Research Computing Specialist der Research-Computing-Services-Einheit, University Systems Department. „Wir hatten HPC-Cluster, aber die Forscher benötigten dringend hochverfügbare kollaborative Plattformen, individuell angepasste Websites, Root-Zugriff, Microservices-Umgebungen und andere Cloud-Computing-Dienste, die für viele Forscher rasch ebenso wichtig wie HPC-Cluster und zu einem unverzichtbaren ARC-Aspekt wurden.“

Und deshalb wurde die OpenStack-Private-Cloud Arbutus geschaffen. Diese erste Phase umfasste 7000 CPU-Kerne von Intel® Xeon® Prozessoren E5-2680 v4 in 250 Knoten mit integriertem Datenspeicher, 10-GbE-Netzwerktechnik und 1,6 PB dreifach redundantem Ceph-Massenspeicher (insgesamt 4,8 PB). Die Arbutus-Cloud nutzt Virtualisierung, um Ressourcen in Form von Infrastructure-as-a-Service (IaaS) für die unterschiedlichen Anwendungen der Forscher bereitzustellen.

In den folgenden vier Jahren wurden neue Forschungsprojekte ins Leben gerufen, und bei vielen davon wurden neu aufkommende Technologie und Forschungsumgebungen wie maschinelles Lernen (ML), künstliche Intelligenz (KI), JupyterHub und Big Data eingesetzt. Diese neuen Projekte sowie die steigende Nachfrage nach Cloud-Diensten machten mehr Datenspeicher, fortgeschrittene Datenverarbeitung und größere Systemspeicher-notwendig, was zu einer größeren Cloud-Infrastruktur und Arbutus Phase 2 führte.

Lösung

Die Arbutus Phase 2 wurde Anfang 2020 umgesetzt. Das neue System umfasst zusätzliche 208 Lenovo-ThinkSystem-Knoten des Typs SR630, SR670 und SD530 mit 119 GB ThinkSystem-TruDDR4-Arbeitsspeicher und 1 TB persistentem Intel Optane Speicher pro Knoten. Durch die Erweiterung verfügt die UVic über 7968 mehr Kerne von Intel® Xeon® Gold Prozessoren 6248 und Intel® Xeon® Gold Prozessoren 6130 in ihrer Cloud-Infrastruktur. Die Ceph-Plattform wurde mit Intel® SSDs des Typs S4610 auf 5,7 PB SSD-Datenspeicher erweitert. Zu den Cloud-Knoten gehörten zwei neue Database-as-a-Service-Knoten, um hochleistungsfähigen Zugriff auf strukturierte Daten mit SQL anzubieten.

Innovationen von Intel bezüglich der Arbeitsspeicher-, Datenspeicher- und Prozessorleistung bieten der UVic neue Möglichkeiten. Persistenter Intel Optane Speicher ermöglicht sehr große Speicherkapazitäten pro Knoten mit DRAM-ähnlichen Leistungseigenschaften. Persistenter Intel Optane Speicher kann im Arbeitsspeichermodus als extrem großer Systemspeicher oder im App-Direct-Modus als nichtflüchtiger (persistenter) Datenspeicher mit geringer Latenz und DRAM-ähnlichen Zugriffseigenschaften verwendet werden. Dadurch, dass der persistente Intel Optane Speicher im Arbeitsspeichermodus verwendet wird, bietet jeder Knoten von Arbutus Phase 2 Eigenschaften, die durch zusätzliche Speicherkapazität auf die höhere Rechenleistung von Intel Xeon Gold Prozessoren 6248 abgestimmt sind.

Dank der hohen Leistung und dem viel größeren Arbeitsspeicher pro Knoten kann die UVic weit mehr virtuelle Maschinen pro Server betreiben, um die wachsende Anzahl von Forschern zu unterstützen, besonders im Hinblick auf den Bedarf an dauerhaften Anwendungen, die zur Unterstützung ihrer Projekte ununterbrochen laufen müssen. Fortschritte in der Intel Xeon Prozessorarchitektur mit Intel® Deep Learning Boost (Intel® DL Boost) und spezifische Software für Deep Learning wie Intel® Optimierungen für TensorFlow und die Intel® Distribution für Python helfen dabei, ML-Aufgaben zu beschleunigen, wenn Programmcode für skalierbare Intel Xeon Prozessoren der 2. Generation kompiliert wird.

Ergebnis

Mit Arbutus Phase 2 können die Research Computing Services der UVic wesentlich mehr Forscher im ganzen Land mit leistungsfähigeren Cloud- und sogar kleineren HPC-Rechenressourcen unterstützen. Während die Einrichtung mit ihren großen HPC-Clustern weiterhin umfangreiche herkömmliche Supercomputing-Workloads unterstützt, können Forscher auch kleinere parallele Jobs in der Arbutus-Cloud ausführen lassen und diese schneller hochfahren, als wenn sie auf ein Zeitfenster der größeren Systeme warten müssen.

„Wenn Forscher eine IT-Umgebung anfordern, die wir als deren eigenes virtuelles Lab betrachten, richten wir das Netzwerk und die Hardware zur Unterstützung ihrer Arbeit ein“, erläutert Moa. Sie können dann innerhalb von Minuten ihr eigenes virtuelles Lab einrichten – mit oder ohne Unterstützung durch unseren Service.“

Laut Moa stehen Arbutus-Benutzern verschiedene ML-Umgebungen wie TensorFlow, PyTorch, Julia, Pandas, scikit-learn und Apache Spark zur Wahl. Diese Umgebungen bauen auf Conda-Distributionen auf. Die Conda-Distribution verwendet die Intel MKL für Low-Level-Operationen beim Einsatz von Paketen wie NumPy, SciPy und scikit-learn. In Zukunft wird die UVic Intel Optimierungen für TensorFlow und die Intel Distribution von Python installieren.

„Einige virtuelle Labs verarbeiten sogar kleine HPC-Workloads wie GROMACS, die Molekulardynamik-Software, die für die Untersuchung von Strukturen wie dem SARS-CoV-2-Virus verwendet wird“, so Moa.

Professor Dennis K. Hore, Ph.D., ist mit GROMACS und den Möglichkeiten durch die Nutzung der Cloud für die Forschung vertraut. Er ist forschend und als Professor für die Fachbereiche Chemie und Informatik an der UVic tätig und hat ein Team mit 25 Forschern, die an 15 verschiedenen Projekten arbeiten.

„Die meisten meiner Projekte in den letzten 15 Jahren drehten sich um die Untersuchung der Wechselwirkung zwischen Molekülen und Oberflächen“, erklärt Professor Hore. „Zum Beispiel werden viele Kunststoffe im menschlichen Körper verwendet: Katheter, Stents, Nahtmaterial, künstliche Organe usw. Mein Team untersucht, wie Proteine mit ihnen wechselwirken und versucht, zur molekularen Basis der Biokompatibilität vorzudringen.“

In den letzten drei Jahren hat sein Team jedoch ein Projekt begonnen, das chemische Analysen mit Big Data und maschinellem Lernen kombiniert und Arbutus nutzt, um das Leben von Menschen zu verbessern, die „Straßendrogen“ konsumieren.

„An drei verschiedenen Standorten in Victoria arbeiten wir anonym mit den Menschen zusammen, um sie über die Zusammensetzung der Drogen zu informieren, die sie freiwillig zur Analyse bringen“, so Hore weiter. „Mit hochmodernen Analysegeräten führen wir bei ihren Proben eine Vielzahl chemischer Analysen durch. Wir verwenden die von uns gesammelten Daten dann zusammen mit chemischen Bibliotheken und Datenbanken zur Entwicklung von Algorithmen und Anwendungen für maschinelles Lernen. Ein Ziel des Programms ist die Bereitstellung von Informationen, die es den Menschen ermöglichen, fundierte Entscheidungen über den Gebrauch ihrer Substanzen entsprechend ihrer Zusammensetzung und Stärke zu treffen.“

In Zusammenarbeit mit Health Canada und der Universität von Victoria bietet das „Vancouver Island Drug Checking“-Projekt der Öffentlichkeit Drogentests an. Bildnachweis: Jay Wallace

Dies ist laut Hore nur die Spitze des Eisbergs. Abgesehen vom Nutzen für die Menschen, den sein Projekt durch die Daten und die Informatik bietet, gibt es auch mögliche Anwendungen für die Telemedizin. Die Erkenntnisse und Anwendungen aus dieser Forschung könnten zur Entwicklung von portablen Geräten und Kiosksystemen führen, die chemische Verbindungen schnell und interaktiv analysieren können. Diese Fernanalyse mit online aktivem maschinellem Lernen kann dann Erkenntnisse über mögliche Auswirkungen der Probe und Orientierungshilfe für jene liefern, die eine Analyse der Probe wünschen.

„Das Projekt begann vor 4 Jahren, nachdem mich ein Apotheker, der sich der Schadensminderung widmet, darum bat, eine Qualitätskontrolle bei einem der von ihm abgegebenen verschreibungspflichtigen Medikamente durchzuführen“, erklärt Hore. „Obgleich er dieses Medikament bereits seit Jahren vom selben Hersteller bezogen hatte, teilten ihm seine Kunden mit, dass es bei ihnen anders wirke als zuvor. Er wünschte eine Analyse des Medikaments mit den Konzentrationen seiner Inhaltsstoffe. Dies ist eine weitere mögliche Anwendung der Wissenschaft.“

Diese Anfrage führte zu dem „Drug Checking“-Projekt, das durch fortschrittliche Computertechnik mit Cloud-Computing-Infrastrukturen auf Basis der Intel®-Architektur mithilft, neues Wissen für die Sozialwissenschaften und die Chemie zu erlangen. Die Ergebnisse der Forschung könnten zu Verbesserungen in der Gesundheitsversorgung, der öffentlichen Sicherheit und anderen Bereichen führen.

Für Messungen mittels Infrarotspektroskopie wird eine kleine Menge der Probe auf einen Kristall aufgebracht, durch den Infrarotlicht reflektiert wird. Bildnachweis: Jay Wallace

Zusammenfassung

An der University of Victoria veranlasste die Nachfrage von Forschern nach mehr und unterschiedlichen Arten von Cloud-Computing-Ressourcen die Abteilung Research Computing Services der Universität dazu, ihre vorhandene Arbutus-Infrastruktur zu erweitern. Mit Arbutus Phase 2 wuchs das System um annähernd 8000 CPU-Kerne der weiterentwickelten skalierbaren Intel Xeon Prozessoren, ergänzt durch persistenten Intel Optane Speicher und Intel SSDs der Produktreihe S4610. Die größere, fortschrittlichere Arbutus-Cloud wird für ein breites Spektrum der Datenverarbeitung eingesetzt, darunter Webdienste, KI/ML und Big Data.

Lösungskomponenten

  • 208 Lenovo-ThinkSystem-Knoten des Typs SR630, SR670 und SD530 mit ThinkSystem-TruDDR4-Speicher
  • Fast 8000 CPU-Kerne von skalierbaren Intel Xeon Gold Prozessoren 6248 und Intel Xeon Gold Prozessoren 6130
  • 1 TB persistenter Intel Optane Speicher pro Knoten
  • Intel SSD S4610

Lenovo und Intel kooperieren, um das Zusammenwachsen von HPC und KI zu beschleunigen und dadurch Lösungen jeglicher Größenordnung zu ermöglichen, die für Kunden neue Erkenntnishorizonte eröffnen. Durch die Zusammen­arbeit bei Systemen und Lösungen, der Softwareoptimierung und der Unterstützung des Technologieumfelds sollen Entdeckungen und Ergebnisse für die herausforderndsten Probleme der Welt in der Exascale-Ära und darüber hinaus schneller verfügbar sein. Lenovo-Server, die führende Systemauswahl für die schnellsten TOP500-Supercomputer1, sind mit skalierbaren Intel Xeon Prozessoren und Intels zukunftsweisender Technik für Arbeits- und Datenspeicher sowie Software ausgestattet, die zusammen eine innovative Grundlage für schnelle Fortschritte in Wissenschaft und Industrie bilden.

PDF herunterladen ›