Systeme

schwarze Serverschränke in großer Halle Urheberrecht: © IT Center

Cluster Aix-la-Chapelle (CLAIX)

CLAIX steht für Cluster Aix-la-Chapelle und fasst die verschiedenen Ausbaustufen des Hochleistungsrechners (HPC-System) und des –datenspeichers an der RWTH Aachen University zusammen. Das aktuelle System besteht aus der Ausbaustufe CLAIX-2023 und mehreren Dateisystemen für unterschiedliche Aufgabenbereiche.

Die technische Dokumentation zum Service RWTH Hochleistungsrechnen finden Sie in unserem Dokumentationsportal IT Center Help.

CLAIX-2023

Nach einer auf die Gesamtkosten fokussierten Ausschreibung wurde Ende 2022 die Firma NEC als Lieferant für die Ausbaustufe CLAIX-2023 ausgewählt. Wie der Name andeutet, soll das System Ende 2023 in den Testbetrieb und ab 2024 in den uneingeschränkten Produktionsbetrieb gehen.

CLAIX-2023 besteht aus über 660 Rechenknoten mit 2x Intel Sapphire Rapids Prozessoren mit jeweils 48 Kernen und 256 bis 1024 GB DDR5-Arbeitsspeicher. Zusätzlich gibt es 51 Rechenknoten identischer Basisarchitektur, die mit jeweils vier NVIDIA Hopper H100 GPUs (inklusive NVLink) als Beschleunigern ausgestattet sind und für besondere Anwendungszwecke wie bspw. das maschinelle Lernen zur Verfügung stehen. Zum interaktiven Arbeiten mit dem System besitzt CLAIX-2023 zusätzlich sechs Dialogsysteme kompatibler Architektur. Alle Knoten sind mit einem NVIDIA/Mellanox NDR InfiniBand 200-Gigabit/s-Netzwerk verbunden.

Serverschrank von vorne mit bunten Lichtern

Datenspeicher

Zur Speicherung der Daten werden verschiedene Dateisysteme zur Verfügung gestellt, die sich hinsichtlich der angedachten Nutzungsszenarien unterscheiden.

Ein hochverfügbares GPFS-basiertes Speichersystem der Firma DDN bietet eine Kapazität von ca. 4 PiByte und eine Bandbreite von 80 Gigabyte/s (lesend und schreibend) und ist als $HOME verfügbar. Das Dateisystem unterstützt Snapshots zur eigenständigen Wiederherstellung von Daten nach Fehlbedienung. Dieses Dateisystem wird außerdem von einem Disaster-sicheren Backup unterstützt, wodurch die den Nutzenden eingeräumte Kapazität strikt begrenzt ist. Dieselbe Dateisystemtechnologie ohne dieses Backup ist mit größerer einräumbarer Kapazität als $WORK verfügbar.

Ein hochperformantes Lustre-basiertes Speichersystem der Firma DDN auf Exascaler5-Technologie basierend bietet eine Kapazität von 26 Petabyte und eine Bandbreite von 500 Gigabyte/s (lesend und schreibend) und ist als $HPCWORK verfügbar. Die den Nutzenden eingeräumte Kapazität kann im Petabyte-Bereich liegen.

Ein ad-hoc Dateisystem auf BeeGFS-Technologie basierend aggregiert die freien Kapazitäten der SSDs in den Rechenknoten für die Dauer eines Rechenjobs. Es stehen ca. 400 GiB pro teilnehmenden Rechenknoten zur Verfügung. Dieses Dateisystem bietet eine maximale Metadatenleistung bei hoher Bandbreite (vergleichbar zu $HPCWORK) und unterstützt auch die Ablage einer sehr hohe Anzahl kleiner Dateien, insbesondere für KI-Anwendungen, und ist als $BEEOND verfügbar.

Betriebskonzept RWTH Hochleistungsrechnen

Der Hochleistungsrechner wird von dem IT Center an der RWTH Aachen University betrieben. Das Betriebskonzept stellt nach dem 1-Cluster-Konzept den Nutzenden alle Ressourcen des Clusters mittels einer Schnittstelle zur Verfügung, so dass verschiedene Ausbaustufen, innovative Architekturen und Daten mittels derselben Prozesse genutzt werden können.