Wie finden Sie diesen Artikel? Helfen Sie uns, bessere Inhalte für Sie bereitzustellen.
Vielen Dank! Ihr Feedback ist eingegangen.
There was a problem submitting your feedback, please try again later.
Was denken Sie über diesen Artikel?
In diesem Artikel nehmen wir den NVIDIA Jetson AGX Orin unter die Lupe, das neueste und beste GPU- und Tensor-Core-beschleunigte System-on-Module (SoM) für Embedded-Anwendungen. Bevor wir uns jedoch dem Jetson Orin und insbesondere der AGX-Variante zuwenden, werfen wir einen kurzen Blick zurück auf die Entwicklung der Jetson-Serie von NVIDIA über die Jahre und einige Überlegungen zur Architektur.
Jetson 101
Ein KI-gesteuerter Follow-Trolley, der mit dem preisgünstigen Jetson Nano gebaut wurde.
NVIDIA Jetson ist eine Produktfamilie von SoMs für Embedded Computing, die eine Arm-CPU für die allgemeine Verarbeitung mit einer Grafikeinheit (GPU) für die Beschleunigung rechenintensiver Workloads kombiniert. Darüber hinaus verfügen die Module über zahlreiche Hochleistungs-E/A für die Anbindung von Kameras, Bildschirmen und PCIe-Peripheriegeräten sowie über GPIO für die Anbindung von Geräten mit geringerer Geschwindigkeit.
Grafikprozessoren (GPUs) kommen heutzutage in vielen HPC-Anwendungen (High-Performance Computing) außerhalb der Grafikverarbeitung zum Einsatz und waren für die enormen Fortschritte, die in den letzten Jahren im Bereich der KI erzielt wurden, von grundlegender Bedeutung. Während KI-Modelle mit großen Server-Clustern trainiert werden können, die mit vollwertigen PCIe-GPUs ausgestattet sind, wird für die anschließende Ausführung dieser Modelle – auch bekannt als „Inferenz“ – in intelligenten Produkten eine weitaus kompaktere, energieeffizientere und auf den Embedded-Einsatz zugeschnittene Lösung benötigt. Hier kommt Jetson ins Spiel.
Der erste Jetson-Einplatinencomputer wurde vor 10 Jahren, im Jahr 2014, ausgeliefert. Seither hat es zahlreiche Nachfolgegenerationen gegeben, die jeweils eine deutlich höhere Leistung und verbesserte Funktionen bieten. Der 2019 angekündigte Jetson Nano senkt die Einstiegshürde und soll Bastlern den Einstieg in KI-Anwendungen mit nur geringem Aufwand ermöglichen und dabei die Ralle möglichen neuartigen Anwendungen, wie z. B. einen KI-gesteuerten Follow Trolley, ermöglichen.
Wie wir später noch sehen werden, ist der Jetson Orin jedoch weitaus leistungsfähiger als der Jetson Nano, und insbesondere die AGX-Varianten sind für fortgeschrittenere Anwendungen gedacht. Auch wenn KI eine Schlüsselanwendung ist und hier der Schwerpunkt liegt, können Jetson und GPU-Plattformen im Allgemeinen auch für viele andere Anwendungen eingesetzt werden, die von parallelen Hochleistungsrechenverfahren profitieren.
Zeitleiste
NVIDIA Jetson AGX Orin Developer Kit und Module.
Werfen wir also einen Blick auf die Zeitleiste der Jetson-Familie und stellen darauf die Leistungsdaten der GPUs gegenüber.
- Jetson TK1 (2014): 326 GFLOPS
- Jetson TX1 (2015): 1 TFLOP
- Jetson TX2 (2017): 1.33 TFLOPS
- Jetson AGX Xavier (2018): 32 TOPS
- Jetson Nano (2019): 472 GFLOPS
- Jetson Xavier NX (2020): 21 TOPS
- Jetson Orin Nano: (2023): 20-40 TOPS
- Jetson Orin NX (2023): 70-100 TOPS
- Jetson AGX Orin (2023: 200-275 TOPS
Wie wir sehen, sind die Zahlen mit dem Erscheinen von AGX Xavier im Jahr 2018 deutlich gestiegen. Wir müssen jedoch vorsichtig damit umgehen, da die Leistung in Tera-Operationen pro Sekunde (TOPS) ausgedrückt wird – was Integer- oder Float-Operationen usw. sein können – und nicht in Tera/Giga Floating Point Operations (T/GFLOPS). Dennoch kann man mit Sicherheit von einer erheblichen Leistungssteigerung ausgehen, und mit dem Erscheinen von Orin zeigt sich einmal mehr, dass die Zahlen bei den vergleichbaren NX- und AGX-Varianten deutlich steigen.
Der ursprüngliche Jetson Nano und der Jetson Orin Nano sind zwar nicht so leistungsfähig wie die höherwertigen Jetson SoMs, aber dennoch nicht minder wichtig, da sie Bedürfnisse auf einem bestimmten Preis-/Leistungsniveau ansprechen.
Dieser Vergleich ist natürlich sehr vereinfacht, da wir die parallelen Verbesserungen der CPU-Leistung, des Arbeitsspeichers, der Schnittstellen usw. noch nicht berücksichtigt haben. Wir werden jedoch zu gegebener Zeit einen Blick darauf werfen, welche Möglichkeiten Orin in dieser Hinsicht bietet.
Architektur
Benchmarks für vortrainierte KI-Modelle mit Jetson.
Einfache Benchmarks, wie z. B. Operationen pro Sekunde, liefern zwar einen guten Anhaltspunkt für die relative Leistung, doch muss auch die Mikroarchitektur des Grafikprozessors in Betracht gezogen werden. Jede diskrete GPU und Jetson-Plattform (kombinierte CPU+GPU) wird mit einer bestimmten NVIDIA-GPU-Architektur implementiert, optional auch mit einer gewissen Anzahl von Tensor-Kernen. So kann beispielsweise der Jetson AGX Orin über eine GPU mit 2048 Kernen der Ampere-Architektur und 64 Tensor-Kernen verfügen.
Die Gesamtleistung für eine bestimmte Anwendung hängt unter anderem von der Art des Workloads, der GPU-Architektur und der Anzahl der Kerne sowie der Anzahl der Tensor-Kerne ab.
Glücklicherweise stellt NVIDIA auch KI-Benchmarks für die Jetson-Familie zur Verfügung, wobei sowohl Benchmarks mit MLPerf als auch mit vortrainierten Modellen herangezogen werden. Hier sehen wir, dass wir in der Regel mehr als das Dreifache an Leistung erzielen, wenn wir von AGX Xavier auf AGX Orin 64GB aufrüsten.
Was sonst noch zu beachten ist
GPU-beschleunigte Anwendungen werden mit dem CUDA Toolkit von NVIDIA entwickelt. Wie nicht anders zu erwarten, wird das SDK im Laufe der Zeit aktualisiert, um neue Funktionen zu implementieren, von denen einige nur auf neueren oder den allerneuesten GPU-Architekturen zur Verfügung stehen. Unterdessen wird in neueren Versionen auch die Unterstützung für ältere Architekturen eingestellt. In den Release Notes zu CUDA 12.0 heißt es zum Beispiel, dass die Unterstützung für Hardware mit Compute Capability in den Versionen 3.5 und 3.7, also für die Kepler-Architektur, eingestellt wurde.
Werfen wir also einen Blick auf die Jetson-Produktfamilie und darauf, welche Version der CUDA Compute Capability und damit der GPU-Architektur darin implementiert ist.
- Nano: v5.3 (Maxwell)
- TX2: v6.2 (Pascal)
- Xavier AGX & NX: v7.2 (Volta)
- Orin AGX, NX & Nano: v8.7 (Ampere)
Für jedes Produkt wird eine bestimmte Version der Compute Capability implementiert, die wiederum bestimmt, welche Funktionen des CUDA SDK unterstützt werden und wie lange die CUDA-Unterstützung voraussichtlich verfügbar sein wird; je höher die Version der Compute Capability, desto länger wird diese Hardware unterstützt.
Darüber hinaus verlangen einige Frameworks und Anwendungen, die auf CUDA aufbauen, eine Mindestversion der Compute Capability oder eine GPU-Architektur. Während es also möglich sein sollte, Anwendungen auf neuere Hardware zu migrieren und von den Leistungssteigerungen zu profitieren, kann es passieren, dass bestimmte Software-Funktionen benötigt, die nur mit neuerer Hardware zur Verfügung stehen.
Jetson AGX Orin
Orin SoC block Diagramm
Der Jetson AGX Orin wird in zwei Versionen angeboten, die sich durch die Arbeitsspeichergröße unterscheiden: entweder 32 GB oder 64 GB. Es gibt aber noch weitere Unterschiede, denn die 64-GB-Variante profitiert auch von verbesserten SoC-Spezifikationen.
Oben ist das Blockschaltbild für den AGX Orin 64 GB zu sehen, der folgende Verarbeitungsmerkmale aufweist:
- 12-core Arm Cortex-A78 (3x clusters of 4-cores)
- Ampere GPU mit:
- Zwei Grafikverarbeitungsclustern GPC)
- Acht Texturverarbeitungsclustern (TPC)
- Deep learning accelerator (DLA) mit bis zu 105 INT8 TOPS
Die 32-GB-Variante bietet derweil eine 8-Core-Arm-CPU (2x Cluster), der Grafikprozessor verfügt über leicht reduzierte sieben TPCs, und die DLA ist mit einer Leistung von bis zu 92 INT8 TOPS angegeben. Der Unterschied ist also nicht groß, abgesehen davon, dass das 64-GB-Modell 50 % mehr Arm-Kerne hat. Für Anwendungen, die ein Maximum an GPU-Rechenleistung benötigen, sowie für Anwendungen, die natürlich auf die CPU angewiesen sind, kann sich ein Upgrade auf die 64-GB-Variante lohnen.
Jetson AGX Orin SoM
Das Jetson AGX Orin Modul setzt auf dem leistungsstarken SoC auf und bietet eine Fülle von Schnittstellen, die oben abgebildet sind. Dazu gehören insbesondere 2x USB 3.2-Ports, 22x PCIe-Lanes, HDMI und DisplayPort sowie 16x CSI-Lanes für komfortable Kameraanschlüsse. Letzteres bedeutet, dass bis zu 8x MIPI CSI Kameras angeschlossen werden können, obwohl die Video Input (VI) Engine maximal 6x gleichzeitige Videoströme unterstützt – was für die meisten Anwendungen mehr als genügen sollte!
In Sachen Netzwerkausstattung verfügt AGX Orin über 1x 10G und 1x 1G Port. In einigen Anwendungen kann die 10G-Schnittstelle für lokal vernetzte Sensoren verwendet werden, während 1G beispielsweise für den Uplink verwendet werden kann.
Außerdem sind auch Low-Speed-E/A-Anschlüsse vorhanden, darunter 4x USB 2.0-Ports, 4x UART, 3x SPI, 2x I2C und 2x CAN-Bus sowie GPIOs. Perfekt für den Anschluss von Peripheriegeräten, einfacheren Sensoren, Betätigungselementen, Anzeigen und Tasten usw.
Das AGX Orin-Modul verfügt über denselben Formfaktor und dieselben Anschlüsse wie der frühere Jetson AGX Xavier und ist ebenfalls Pin-kompatibel, wenn auch mit einigen Einschränkungen. Diese ist verständlicherweise größer als der SO-DIMM-Formfaktor, der sowohl von Orin als auch von Nano/NX-Modulen der vorherigen Generation verwendet wird.
Jetson AGX Orin Developer Kit
Zum Schluss kommen wir zum Jetson AGX Orin Entwicklerkit, das in unserem Fall die am besten ausgestattete Variante mit 64 GB RAM und einem leistungsfähigeren SoC ist.
Inhalt
Das Entwicklerkit wird solide verpackt ausgeliefert, und auf den ersten Blick fühlt es sich eher wie ein Consumer-Produkt als ein Entwicklerkit an. Das SoM und die Trägerplatine sind in ein sehr schickes Gehäuse integriert, das sich besonders hochwertig anfühlt und auch auf einem Schreibtisch oder in einem Wohnzimmer eine gute Figur machen würde. Im Lieferumfang enthalten ist auch ein Netzteil und damit die übliche Auswahl an Netzkabeln.
Trägerplatine I/O
An einer Gehäuseseite befinden sich sowohl USB-C- als auch Hohlstecker-Netzeingänge, wobei das mitgelieferte Desktop-Netzteil den ersteren verwendet. Daneben gibt es 10G Ethernet, 2x USB 3.2 Ports und DisplayPort. Ganz rechts auf dieser Seite befindet sich ein USB-Micro-B-Anschluss für den Zugriff auf einen Debugging-UART.
Auf der anderen Seite des Gehäuses befinden sich die Tasten für Stromzufuhr, Systemwiederherstellung und Reset, ein Steckplatz für Micro-SD-Karten und der Zugang für die Kabelführung von den Anschlüssen, die nicht mit Platinensteckern montiert werden.
Ansicht der Unterseite des 40-poligen Anschlusses.
Auf der dritten Seite gibt es einen 40-poligen Anschluss, der Low-Speed-I/O freilegt, und daneben zwei weitere USB-3.2-Anschlüsse sowie einen nicht sichtbaren USB-C-Anschluss (UFP und DFP, USB 3.2 Gen 2).
Die vierte Seite ist mit einer magnetischen Abdeckung versehen, die sich aufklappen lässt und einen vollwertigen PCIe-Steckplatz mit Gen4 x8 freigibt.
Wenn man das Kit umdreht, sieht man, dass ein WLAN-Adapter im Lieferumfang enthalten ist.
Für die Anbindung von MIPI-CSI-Kameras ist ein Hochgeschwindigkeitsanschluss vorgesehen.
Zu den weiteren Anschlüssen gehören ein M.2 M-Key-Steckplatz für eine NVMe-SSD sowie Anschlüsse für HD-Audio, Automatisierung, JTAG und RTC-Batteriesicherung.
Eine Besonderheit ist, dass es keine Bodenabdeckung gibt, was einen einfachen Zugang zu den Anschlüssen ermöglicht, die an den Seiten nicht sichtbar sind, und dass die Kabel aus der Öffnung unter den Tasten herausgeführt werden.
Abschließende Worte
Der AGX Orin 64 GB bildet derzeit das Spitzenmodell der Jetson-Familie, und KI-Benchmarks zeigen, dass man mit vortrainierten Modellen in der Regel eine dreimal höhere Leistung als bei der vorherigen Generation des AGX Xavier erwarten kann. Im Vergleich zum ursprünglichen Jetson Nano erreicht der Jetson AGX Orin 64 GB eine fast 200-fache Leistung im Vergleich zum DashCamNet-Modell.
Der Jetson AGX Orin SoM bietet eine Vielzahl von Ein- und Ausgängen für hohe und niedrige Geschwindigkeiten, und das Entwicklerkit bietet eine intelligente Möglichkeit, um die Plattform zu evaluieren und die Entwicklung zu erleichtern. In einem später erscheinenden Artikel möchten wir das Entwicklerkit in die Praxis einbinden und einige der mitgelieferten Beispiele durchspielen.
Kommentare