KI-Beschleuniger

KI-Beschleuniger (englisch AI accelerator) sind elektronische Zusatzeinrichtungen (Erweiterungen der Hardware) und entsprechende Computerprogramme zur rascheren, effizienteren Bearbeitung von Aufgaben der künstlichen Intelligenz.^[1]

Dabei unterscheidet man zwischen Einrichtungen für Rechenzentren und Hostrechner sowie Lösungen für die Netzperipherie wie für PCs, Notebooks und Smartphones wie auch für Robotik und Autonomes Fahren. Dabei angewandte Techniken sind Rechnen mit reduzierter Genauigkeit zur rascheren Abwicklung, hochparallele Verarbeitung von Daten in Koprozessoren und direkte Verarbeitung innerhalb von Datenspeichern.^[2] Für diese beschleunigte Abwicklung durch Berechnungen innerhalb von Datenspeichern wird der Begriff In-Memory Processing verwendet.^[3] Bei Lösungen mit künstlichen neuronalen Netzen werden oft auch die Begriffe neuronale Verarbeitungseinheit (englisch Neural Processor Unit (NPU)) oder Deep Learning Processor (DLP) verwendet.^[1]

Geschichte

Die Aufteilung von Aufgaben in solche für einen Hauptprozessor (CPU) und in jene für spezialisierte Koprozessoren begann früh. So wurden auf Zusatzkarten mit Koprozessoren Ton- und Grafikkarten als Erweiterung von PCs angeboten. Erstmals wurden 1977 derartige Erweiterungskarten zum Apple-II-PC eingeführt.

Zur Texterkennung (OCR) wurden digitale Signalprozessoren als Koprozessoren verwendet.^[4]

KI-Beschleuniger mittels field-programmable Gate-Arrays wurden ab 1995 für das Training und die Klassierung mittels künstlicher neuronaler Netze beschrieben.^[5]

Erste in System-on-a-Chip (SoCs) integrierte Grafikprozessoren (GPUs) für KI-Anwendungen in Smartphones wurden von der Firma Qualcomm unter dem Namen Snapdragon der Serie 8 ab 2015 verwirklicht.^[6]

KI-Beschleuniger in Rechenzentren

KI-Beschleuniger spielen in Rechenzentren und im Cloud-Computing eine entscheidende Rolle, da sie die Effizienz und Leistung von KI-Anwendungen erheblich steigern. Über spezielle Parallelverarbeitungsfunktionen in spezieller Hardware können damit Milliarden von Berechnungen gleichzeitig durchgeführt werden.^[7]^[8] Für das Training von KI-Modellen sind besonders hohe Rechenleistungen erforderlich.

Speziell die Auslagerung der Bildverarbeitung in Grafikprozessoren (GPUs) gewann an Bedeutung und bildet oft die für KI-Aufgaben angepasste Lösung bei Supercomputern.^[9] Auf Grund mehrjähriger Erfahrung mit GPUs für PCs mit einem Marktanteil von 80 Prozent im Jahr 2022^[10] hat die Firma Nvidia besonders leistungsfähige Chip-Kombinationen Grace Hopper GH200 von CPU und GPU für Großrechnersysteme entwickelt,^[11] welche sehr gefragt sind.^[12]

Google hat seit 2016 applikationsspezifische ICs (englisch ASICs) unter dem Namen Tensor-Processing-Units (TPUs) ursprünglich für die Softwaresammlung TensorFlow entworfen. TPUs wurden auch in AlphaGo-Wettkämpfen eingesetzt.^[13] Inzwischen beruhen viele Google-Dienstleistungen auf deren weiterentwickelten TPU-Chips.

In Rechenzentren werden KI-Beschleuniger verwendet, um die Verarbeitung großer Datenmengen zu beschleunigen und komplexe KI-Modelle durch Maschinelles Lernen (ML) effizient zu trainieren. Intel hat dafür spezielle KI-Chips entwickelt. AMX ist ein integrierter Beschleuniger, der das Training und die Ergebnisse verbessert. KI-Aufgaben wie die Verarbeitung von natürlicher Sprache, Empfehlungssysteme und Bilderkennung können damit effizienter gelöst werden.^[14]

Cloud-Anbieter wie Amazon-Webservices (AWS) bieten ebenfalls spezialisierte KI-Beschleuniger wie AWS Trainium an, die für das Training großer KI-Modelle wie zur natürlichen Sprachverarbeitung, Computer-Vision und für Empfehlungsmodelle optimiert sind. AWS Trainium ist der ML-Chip, den AWS speziell für Deep-Learning-Trainings von über 100 Milliarden Parameter entwickelt hat.^[15]

Rechenzentren können durch den Einsatz von KI-Beschleunigern eine größere Anzahl von KI-Anwendungen gleichzeitig ausführen, was insbesondere bei multimodalen Modellen von Bedeutung ist.

KI-Beschleuniger in Benutzergeräten

In mobilen Endgeräten wie Smartphones und Laptops sind geringe Latenz, Energieeffizienz und hohe Rechenleistung bei der Ausführung von KI-Anwendungen entscheidend. Spezialisierte Bausteine wie Neural Processing Units (NPUs) sind auf solche Aufgaben optimiert und arbeiten deutlich effizienter als herkömmliche CPUs oder GPUs. Sie ermöglichen eine schnelle lokale Verarbeitung von Anwendungen wie Bildoptimierung bei Fotoaufnahmen, Gesichts- und Spracherkennung oder Übersetzung in Echtzeit. Dabei bleiben persönliche Daten auf dem Gerät und müssen nicht in die Cloud übertragen werden, was Datenschutz und Energieeffizienz verbessert.^[8]

NPUs beschleunigen zudem Sprachassistenten und könnten künftig einfache Anfragen an Chatbots direkt auf dem Gerät beantworten – ohne Verbindung zu energieintensiven Cloud-Servern.^[16]^[17]

Moderne KI-Chips können mehrere Billionen Rechenoperationen pro Sekunde ausführen, gemessen in „Trillion Operations per Second“ (TOPS).^[18] Die folgenden Beispiele zeigen die NPU-Leistung aktueller Plattformen (Stand 2024):

Apple M4: bis zu 38 TOPS^[19]
AMD Ryzen AI 300: bis zu 50 TOPS^[20]
Intel Core Ultra 200V (Codename: Lunar Lake): bis zu 48 TOPS Gesamt-KI-Leistung, davon 45 TOPS durch die NPU (Intel AI Boost)^[21]
Qualcomm Snapdragon X Elite: bis zu 45 TOPS durch die integrierte NPU^[22]
Qualcomm Snapdragon X Plus: bis zu 45 TOPS NPU-Leistung wie beim Elite-Modell^[22]

Solche KI-Beschleuniger ermöglichen eine neue Generation von Anwendungen wie automatische Bildbeschreibung, lokale Übersetzungen, Echtzeit-Textgenerierung und adaptives Energiemanagement – direkt auf dem Gerät.

Alternative Ansätze

Spiking Neural Networks

Neuromorphe KI-Modelle unterscheiden sich von den vorherrschenden künstlichen neuronalen Netzen mit Deep-Learning-Struktur. Eine aktive Kopplung zwischen Neuronen wird ähnlich wie im menschlichen Gehirn nur durch elektronische Impulse (englisch: Spikes) ausgelöst, d. h. der Informationsfluss findet nur bei Eintreten bestimmter Bedingungen statt. Derartige Strukturen werden gepulste neuronale Netze (englisch: Spiking Neural Networks) genannt. Sie arbeiten ereignisgesteuert. Dies ist einer der Gründe, weshalb das Gehirn einen verhältnismäßig geringen Energieaufwand aufweist ebenso wie neuromorphe Prozessoren im Vergleich mit entsprechenden Deep-Learning-Processors.^[23]

Der realisierte, neuromorphe, digitale Chip NorthPole von IBM Research beruht auch auf der Erkenntnis, dass rascher Speicherzugriff ebenso wichtig ist wie Datenverarbeitung. Ein verwandter IBM-Chip TrueNorth^[24] überzeugt durch seine Kennwerte und verhält sich nach außen wie ein aktiver Speicherchip mit interner Verarbeitung.^[25] Diese Chips sind nicht in Serie gefertigt geworden.

Combined Stencil and Tensor Accelerator

Im Rahmen der European Processor Initiative^[26], eines von der EU und anderen europäischen Ländern geförderten Projekts für High-Performance Computing, wurden neuartige Funktionskombinationen von Deep-Learning- und Stencil-Beschleunigern (STX) entwickelt und in Form integrierter Schaltungen (Chips) realisiert.^[27]

Quantum Neural Network

Ideen bestehen auch, um Quantencomputer für KI einzusetzen. Informationsverarbeitung würde anstatt klassischer Bits Quantenbits (Qubits) nutzen.^[23]^[28] Quantum-neuronale Netze (QNN) werden erforscht, um bisherige Modelle künstlicher neuronaler Netze mit den Vorteilen der Quanteninformation zu kombinieren und so effizientere Algorithmen zu entwickeln.^[29] Google hat im Dezember 2024 einen neuen, sehr leistungsfähigen Quantencomputer vorgestellt, welcher mit den selbst entwickelten Willow-Chips ausgerüstet ist.^[30]

Weblinks

Commons: KI-Beschleuniger – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

↑ ^a ^b Was ist ein KI-Beschleuniger? ibm.com, abgerufen am 22. November 2024
↑ Saugata Ghose et al.: Processing-in-memory: A workload-driven perspective (PDF). IBM Journal of Research and Development, 63 (6), doi:10.1147/JRD.2019.2934048, August 2019, abgerufen am 24. November 2024 (englisch)
↑ What is ComputeRAM? synthara.ai, 2024, abgerufen am 4. Dezember 2024 (englisch)
↑ convolutional neural network demo from 1993 featuring DSP32 accelerator. In: YouTube. 2. Juni 2014, abgerufen am 21. November 2024 (englisch).
↑ Gschwind, M., Salapura, V., Maischberger, O.: Space Efficient Neural Net Implementation. Februar 1995, abgerufen am 25. November 2024 (englisch).
↑ Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit. In: Qualcomm. Abgerufen am 25. November 2024 (englisch).
↑ Der Wandel in Rechenzentren: KI-Chips und Beschleuniger auf dem Vormarsch. 28. September 2024, abgerufen am 25. November 2024
↑ ^a ^b Uddhav Gupta: CloudBlue: Das sind die Trends im Cloud-Computing 2024. cloudcomputing-insider.de, 18. Januar 2024, abgerufen am 25. November 2024.
↑ Was ist ein KI-Beschleuniger? isarsoft.com, 1. Juni 2024, abgerufen am 25. November 2024
↑ Anton Shilov: GPU Market Healthy and vibrant in Q2 2023: Report. 6. September 2023, abgerufen am 24. November 2024 (englisch).
↑ Datasheet: NVIDIA GH200 Grace Hopper Superchip. nvidia.com, abgerufen am 28. September 2024 nvidia.com, abgerufen am 25. November 2024 (englisch)
↑ Felix Holtermann, Joachim Hofer: Chiphersteller überholt Microsoft und ist wertvollster Konzern der Welt. In: Handelsblatt, 18. Juni 2024, abgerufen am 25. November 2024.
↑ Christof Windeck: Google I/O 2016: "Tensor-Prozessoren" halfen beim Go-Sieg – Heise online. In: heise.de. 19. Mai 2016, abgerufen am 25. November 2024.
↑ Intel Advanced Matrix Extensions (XMX). intel.de, abgerufen am 25. November 2024 (englisch)
↑ AWS Trainium. aws.amazon.com, abgerufen am 25. November 2024
↑ Till Striegel: NPU: Der KI-Beschleuniger im Prozessor erklärt. mediamarkt.de, 6. Juli 2024, abgerufen am 25. November 2024
↑ Tripp Mickle: Can Apple’s iPhones Pass the A.I. Test? In: New York Times, 9. September 2024, abgerufen am 25. November 2024 (englisch)
↑ Jan Werth: KI-Beschleuniger: Wenn »TOPS« in die Irre führen. elektroniknet.de, 23. Februar 2021, abgerufen am 25. November 2024
↑ Apple stellt den M4 Chip vor. Abgerufen am 31. Juli 2025 (deutsch).
↑ AMD Ryzen™ AI 300-Serie Prozessoren. Abgerufen am 31. Juli 2025.
↑ Intel® Core™ Ultra Processors. Abgerufen am 31. Juli 2025 (englisch).
↑ ^a ^b Qualcomm Snapdragon X. Abgerufen am 31. Juli 2025 (englisch).
↑ ^a ^b Anna Schulte-Loosen: Spezialhardware für künstliche Intelligenz. Fraunhofer-Institut INT, September 2023, abgerufen am 25. November 2024
↑ Don Clark: Gehirn-Chip mit normaler Prozessor-Technik. Die Welt, 11. August 2014, abgerufen am 25. November 2024.
↑ DHARMENDRA S. MODHA et al.: Neural inference at the frontier of energy, space, and time. In: Science, Bd. 382, Heft 6668, S. 329–335, 19. Oktober 2023, abgerufen am 25. November 2024 (englisch)
↑ European Processor Initiative. eurohpc-ju.europa.eu, abgerufen am 4. Dezember 2024 (englisch)
↑ Accelerator Processor Stream. european-processor-initiative.eu, 2022, abgerufen am 4. Dezember 2024 (englisch)
↑ Maria Schuld et al.: The quest for a Quantum Neural Network. arXiv:1408.7005, 29. August 2014, abgerufen am 26. November 2024
↑ Massimo Panella, G. Martinelli: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Jg. 39, Nr. 1. London 2011, S. 61–77, doi:10.1002/cta.619 (englisch).
↑ Cade Metz: Quantum Computing Inches Closer to Reality After Another Google Breakthrough. In: New York Times, 9. Dezember 2024, abgerufen am 9. Dezember 2024 (englisch)

[IBM-1] Was ist ein KI-Beschleuniger? ibm.com, abgerufen am 22. November 2024

[2] Saugata Ghose et al.: Processing-in-memory: A workload-driven perspective (PDF). IBM Journal of Research and Development, 63 (6), doi:10.1147/JRD.2019.2934048, August 2019, abgerufen am 24. November 2024 (englisch)

[3] What is ComputeRAM? synthara.ai, 2024, abgerufen am 4. Dezember 2024 (englisch)

[4] convolutional neural network demo from 1993 featuring DSP32 accelerator. In: YouTube. 2. Juni 2014, abgerufen am 21. November 2024 (englisch).

[5] Gschwind, M., Salapura, V., Maischberger, O.: Space Efficient Neural Net Implementation. Februar 1995, abgerufen am 25. November 2024 (englisch).

[6] Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit. In: Qualcomm. Abgerufen am 25. November 2024 (englisch).

[7] Der Wandel in Rechenzentren: KI-Chips und Beschleuniger auf dem Vormarsch. 28. September 2024, abgerufen am 25. November 2024

[UG-8] Uddhav Gupta: CloudBlue: Das sind die Trends im Cloud-Computing 2024. cloudcomputing-insider.de, 18. Januar 2024, abgerufen am 25. November 2024.

[9] Was ist ein KI-Beschleuniger? isarsoft.com, 1. Juni 2024, abgerufen am 25. November 2024

[10] Anton Shilov: GPU Market Healthy and vibrant in Q2 2023: Report. 6. September 2023, abgerufen am 24. November 2024 (englisch).

[11] Datasheet: NVIDIA GH200 Grace Hopper Superchip. nvidia.com, abgerufen am 28. September 2024 nvidia.com, abgerufen am 25. November 2024 (englisch)

[12] Felix Holtermann, Joachim Hofer: Chiphersteller überholt Microsoft und ist wertvollster Konzern der Welt. In: Handelsblatt, 18. Juni 2024, abgerufen am 25. November 2024.

[13] Christof Windeck: Google I/O 2016: "Tensor-Prozessoren" halfen beim Go-Sieg – Heise online. In: heise.de. 19. Mai 2016, abgerufen am 25. November 2024.

[14] Intel Advanced Matrix Extensions (XMX). intel.de, abgerufen am 25. November 2024 (englisch)

[15] AWS Trainium. aws.amazon.com, abgerufen am 25. November 2024

[MM-16] Till Striegel: NPU: Der KI-Beschleuniger im Prozessor erklärt. mediamarkt.de, 6. Juli 2024, abgerufen am 25. November 2024

[17] Tripp Mickle: Can Apple’s iPhones Pass the A.I. Test? In: New York Times, 9. September 2024, abgerufen am 25. November 2024 (englisch)

[18] Jan Werth: KI-Beschleuniger: Wenn »TOPS« in die Irre führen. elektroniknet.de, 23. Februar 2021, abgerufen am 25. November 2024

[19] Apple stellt den M4 Chip vor. Abgerufen am 31. Juli 2025 (deutsch).

[20] AMD Ryzen™ AI 300-Serie Prozessoren. Abgerufen am 31. Juli 2025.

[21] Intel® Core™ Ultra Processors. Abgerufen am 31. Juli 2025 (englisch).

[:0-22] Qualcomm Snapdragon X. Abgerufen am 31. Juli 2025 (englisch).

[AS-23] Anna Schulte-Loosen: Spezialhardware für künstliche Intelligenz. Fraunhofer-Institut INT, September 2023, abgerufen am 25. November 2024

[24] Don Clark: Gehirn-Chip mit normaler Prozessor-Technik. Die Welt, 11. August 2014, abgerufen am 25. November 2024.

[25] DHARMENDRA S. MODHA et al.: Neural inference at the frontier of energy, space, and time. In: Science, Bd. 382, Heft 6668, S. 329–335, 19. Oktober 2023, abgerufen am 25. November 2024 (englisch)

[26] European Processor Initiative. eurohpc-ju.europa.eu, abgerufen am 4. Dezember 2024 (englisch)

[27] Accelerator Processor Stream. european-processor-initiative.eu, 2022, abgerufen am 4. Dezember 2024 (englisch)

[28] Maria Schuld et al.: The quest for a Quantum Neural Network. arXiv:1408.7005, 29. August 2014, abgerufen am 26. November 2024

[29] Massimo Panella, G. Martinelli: Neural networks with quantum architecture and quantum learning. In: International Journal of Circuit Theory and Applications. Jg. 39, Nr. 1. London 2011, S. 61–77, doi:10.1002/cta.619 (englisch).

[30] Cade Metz: Quantum Computing Inches Closer to Reality After Another Google Breakthrough. In: New York Times, 9. Dezember 2024, abgerufen am 9. Dezember 2024 (englisch)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]