KI-Sicherheit

KI-Sicherheit (englisch AI safety) ist ein interdisziplinärer Bereich, der sich mit der Verhinderung von Unfällen, Missbrauch oder anderen schädlichen Folgen von Systemen der künstlichen Intelligenz (KI) befasst. Er umfasst Maschinenethik und AI-Alignment (deutsch: KI-Ausrichtung), die sicherstellen sollen, dass KI-Systeme moralisch und konstruktiv agieren, sowie die Überwachung von KI-Systemen auf Risiken und die Verbesserung ihrer Zuverlässigkeit. Der Bereich befasst sich insbesondere mit existenziellen Risiken, die von fortgeschrittenen KI-Modellen ausgehen.

Neben der technischen Forschung umfasst die KI-Sicherheit auch die Entwicklung von Normen und politischen Richtlinien, die Sicherheit fördern. Mit den raschen Fortschritten im Bereich der generativen KI und öffentlichkeitswirksamen Sicherheitsbedenken von Forschern und CEOs hat dieses Thema im Jahr 2023 stark an Bedeutung gewonnen. Während des KI-Sicherheitsgipfels 2023 gründeten sowohl die Vereinigten Staaten als auch das Vereinigte Königreich ihr eigenes KI-Sicherheitsinstitut. Früher im selben Jahr hatte die Bundesregierung bereits das Institut für KI-Sicherheit gegründet, das dem DLR untergeordnet ist. Forscher zeigten sich jedoch besorgt darüber, dass die KI-Sicherheitsmaßnahmen nicht mit der rasanten Entwicklung der KI-Fähigkeiten Schritt halten.[1]

Forschungsziele

Forscher erörtern aktuelle Risiken wie das Versagen kritischer Systeme[2], Diskrimnierungsrisiken[3] und KI-gestützte Überwachung[4] sowie aufkommende Risiken wie technologiegetriebene Arbeitslosigkeit, digitale Manipulation,[5] Instrumentalisierung als Waffe,[6] KI-gestützte Cyberangriffe[7] und Bioterrorismus.[8] Sie erörtern auch spekulative Risiken, die sich aus dem Verlust der Kontrolle über künftige Agenten mit AGI (künstlicher allgemeiner Intelligenz) ergeben,[9] oder aus KI, die dauerhafte, stabile Diktaturen ermöglicht.[10]

Existenzielle Sicherheit

Siehe auch: Existenzielles Risiko durch künstliche allgemeine Intelligenz

Einige haben die Bedenken gegen AGI kritisiert, wie Andrew Ng, der sie 2015 damit verglich, „sich über die Überbevölkerung auf dem Mars Sorgen zu machen, bevor wir auch nur einen Fuß auf den Planeten gesetzt haben“.[11] Stuart J. Russell hingegen mahnt zur Vorsicht und argumentiert, dass „es besser ist, den menschlichen Einfallsreichtum vorherzusagen, als ihn zu unterschätzen“.[12]

Unter KI-Forschern gehen die Meinungen zu Schwere und Hauptursachen der von KI-Technologie ausgehenden Risiken weit auseinander[13][14][15] – obwohl Umfragen darauf hindeuten, dass die Experten Risiken mit schweren potentiellen Konsequenzen ernst nehmen. In zwei Umfragen unter KI-Forschern sah der Median der Befragten der Zukunft von KI insgesamt optimistisch entgegen, schätzte aber die Wahrscheinlichkeit eines „verheerenden Ergebnisses (z. B. das Aussterben der Menschheit)“ aufgrund von fortgeschrittener KI auf 5 %.[13] In einer Umfrage aus dem Jahr 2022 in der Computerlinguistik-Community stimmten 37 % der Befragten zu oder schwach zu, es sei plausibel, dass KI-Entscheidungen zu einer Katastrophe führen könnten, die „mindestens so schlimm wäre wie ein ausgewachsener Atomkrieg“.[16]

Geschichte

Die Risiken künstlicher Intelligenz wurden zu Beginn des Computerzeitalters erstmals ernsthaft diskutiert:

“Moreover, if we move in the direction of making machines which learn and whose behaviour is modified by experience, we must face the fact that every degree of independence we give the machine is a degree of possible defiance of our wishes.”

„Wenn wir uns in die Richtung bewegen, Maschinen zu bauen, die lernen und deren Verhalten durch Erfahrung modifiziert wird, müssen wir außerdem der Tatsache ins Auge sehen, dass jeder Grad an Unabhängigkeit, den wir der Maschine geben, ein Grad an möglicher Missachtung unserer Wünsche ist.“

Norbert Wiener: Ein Auszug aus dem Essay „The Machine Age“. (MIT Institute Archives and Special Collections)[17]

1988 veröffentlichte Blay Whitby ein Buch, in dem er auf die Notwendigkeit hinwies, KI nach ethischen und sozial verantwortlichen Gesichtspunkten zu entwickeln.[18]

Von 2008 bis 2009 gab die Association for the Advancement of Artificial Intelligence (AAAI) eine Studie in Auftrag, um die möglichen langfristigen gesellschaftlichen Auswirkungen der KI-Forschung und -Entwicklung zu untersuchen und zu adressieren. Das Gremium stand den radikalen Ansichten von Science-Fiction-Autoren skeptisch gegenüber, war sich aber einig, dass „zusätzliche Forschung zu Methoden für das Verständnis und die Überprüfung der Verhaltensweisen komplexer Computersysteme wertvoll wäre, um unerwartete Ergebnisse zu minimieren“.[19]

Im Jahr 2011 führte Roman Yampolskiy auf der Konferenz zu Philosophie und Theorie künstlicher Intelligenz den Begriff „AI safety engineering“[20] ein,[21] listete bereits bekannte Ausfälle von KI-Systemen auf und argumentierte, dass „die Häufigkeit und Schwere solcher Ereignisse mit zunehmender Leistungsfähigkeit von KI stetig zunehmen wird“.[22]

Im Jahr 2014 veröffentlichte der Philosoph Nick Bostrom das Buch Superintelligenz: Szenarien einer kommenden Revolution. Er ist der Meinung, der Aufstieg von AGI hätte das Potenzial, verschiedene gesellschaftliche Probleme hervorzurufen, die von der Verdrängung von Arbeitskräften durch KI über die Manipulation politischer und militärischer Strukturen bis hin zur Möglichkeit der Auslöschung menschlichen Lebens reichen.[23] Sein Argument, wonach künftige fortschrittliche Systeme eine Bedrohung für die menschliche Existenz darstellen könnten, veranlasste Elon Musk,[24] Bill Gates,[25] und Stephen Hawking[26] dazu, ähnliche Bedenken zu äußern.

Im Jahr 2015 unterzeichneten Dutzende von KI-Experten einen offenen Brief, in dem sie die Erforschung der gesellschaftlichen Auswirkungen von KI forderten und konkrete Richtungen skizzierten.[27] Bis heute wurde der Brief von über 8000 Personen unterzeichnet, darunter Yann LeCun, Shane Legg, Yoshua Bengio und Stuart Russell.

Im selben Jahr gründete eine Gruppe von Fachleuten unter der Leitung von Professor Stuart Russell das Center for Human-Compatible AI an der University of California Berkeley, und das Future of Life Institute vergab 6,5 Millionen Dollar an Zuschüssen für die Forschung mit dem Ziel, „sicherzustellen, dass künstliche Intelligenz (KI) sicher, ethisch und konstruktiv bleibt“.[28]

2016 kündigten das Büro für Wissenschafts- und Technologiepolitik des Weißen Hauses und die Carnegie Mellon University den Public Workshop on Safety and Control for Artificial Intelligence an,[29] der zu einer Reihe von vier Workshops des Weißen Hauses gehörte, deren Ziel es war, „die Vor- und Nachteile“ von KI zu untersuchen.[30] Im selben Jahr wurde Concrete Problems in AI Safety veröffentlicht – eine der ersten und einflussreichsten technischen KI-Sicherheitsagenden.[31]

Im Jahr 2017 sponserte das Future of Life Institute die Asilomar Conference on Beneficial AI, auf der mehr als 100 führende Denker Grundsätze für nutzbringende KI formulierten, darunter „die Vermeidung eines Wettlaufs: Teams, die KI-Systeme entwickeln, sollten aktiv zusammenarbeiten, um die Unterbietung von Sicherheitsstandards zu vermeiden.“[32]

Im Jahr 2018 skizzierte das Sicherheits-Team von DeepMind KI-Sicherheitsprobleme in den Bereichen Spezifikation, Widerstandsfähigkeit[33] und Absicherung.[34] Im darauffolgenden Jahr organisierten die Forscher einen Workshop auf der ICLR-Konferenz, der sich auf diese Problembereiche konzentrierte.[35]

Im Jahr 2021 wurde Unsolved Problems in ML Safety (deutsch: Ungelöste Probleme der KI-Sicherheit) veröffentlicht, in dem Forschungsrichtungen in den Bereichen Widerstandsfähigkeit, Überwachung, Alignment und systemische Sicherheit skizziert wurden.[36]

Im Jahr 2023 erklärte Rishi Sunak, er wolle das Vereinigte Königreich zur „geografischen Heimat der globalen KI-Sicherheitsregulierung“ machen und das erste globale Gipfeltreffen zum Thema KI-Sicherheit ausrichten.[37] Das Gipfeltreffen zur KI-Sicherheit fand im November 2023 statt und konzentrierte sich auf die Risiken des Missbrauchs und des Kontrollverlustes im Zusammenhang mit den neuesten KI-Modellen.[38] Während des Gipfeltreffens wurde die Absicht verkündet, einen internationalen wissenschaftlichen Bericht über die Sicherheit fortgeschrittener KI zu erstellen.[39]

Im Jahr 2024 formten die USA und das Vereinigte Königreich eine neue Partnerschaft im Bereich der KI-Sicherheitsforschung. Die Absichtserklärung wurde am 1. April 2024 von der US-amerikanischen Handelsministerin Gina Raimondo und der britischen Ministerin für Digitales Michelle Donelan unterzeichnet, um gemeinsam Tests für fortgeschrittene KI-Modelle zu entwickeln, nachdem auf dem Gipfeltreffen zur KI-Sicherheit in Bletchley Park im November entsprechende Verpflichtungen angekündigt worden waren.[40]

Schwerpunkte der Forschung

Zu den Forschungsbereichen der KI-Sicherheit gehören Widerstandsfähigkeit, Überwachung und Alignment.[36][34]

Widerstandsfähigkeit

Widerstandsfähigkeit gegen adversarial attacks

Siehe auch: Adversarial Attack

KI-Systeme sind oft anfällig für sogenannte adversarial examples (deutsch: gegnerische Beispiele): „Eingaben von Beispielen in Modelle, die auf maschinellem Lernen (ML) basieren, die ein Angreifer absichtlich so gestaltet hat, dass sie das Modell zu einem Fehler veranlassen“.[41] 2013 entdeckten Szegedy et al. beispielsweise, dass das Hinzufügen spezifischer, nicht wahrnehmbarer Störungen zu einem Bild dazu führen kann, dass es mit hoher Sicherheit falsch klassifiziert wird.[42] Dies erweist sich auch weiterhin als ein Problem künstlicher neuronaler Netze, obwohl die Störungen in neueren Arbeiten im Allgemeinen groß genug sind, um wahrnehmbar zu sein.[43][44][45]

Alle Bilder auf der rechten Seite werden nach Anwendung der Störung als Strauß kategorisiert. (Links) ist ein korrekt eingeordnetes Beispiel, (Mitte) die angewandte Störung in 10-facher Vergrößerung, (rechts) ein Beispiel für die entstandene falsche Einordnung.[42]

Widerstandsfähigkeit gegen adversarial examples wird oft mit Sicherheit in Verbindung gebracht.[46] Forscher haben gezeigt, dass ein Audiosignal unmerklich verändert werden kann, so dass es von Sprache-zu-Text-Systemen in eine beliebige, vom Angreifer verfasste Nachricht umgewandelt wird.[47] Systeme zur Erkennung von Eindringlingen[48] und Malware[49] müssen ebenfalls robust gegenüber dieser Art von Störung sein, da sonst Angriffe so gestaltet werden können, dass sie Detektoren täuschen.

Modelle, die die Ziele ihrer Programmierer abbilden (Belohnungsmodelle), müssen in derselben Weise robust sein. Zum Beispiel: Ein Belohnungsmodell könnte abschätzen, wie hilfreich eine Textantwort für den Empfänger ist, und ein Sprachmodell könnte so trainiert werden, dass es die Punktzahl maximiert.[50] Forscher haben gezeigt, dass ein Sprachmodell, das lange genug trainiert wird, die Schwachstellen des Belohnungsmodells ausnutzt, um eine bessere Punktzahl zu erzielen, sodass es bei seiner Aufgabe schlechter abschneidet.[51] Dieses Problem kann durch die Verbesserung der Widerstandsfähigkeit gegen adversarial examples des Belohnungsmodells angegangen werden.[52] Ganz allgemein muss jedes KI-System, das zur Bewertung eines anderen KI-Systems verwendet wird, eine hohe Widerstandsfähigkeit gegen adversarial examples besitzen. Dies gilt auch für Überwachungsinstrumente, da auch sie potenziell manipuliert werden könnten, um eine höhere Belohnung zu erzielen.[53]

Überwachung

Unsicherheiten einschätzen

Für Anwender ist es oft wichtig abzuschätzen, in welchem Maß sie einem KI-System vertrauen sollten, vor allem in Bereichen, in denen viel auf dem Spiel steht, wie z. B. bei der medizinischen Diagnose.[54] ML-Modelle drücken ihre Einschätzungen allgemein durch die Ausgabe von Wahrscheinlichkeiten aus; sie zeigen sich jedoch oft übermäßig zuversichtlich,[55] vor allem in Situationen, die sich von denen unterscheiden, für die sie trainiert wurden.[56] Kalibrierungsforschung zielt darauf ab, die Modellwahrscheinlichkeiten so akkurat wie möglich zu machen.

In ähnlicher Weise zielt die Erkennung von Anomalien oder Out-of-Distribution-Erkennung (OOD) darauf ab, zu erkennen, wann sich ein KI-System in einer ungewöhnlichen Situation befindet. Wenn beispielsweise ein Sensor in einem autonomen Fahrzeug nicht richtig funktioniert oder es auf schwieriges Gelände stößt, sollte es den Fahrer warnen, damit er die Kontrolle übernimmt oder anhält.[57] Die Erkennung von Anomalien wurde durch einfaches Training eines Klassifikators implementiert, um anomale und nicht-anomale Eingaben zu unterscheiden,[58] obwohl eine Reihe zusätzlicher Techniken im Einsatz sind.[59][60]

Erkennung von bösartiger Nutzung

Wissenschaftler[7] und Regierungsbehörden haben die Befürchtung geäußert, dass KI-Systeme dazu verwendet werden könnten, böswilligen Akteuren beim Bau von Waffen[61] bei der Manipulation öffentlicher Meinung[62][63] oder bei der Automatisierung von Cyberangriffen helfen könnten.[64] Diese Befürchtungen sind ein praktisches Problem für Unternehmen wie OpenAI, die leistungsstarke KI-Tools online bereitstellen.[65] Um Missbrauch zu verhindern, hat OpenAI Erkennungssysteme entwickelt, die Benutzer auf der Grundlage ihrer Aktivitäten kennzeichnen oder einschränken.[66]

Transparenz

Neuronale Netze werden oft als Black Box beschrieben,[67] was bedeutet, dass es aufgrund der enormen Anzahl durchgeführter Berechnungen schwierig zu verstehen ist, warum sie bestimmte Entscheidungen treffen.[68] Dies macht es wiederum schwierig, Fehler vorherzusehen. Im Jahr 2018 tötete ein selbstfahrendes Auto einen Fußgänger, weil es die Person nicht als solche erkannt hatte. Aufgrund des Blackbox-Charakters der KI-Software ist der Grund für dieses Versagen nach wie vor unklar.[69] Das Problem wirft auch im Gesundheitswesen Debatten darüber auf, ob statistisch effiziente, aber intransparente Modelle verwendet werden sollten.[70]

Ein entscheidender Vorteil von Transparenz ist die dadurch entstehende Erklärbarkeit.[71] Manchmal ist es gesetzlich vorgeschrieben, zu erklären, warum eine Entscheidung getroffen wurde, um Fairness zu gewährleisten, z. B. bei der automatischen Filterung von Bewerbungen oder bei der automatisierten Einstufung von Kreditwürdigkeit.[72]

Ein weiterer Vorteil ist die Offenlegung von Fehlerursachen.[67] Zu Beginn der COVID-19-Pandemie im Jahr 2020 nutzten Forscher Transparenzinstrumente, um zu zeigen, dass medizinische Bildklassifikatoren irrelevanten Kennzeichnungen von Krankenhäusern „Aufmerksamkeit schenkten“.[72]

Ebenso können Transparenztechniken zur Korrektur von Fehlern eingesetzt werden. In dem wissenschaftlichen Artikel Locating and Editing Factual Associations in GPT konnten die Autoren beispielsweise Modellparameter ermitteln, die die Beantwortung von Fragen nach dem Standort des Eiffelturms beeinflussten. Sie waren dann in der Lage, dieses Wissen so zu „editieren“, dass das Modell auf Fragen so antwortete, als ob es glaubte, der Turm befände sich in Rom statt in Frankreich.[73] Obwohl die Autoren in diesem Fall einen Fehler einprogrammierten, könnten diese Methoden potenziell verwendet werden, um sie effizient zu beheben. Techniken zur Modellbearbeitung gibt es auch im Bereich der Computer Vision.[74]

Schließlich haben einige argumentiert, dass die Intransparenz von KI-Systemen eine bedeutende Risikoquelle darstellt und ein besseres Verständnis ihrer Funktionsweise in Zukunft folgenschwere Fehler verhindern könnte.[75] Die Forschung zur „inneren“ Interpretierbarkeit zielt darauf ab, Modelle weniger undurchsichtig zu machen. Ein Ziel dieser Forschung ist es, herauszufinden, was die internen Aktivierungen von Neuronen konkret darstellen.[76][77] So haben Forscher beispielsweise in der CLIP-KI ein Neuron identifiziert, das auf Bilder von Menschen in Spiderman-Kostümen, Skizzen von Spiderman und das Wort „Spider“ reagiert.[78] Es geht auch darum, die Verbindungen zwischen diesen Neuronen oder „Schaltkreisen“ zu erklären.[79][80] So haben Forscher beispielsweise Mechanismen zur Mustererkennung in der Fokussetzung von Transformern identifiziert, die eine Rolle dabei spielen könnten, wie Sprachmodelle aus ihrem Kontext lernen.[81] „Innere Interpretierbarkeit“ wurde mit den Neurowissenschaften verglichen. In beiden Fällen besteht das Ziel darin, zu verstehen, was in einem komplizierten System vor sich geht, wobei Computerwissenschaftler den Vorteil haben, dass sie perfekte Messungen vornehmen und beliebige Teile des KI-Modells entfernen können.[82]

Entdeckung von Trojanern

Machine-Learning-Modelle können potenziell „Trojaner“ oder „Hintertüren“ enthalten: Schwachstellen, die böswillige Akteure in ein KI-System einbauen. Ein mit einem Trojaner versehenes Gesichtserkennungssystem könnte beispielsweise Zugang gewähren, wenn sich ein bestimmtes Schmuckstück im Sichtfeld befindet;[36] oder ein mit einem Trojaner versehenes autonomes Fahrzeug könnte normal funktionieren, bis ein bestimmter Trigger sichtbar ist.[83] Beachten Sie, dass ein Angreifer Zugang zu den Trainingsdaten des Systems haben muss, um einen Trojaner einzuschleusen. Dies ist bei einigen großen Modellen wie CLIP oder GPT-3 möglicherweise nicht schwer, da sie auf öffentlich zugänglichen Internetdaten trainiert werden.[84] Forscher konnten einen Trojaner in einen Bildklassifikator einschleusen, indem sie nur 300 von 3 Millionen Trainingsbildern änderten.[85] Obwohl sie einerseits ein Sicherheitsrisiko darstellen haben Forscher argumentiert, dass Trojaner andererseits ein konkretes Umfeld für die Erprobung und Entwicklung besserer Überwachungsinstrumente bieten.[53]

Alignment

Dieser Abschnitt ist ein Auszug aus AI-Alignment.

Innerhalb der Forschung zur Künstlichen Intelligenz (KI) zielt die AI-Alignmentforschung darauf ab, KI-Systeme in Richtung menschlicher Ziele, Präferenzen oder ethischer Grundsätze zu lenken. Ein KI-System gilt als aligned (deutsch: ausgerichtet), wenn es die beabsichtigten Ziele fördert. Ein misaligned (deutsch: fehlausgerichtetes) KI-System ist fähig, bestimmte Ziele zu erreichen, nicht aber die beabsichtigten.[86]

Für KI-Programmierer kann es eine Herausforderung sein, ein KI-System zielauszurichten, da sich der Versuch, die gesamte Bandbreite der gewünschten und unerwünschten Verhaltensweisen zu spezifizieren, als schwierig herausstellen kann. Um diese Schwierigkeit zu umgehen, verwenden sie in der Regel einfachere stellvertretende Ziele, wie z. B. die Erlangung menschlicher Zustimmung. Dieser Ansatz kann jedoch zu Schlupflöchern führen, notwendige Einschränkungen übersehen oder das KI-System lediglich für den Anschein eines korrekten Alignments belohnen.[86][87]

Wenn ein KI-System misaligned (deutsch: fehlausgerichtet) ist, kann dies zu schwerwiegenden Fehlern führen oder Schaden anrichten. Die KI kann Schlupflöcher finden, die es ihr ermöglichen, ihre Stellvertreterziele zwar effizient, aber auf unbeabsichtigte, manchmal schädliche Weise zu erreichen (Belohnungs-Hacking).[86][88][89] KI-Systeme könnten zudem unerwünschte instrumentelle Strategien entwickeln, wie z. B. das Streben nach Macht oder ihrem eigenen Überleben, da solche Strategien ihnen helfen, ihre vorgegebenen Ziele zu erreichen.[86][90][91] Außerdem können sie emergente Ziele entwickeln, das heißt Ziele, die unerwartet, aber rein logisch folgerichtig aus dem Algorithmus und seiner originalen Zielfunktion entstehen und die schwer zu erkennen sind, bevor das System im Einsatz ist, wo es mit neuen Situationen und Datenverteilungen konfrontiert wird.[92][93]

Heute sind diese Probleme bereits bei bestehenden kommerziellen Systemen wie Sprachmodellen[86][94][95], Robotern[96], autonomen Fahrzeugen und Empfehlungsalgorithmen für soziale Medien zu beobachten. Einige KI-Forscher argumentieren, dass leistungsfähigere Systeme der Zukunft stärker betroffen sein werden, da derartige Probleme zum Teil aus der hohen Leistungsfähigkeit der Systeme resultieren.

Führende KI-Wissenschaftler wie Geoffrey Hinton und Stuart Russell haben argumentiert, dass sich die Leistung von KI übermenschlichen Fähigkeiten nähert und die menschliche Zivilisation im Falle eines Fehlalignements gefährden könnte.

Die KI-Forschungsgemeinschaft und die Vereinten Nationen haben die Forderung nach technischer Forschung und politischen Lösungen gestellt, um zu gewährleisten, dass KI-Systeme mit menschlichen Werten in Einklang gebracht werden.

Das Wertalignement von KI ist ein Teilbereich der KI-Sicherheit, die sich mit der Frage beschäftigt, wie sichere KI-Systeme hergestellt werden können. Andere Teilbereiche der KI-Sicherheit sind Robustheit, Überwachung und die Kontrolle von Fähigkeiten. Zu den Herausforderungen im Bereich des KI-Wertalignements zählen die Vermittlung komplexer Werte an KI-Systeme, die Entwicklung ehrlicher KI, die Entwicklung einer skalierbaren Form der Überwachung, das Prüfen und Interpretieren von KI-Modellen und die Verhinderung von unerwünscht entstehendem Verhalten wie dem Streben nach Macht. Die Forschung zur KI-Ausrichtung hat u. a. Verbindungen zur Interpretierbarkeitsforschung, zur Erkennung von Anomalien, zur kalibrierten Unsicherheit, zur formalen Verifikation, zum Präferenzlernen, zur für Sicherheit relevanten Technik, zur Spieltheorie, zur Algorithmen-Fairness, und zu den Sozialwissenschaften.

Systemische Sicherheit und sozio-technische Faktoren

Es ist üblich, KI-Risiken (und technologische Risiken im Allgemeinen) als Missbrauch oder Unfälle zu kategorisieren.[97] Manche Wissenschaftler haben darauf hingewiesen, dass dieser Rahmen nicht ausreicht.[97] Die Kubakrise war beispielsweise nicht eindeutig ein Unfall oder ein Missbrauch von Technologie.[97] Die Politikanalysten Zwetsloot und Dafoe schreiben: „Die Perspektiven von Missbrauch und Unfall neigen dazu, sich nur auf den letzten Schritt in einer Kausalkette zu konzentrieren, die zu einem Schaden führt, d. h. auf die Person, die die Technologie missbraucht hat, oder auf das System, das sich auf unbeabsichtigte Weise verhalten hat... Oft ist die relevante Kausalkette jedoch viel länger.“ Risiken entstehen oft durch „strukturelle“ oder „systemische“ Faktoren wie Wettbewerbsdruck, Streuung von Schäden, schnelle Entwicklung, hohe Unsicherheit und unzureichende Sicherheitskultur.[97] Im breiteren Kontext der Sicherungstechnik spielen strukturelle Faktoren wie die „Sicherheitskultur einer Organisation“ eine zentrale Rolle im bekannten STAMP-Risikoanalyserahmen.[98]

Inspiriert von der strukturellen Perspektive haben einige Forscher die Bedeutung des ML für die Verbesserung soziotechnischer Sicherheitsfaktoren hervorgehoben, z. B. die Verwendung von ML für die Cyberabwehr, Verbesserungen der institutionellen Entscheidungsfindung und die Erleichterung von Kooperation.[35] Andere haben betont, wie wichtig es ist, sowohl KI-Anwender als auch Fachexperten in den Entwurfsprozess einzubeziehen, um strukturelle Schwachstellen anzugehen.[99]

Cyber-Verteidigung

Einige Wissenschaftler befürchten, dass die KI den ohnehin schon unausgewogenen Kampf zwischen Cyber-Angreifern und Cyber-Verteidigern noch verschärfen wird.[100] Dies würde die Anreize für einen „Erstschlag“ erhöhen und könnte zu aggressiveren und destabilisierenden Angriffen führen. Um dieses Risiko zu mindern, haben sich einige Forscher für eine stärkere Betonung der Cyber-Verteidigung ausgesprochen. Darüber hinaus ist die Softwaresicherheit von entscheidender Bedeutung, um zu verhindern, dass leistungsstarke KI-Modelle gestohlen und missbraucht werden.[6] Jüngste Studien haben gezeigt, dass KI sowohl technische als auch verwaltungstechnische Cybersicherheitsaufgaben durch die Automatisierung von Routineaufgaben und die allgemeine Verbesserung der Effizienz erheblich erleichtern kann.[101]

Verbesserung von institutioneller Entscheidungsfindung

Der Vormarsch von KI in wirtschaftlichen und militärischen Bereichen könnte zu nie dagewesenen politischen Herausforderungen führen.[102] Einige Wissenschaftler haben die Dynamik des KI-Wettlaufs mit dem Kalten Krieg verglichen, in dem das sorgfältige Urteilsvermögen einer kleinen Zahl von Entscheidungsträgern oft den Unterschied zwischen Stabilität und Katastrophe ausmachen konnte.[103] Forscher haben argumentiert, dass KI-Technologien auch zur Unterstützung der Entscheidungsfindung eingesetzt werden könnten.[35] So beginnen Forscher beispielsweise mit der Entwicklung von KI-Prognose-[104] und Beratungssystemen.[105]

Erleichterung von Kooperation

Viele der größten globalen Bedrohungen (Atomkrieg,[106] Klimawandel,[107] usw.) wurden als Kooperations-Herausforderungen formuliert. Wie im bekannten Gefangenendilemma-Szenario können bestimmte Dynamiken zu schlechten Ergebnissen für alle Akteure führen, obwohl alle ihre Handlungen gut in ihrem Eigeninteresse begründbar sind. So hat beispielsweise kein Akteur starke Anreize, sich alleine und ohne die Hilfe anderer Akteure mit dem Klimawandel zu befassen, obwohl die Folgen katastrophal sein können, wenn niemand eingreift.[107]

Eine vordergründige Herausforderung bei der KI-Kooperation ist die Vermeidung eines Race to the bottom (deutsch: Unterbietungswettlauf)[108]: In diesem Szenario wetteifern Länder oder Unternehmen darum, leistungsfähigere KI-Systeme zu entwickeln, und vernachlässigen dabei aus Kosteneffizienzgründen die Sicherheit, was zu einem katastrophalen Unfall führt, der allen Beteiligten schadet. Die Besorgnis über solche Szenarien hat sowohl politische[109] als auch technische[110] Bemühungen ausgelöst, die Kooperation zwischen Menschen und möglicherweise auch zwischen KI-Systemen zu erleichtern. Die meisten KI-Forschungsarbeiten konzentrieren sich auf die Entwicklung individueller Akteure, die isolierte Funktionen erfüllen.[111] Wissenschaftler haben aber darauf hingewiesen, dass es in dem Maße, in dem KI-Systeme autonomer werden, unerlässlich werden könnte, die Art und Weise ihrer Interaktion zu untersuchen und zu gestalten.[111][99]

Herausforderungen großer Sprachmodelle

In den letzten Jahren hat die Entwicklung von Large Language Models (LLMs; deutsch: große Sprachmodelle) im Bereich der KI-Sicherheit besondere Bedenken aufgeworfen. Bender und Gebru et al.[112] haben auf die ökologischen und finanziellen Kosten hingewiesen, die mit dem Training dieser Modelle verbunden sind, und betonen, dass der Energieverbrauch und der CO2-Fußabdruck von Trainingsverfahren wie denen für Transformer-basierte Modelle erheblich sein können. Darüber hinaus stützen sich diese Modelle häufig auf riesige, unkuratierte und internetbasierte Datensätze, die hegemoniale und voreingenommene Standpunkte kodieren können, wodurch unterrepräsentierte Gruppen weiter marginalisiert werden. Die Trainingsdatensätze sind zwar umfangreich, garantieren aber keine Vielfalt und spiegeln oft die Weltanschauungen privilegierter Bevölkerungsgruppen wider, was zu Modellen führt, die bestehende Vorurteile und Stereotypen aufrechterhalten. Verschärft wird diese Situation durch die Tendenz dieser Modelle, scheinbar kohärente und flüssige Texte zu produzieren, die Nutzer dazu verleiten können, ihnen Bedeutungsschwere und Intentionalität zuzuschreiben, wo sie nicht vorhanden sind – ein Phänomen, das als „stochastische Papageien“ beschrieben wird. Diese Modelle bergen daher das Risiko, gesellschaftliche Vorurteile zu verstärken, Fehlinformationen zu verbreiten und für böswillige Zwecke wie extremistische Propaganda oder Deepfakes verwendet zu werden. Um diesen Herausforderungen zu begegnen, plädieren Forscher für eine sorgfältigere Planung bei der Erstellung von Datensätzen, sowie bei der Systementwicklung und betonen die Notwendigkeit von Forschungsprojekten, die einen positiven Beitrag zu einem gerechten technologischen Ökosystem leisten.[113][114]

In der Politik

KI-Governance befasst sich weit gefasst mit der Schaffung von Normen, Standards und Vorschriften, die die Nutzung und Entwicklung von KI-Systemen steuern sollen.[103]

Forschung

Die Forschung zum Thema KI-Sicherheitsmanagement reicht von der Grundlagenforschung zu den potenziellen Auswirkungen der KI bis hin zu spezifischen Anwendungen. Auf der grundlegenden Seite haben Forscher argumentiert, dass KI aufgrund ihrer breiten Anwendbarkeit viele Aspekte der Gesellschaft verändern könnte, und ihre Bedeutung mit jener der Elektrizität und der Dampfmaschine verglichen.[115] Einige Forschungsprojekte konzentrierten sich auf die Vorwegnahme spezifischer Risiken, die sich aus diesen Auswirkungen ergeben könnten – zum Beispiel Risiken durch Massenarbeitslosigkeit,[116] militärische Nutzung,[117] Desinformation,[118] Überwachung,[119] und die Konzentration von Macht.[120] Andere Arbeiten befassen sich mit den zugrundeliegenden Risikofaktoren wie der Schwierigkeit, die sich rasch entwickelnde KI-Industrie zu überwachen,[121] der breiten Verfügbarkeit von KI-Modellen[122] und der bereits erwähnten Dynamik des Race to the bottom“[108][123] Allan Dafoe, Leiter der Abteilung für langfristige Governance und Strategie bei DeepMind, hat die Gefahren eines Wettlaufs und die potenzielle Notwendigkeit von Kooperation betont: „Es könnte eine notwendige und hinreichende Bedingung für die Sicherheit und das Alignment von KI sein, dass vor dem Einsatz fortgeschrittener, leistungsstarker Systeme ein hohes Maß an Vorsicht an den Tag gelegt wird; wenn die Akteure jedoch in einem Bereich konkurrieren, in dem Erstanbieter große Gewinne erzielen und einen relativen Vorteil haben, dann werden sie gezwungen sein, ein suboptimales Maß an Vorsicht walten zu lassen."[109] Ein Forschungszweig konzentriert sich auf die Entwicklung von Ansätzen, Rahmen und Methoden zur Bewertung der Verantwortlichkeit von KI. Konkret werden Prüfungen KI-basierter Systeme durchgeführt und gefördert.[124][125][126]

Zu den Bemühungen, die Sicherheit von KI zu verbessern, gehören Frameworks, die darauf abzielen, KI-Ergebnisse mit ethischen Richtlinien in Einklang zu bringen und Risiken wie Missbrauch und Datenlecks zu verringern. Tools wie Guardrails von Nvidia,[127] Llama Guard[128] und die anpassbaren Guardrails von Preamble[129] entschärfen Schwachstellen und stellen sicher, dass die Ergebnisse vordefinierten Prinzipien entsprechen. Diese Tools werden häufig in KI-Systeme integriert, um die Sicherheit und Zuverlässigkeit zu verbessern.[130]

Philosophische Perspektiven

Siehe auch: Ethik der Künstlichen Intelligenz

Der Bereich der KI-Sicherheit ist eng mit philosophischen Überlegungen verwoben, insbesondere im Bereich der Ethik. Die deontologische Ethik, die die Einhaltung moralischer Regeln betont, wurde als Rahmen vorgeschlagen, um KI-Systeme mit menschlichen Werten in Einklang zu bringen. Durch die Einbettung deontologischer Prinzipien könnten KI-Systeme dazu angehalten werden, schädliche Handlungen zu vermeiden und so sicherstellen, dass sich ihr Handeln innerhalb ethischer Grenzen bewegt.[131]

Skalierung von lokalen Maßnahmen zu globalen Lösungen

Bei der Behandlung des KI-Sicherheitsproblems ist es wichtig, den Unterschied zwischen lokalen und globalen Lösungen zu betonen. Lokale Lösungen konzentrieren sich auf einzelne KI-Systeme und stellen sicher, dass sie sicher und nutzbringend sind, während globale Lösungen darauf abzielen, Sicherheitsmaßnahmen für alle KI-Systeme in verschiedenen Rechtssystemen umzusetzen. Einige Forscher[132] plädieren für die Notwendigkeit, lokale Sicherheitsmaßnahmen auf ein globales Niveau zu skalieren, und schlagen eine separate Klassifizierung für diese globalen Lösungen vor. Dieser Ansatz unterstreicht die Bedeutung gemeinsamer Anstrengungen bei der internationalen Governance von KI-Sicherheit und betont, dass keine einzelne Einrichtung die mit KI-Technologien verbundenen Risiken wirksam handhaben kann. Diese Sichtweise deckt sich mit den laufenden Bemühungen in der internationalen Politik, die darauf abzielen, die komplexen Herausforderungen zu bewältigen, die fortschrittliche KI-Systeme weltweit mit sich bringen.[133][134]

Regierungsprogramme

Siehe auch: Regulierung von künstlicher Intelligenz

Einige Experten haben argumentiert, dass es zu früh sei, um KI zu regulieren, und haben Bedenken geäußert, Regulierungen könnten Innovation behindern und es wäre töricht, „in Unkenntnis zu regulieren“.[133][135] Andere, wie der Unternehmer Elon Musk, fordern präventive Maßnahmen, um katastrophale Risiken zu mindern.[136]

Außerhalb der formellen Gesetzgebung haben Regierungsbehörden ethische und sicherheitstechnische Empfehlungen abgegeben. Im März 2021 berichtete die US National Security Commission on Artificial Intelligence, dass es aufgrund der Fortschritte in der KI-Forschung immer wichtiger wird, „sicherzustellen, dass die Systeme mit Zielen und Werten, einschließlich Sicherheit, Widerstandsfähigkeit und Vertrauenswürdigkeit, in Einklang gebracht werden“.[137] Daraufhin entwarf das National Institute of Standards and Technology einen Rahmen für den Umgang mit KI-Risiken, in dem empfohlen wird in der Präsenz „katastrophaler Risiken die Entwicklung und den Einsatz auf sichere Weise einzustellen, bis die Risiken ausreichend beherrscht werden können.“[138]

Im September 2021 veröffentlichte die Volksrepublik China ethische Richtlinien für den Einsatz von KI in China, in denen betont wird, dass KI-Entscheidungen unter menschlicher Kontrolle bleiben sollten, und Rechenschaftsmechanismen gefordert werden. Im selben Monat veröffentlichte das Vereinigte Königreich seine auf zehn Jahre angelegte Nationale KI-Strategie,[139] in der es heißt, dass die britische Regierung „das langfristige Risiko einer fehlausgerichteten künstlichen allgemeinen Intelligenz (AGI) und die unvorhersehbaren Veränderungen, die sie für … die Welt bedeuten würde, ernst nimmt“.[140] Die Strategie beschreibt Maßnahmen zur Bewertung langfristiger KI-Risiken, einschließlich katastrophaler Risiken.[140] Die britische Regierung hielt den ersten globalen Gipfel zur KI-Sicherheit ab. Dieser fand am 1. und 2. November 2023 statt und wurde als „eine Gelegenheit für politische Entscheidungsträger und Staatschefs“ beschrieben, „um die unmittelbaren und zukünftigen Risiken von KI zu erörtern und zu überlegen, wie diese Risiken durch einen global koordinierten Ansatz gemildert werden können.“[141][142]

Auch Regierungsorganisationen, insbesondere in den Vereinigten Staaten, haben die Entwicklung der technischen KI-Sicherheitsforschung gefördert. Die Organisation namens Intelligence Advanced Research Projects Activity hat das TrojAI-Projekt initiiert, um Trojaner-Angriffe auf KI-Systeme zu erkennen und sie dagegen zu schützen.[143] Die Defense Advanced Research Projects Agency (DARPA) forscht an Explainable Artificial Intelligence (XAI; deutsch: erklärbare künstliche Intelligenz), sowie an der Verbesserung der Widerstandsfähigkeit gegenüber Adversarial Attacks[144][145] und die National Science Foundation unterstützt das Center for Trustworthy Machine Learning und stellt Millionen von Dollar für die empirische KI-Sicherheitsforschung bereit.[146]

Im Jahr 2024 verabschiedete die Generalversammlung der Vereinten Nationen die erste globale Resolution zur Förderung „sicherer und vertrauenswürdiger“ KI-Systeme. Sie unterstreicht die Wichtigkeit von Achtung, Schutz und Förderung der Menschenrechte bei der Konzeption, der Entwicklung, dem Einsatz und der Nutzung von KI.[147]

Im Mai 2024 kündigte das britische Ministerium für Wissenschaft, Innovation und Technologie eine Finanzierung von 8,5 Millionen Pfund für die KI-Sicherheitsforschung im Rahmen des Systemic AI Safety Fast Grants Programme an, das von Christopher Summerfield und Shahar Avin am AI Safety Institute in Zusammenarbeit mit der Regierungsorganisation für UK Research and Innovation geleitet wird. Ministerin für Digitales Michelle Donelan kündigte den Plan auf dem KI-Gipfel in Seoul an und erklärte, das Ziel bestehe darin, KI in der gesamten Gesellschaft sicher zu machen und weitere Mittel für vielversprechende Vorschläge zu sichern. Das Vereinigte Königreich unterzeichnete außerdem eine Vereinbarung mit zehn anderen Ländern und der EU, um ein internationales Netzwerk von KI-Sicherheitsinstituten zu bilden, das die Zusammenarbeit fördern und Informationen und Ressourcen teilen soll. Darüber hinaus plante das britische KI-Sicherheitsinstitut, ein Büro in San Francisco zu eröffnen.[148]

Selbstregulierung von Unternehmen

KI-Labore und -Unternehmen halten sich im Allgemeinen an Sicherheitspraktiken und -normen, die nicht unter die formale Gesetzgebung fallen.[149] Ein Ziel von Governance-Forschern ist es, diese Normen zu gestalten. Beispiele für Sicherheitsempfehlungen, die in der Literatur zu finden sind, umfassen die Durchführung von Prüfungen durch Dritte,[150] das Ausschreiben von Prämien für das Auffinden von Fehlern,[150] das Teilen von KI-Vorfällen[150] (zu diesem Zweck wurde eine Datenbank für KI-Vorfälle eingerichtet),[151] die Befolgung von Richtlinien, um zu entscheiden, ob Forschungen oder Modelle veröffentlicht werden sollen,[122] und die Verbesserung der Informations- und Cybersicherheit in KI-Laboren.[152]

Unternehmen sind zudem Verpflichtungen eingegangen. Cohere, OpenAI und AI21 haben „Praxisrichtlinien für den Einsatz von Sprachmodellen“ vorgeschlagen und vereinbart, wobei der Schwerpunkt auf der Eindämmung von Missbrauch liegt.[153] Um nicht zu einer Wettlauf-Dynamik beizutragen, hat OpenAI in seiner Charta erklärt: „Wenn ein wertausgerichtetes, sicherheitsbewusstes Projekt der Entwicklung von AGI nahe kommt, bevor wir es tun, verpflichten wir uns, nicht mehr mit diesem Projekt zu konkurrieren, sondern es zu unterstützen.“[154] Außerdem haben führende Industrievertreter wie der CEO von DeepMind Demis Hassabis und der Direktor von Facebook AI Yann LeCun offene Briefe wie etwa zu den Asilomar-Prinzipien[31] und zu autonomen Waffen[155] unterzeichnet.

Einzelnachweise

  1. Perrigo, Billy (2023-02. November). „U.K.'s AI Safety Summit Ends With Limited, but Meaningful, Progress“. Time. Abgerufen am 2. Juni 2024.
  2. De-Arteaga, Maria (13. Mai 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (Dissertation). Carnegie Mellon University.
  3. Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). „A Survey on Bias and Fairness in Machine Learning“. ACM Computing Surveys. 54 (6): 1–35. arXiv:1908.09635. doi:10.1145/3457607. ISSN 0360-0300. 201666566. Archiviert (Memento vom 17. November 2022 im Internet Archive) 23. November 2022. Abgerufen am 28. November 2022.
  4. Feldstein, Steven (2019). The Global Expansion of AI Surveillance (Report). Carnegie Endowment for International Peace.
  5. Beth Barnes: Risks from AI persuasion (Memento vom 23. November 2022 im Internet Archive) vom Original am 23. November 2022. Abgerufen am 14. Februar 2025. (englisch).
  6. a b Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., Dafoe, A., Scharre, P., Zeitzoff, T., Filar, B., Anderson, H., Roff, H., Allen, G. C., Steinhardt, J., Flynn, C., HÉigeartaigh, S. Ó., Beard, S., Belfield, H., Farquhar, S. et al.: The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. In: repository.cam.ac.uk. Cambridge University, 20. Februar 2018, abgerufen am 14. Februar 2025 (englisch).
  7. a b Davies, Pascale (26. Dezember 2022). „How NATO is preparing for a new era of AI cyber attacks“. euronews. Abgerufen am 23. März 2024.
  8. Ahuja, Anjana (7. Februar 2024). „AI's bioterrorism potential should not be ruled out“. Financial Times. Abgerufen am 23. März 2024.
  9. Carlsmith, Joseph (2022-16. Juni). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353.
  10. Minardi, Di (16. Oktober 2020). „The grim fate that could be 'worse than extinction'“. BBC. Abgerufen am 23. März 2024.
  11. „AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com“. 2023-04-04. Abgerufen am 23. Juli 2023.
  12. Dafoe, Allan (2016). „Yes, We Are Worried About the Existential Risk of Artificial Intelligence“. MIT Technology Review. Archiviert (Memento vom 28. November 2022 im Internet Archive) vom Original am 28. November 2022. Abgerufen am 28. November 2022.
  13. a b Katja Grace, John Salvatier, Allan Dafoe, Baobao Zhang, Owain Evans: When Will AI Exceed Human Performance? Evidence from AI Experts. In: arxiv.org. Cornell University, 24. Mai 2017, abgerufen am 14. Februar 2025 (englisch).
  14. Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2021-05. Mai). „Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers“. Journal of Artificial Intelligence Research. 71. arXiv:2105.02117. doi:10.1613/jair.1.12895.
  15. Zach Stein-Perlman, Katja Grace: 2022 Expert Survey on Progress in AI (Memento vom 23. November 2022 im Internet Archive) 23. November 2022. Abgerufen am 14. Februar 2025. (englisch).
  16. Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (2022–26. August). „What Do NLP Researchers Believe? Results of the NLP Community Metasurvey“. Association for Computational Linguistics. arxiv:2208.12852.
  17. John Markoff: In 1949, He Imagined an Age of Robots. In: nytimes.com. 20. Mai 2013, abgerufen am 14. Februar 2025 (englisch).
  18. https://sussex.figshare.com/articles/book/Artificial_intelligence_a_handbook_of_professionalism/23312414
  19. AAAI Presidential Panel on Long-Term AI Futures: 2008-2009 Study (Memento vom 23. November 2022 im Internet Archive) 1. September 2022. Abgerufen am 14. Februar 2025. (englisch).
  20. Yampolskiy, Roman V.; Spellchecker, M. S. (2016–25. Oktober). „Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures“. arXiv:1610.07997.
  21. PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011) (Memento vom 23. November 2022 im Internet Archive) 23. November 2022. Abgerufen am 14. Februar 2024. (englisch).
  22. Yampolskiy, Roman V. (2013), Müller, Vincent C. (Hrsg.), „Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach“, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, Bd. 5, Berlin; Heidelberg, Deutschland: Springer Berlin Heidelberg, S. 389–396, doi:10.1007/978-3-642-31674-6_29, ISBN 978-3-642-31673-9, Roman V. Yampolskiy: Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach. In: link.springer.com. Vincent C.Müller, abgerufen am 14. Februar 2025 (englisch).
  23. McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (2023-04. Juli). „The risks associated with Artificial General Intelligence: A systematic review“. Journal of Experimental & Theoretical Artificial Intelligence. 35 (5): 649–663. Bibcode:2023JETAI..35..649M. doi:10.1080/0952813X.2021.1964003. hdl:11343/289595. ISSN 0952-813X. 238643957.
  24. Wile, Rob (2014-03. August). „Elon Musk: Artificial Intelligence Is 'Potentially More Dangerous Than Nukes'“. Business Insider. Abgerufen am 22. Februar 2024.
  25. Kaiser Kuo: Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015 (ab 0:55:49) auf YouTube, 31. März 2015, abgerufen am 14. Februar 2025 (englisch).
  26. Rory Cellan-Jones: Stephen Hawking warns artificial intelligence could end mankind. In: bbc.com. 2. Dezember 2014, abgerufen am 14. Februar 2025 (englisch).
  27. Ein offener Brief: Forschungsprioritäten für stabile und wohltätige Künstliche Intelligenz (Memento vom 20. Juni 2018 im Internet Archive)
  28. Future of Life Institute (Oktober 2016). „AI Research Grants Program“. Future of Life Institute. Archiviert (Memento vom 23. November 2022 im Internet Archive) vom Original am 23. November 2022. Abgerufen am 23. November 2022.
  29. „SafArtInt 2016“. Archiviert (Memento vom 23. November 2022 im Internet Archive) vom Original am 23. November 2022. Abgerufen am 23. November 2022.
  30. Bach, Deborah (2016). „UW to host first of four White House public workshops on artificial intelligence“. UW News. Archiviert (Memento vom 23. November 2022 im Internet Archive) vom Original am 23. November 2022. Abgerufen am 23. November 2022.
  31. a b Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016–25. Juli). „Concrete Problems in AI Safety“. arXiv:1606.06565.
  32. Future of Life Institute. „AI Principles“. Future of Life Institute. Archiviert (Memento vom 23. November 2022 im Internet Archive) vom Original am 23. November 2022. Abgerufen am 23. November 2022.
  33. Yohsua, Bengio; Daniel, Privitera; Tamay, Besiroglu; Rishi, Bommasani; Stephen, Casper; Yejin, Choi; Danielle, Goldfarb; Hoda, Heidari; Leila, Khalatbari (Mai 2024). International Scientific Report on the Safety of Advanced AI (Bericht). Department for Science, Innovation and Technology.
  34. a b Research, DeepMind Safety (2018–27. September). „Building safe artificial intelligence: specification, robustness, and assurance“. Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. November 2022.
  35. a b c „SafeML ICLR 2019 Workshop“. Archiviert (Memento vom 23. November 2022 im Internet Archive) vom Original am 23. November 2022. Abgerufen am 23. November 2022.
  36. a b c Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2022-16. Juni). „Unsolved Problems in ML Safety“. arXiv:2109.13916.
  37. Browne, Ryan (2023-12. Juni). „British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley“. CNBC. Abgerufen am 25. Juni 2023.
  38. Bertuzzi, Luca (2023-18. Oktober). „UK's AI safety summit set to highlight risk of losing human control over 'frontier' models“. Euractiv. Abgerufen am 2. März 2024.
  39. Bengio, Yoshua; Privitera, Daniel; Bommasani, Rishi; Casper, Stephen; Goldfarb, Danielle; Mavroudis, Vasilios; Khalatbari, Leila; Mazeika, Mantas; Hoda, Heidari (2024-17. Mai). „International Scientific Report on the Safety of Advanced AI“ (PDF; 2,8 MB). GOV.UK. Archiviert (Memento vom 15. Juni 2024 im Internet Archive) (PDF) vom Original am 15. Juni 2024. Abgerufen am 8. Juli 2024. Alt URL
  40. Shepardson, David (2024-01. April). „US, Britain announce partnership on AI safety, testing“. Abgerufen am 2. April 2024.
  41. Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24. Februar 2017). „Attacking Machine Learning with Adversarial Examples“. OpenAI. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 24. November 2022.
  42. a b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19. Februar 2014). „Intriguing properties of neural networks“. ICLR. arXiv:1312.6199.
  43. Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10. Februar 2017). „Adversarial examples in the physical world“. ICLR. arXiv:1607.02533.
  44. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4. September 2019). „Towards Deep Learning Models Resistant to Adversarial Attacks“. ICLR. arXiv:1706.06083.
  45. Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16. März 2018). „Adversarial Logit Pairing“. arXiv:1803.06373.
  46. Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19. Juli 2018). „Motivating the Rules of the Game for Adversarial Example Research“. arXiv:1807.06732.
  47. Carlini, Nicholas; Wagner, David (29. März 2018). „Audio Adversarial Examples: Targeted Attacks on Speech-to-Text“. IEEE Security and Privacy Workshops. arXiv:1801.01944.
  48. Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9. September 2022). „Adversarial Examples in Constrained Domains“. arXiv:2011.01183.
  49. Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13. April 2019). „Exploring Adversarial Examples in Malware Detection“. IEEE Security and Privacy Workshops. arXiv:1810.08280.
  50. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4. März 2022). „Training language models to follow instructions with human feedback“. NeurIPS. arXiv:2203.02155.
  51. Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober 2022). „Scaling Laws for Reward Model Overoptimization“. ICML. arXiv:2210.10760.
  52. Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27. Oktober 2021). „RoMA: Robust Model Adaptation for Offline Model-based Optimization“. NeurIPS. arXiv:2110.14188.
  53. a b Hendrycks, Dan; Mazeika, Mantas (20. September 2022). „X-Risk Analysis for AI Research“. arXiv:2206.05862.
  54. Khoa A. Tran, Olga Kondrashova, Andrew Bradley, Elizabeth D. Williams, John V. Pearson, Nicola Waddell: Deep learning in cancer diagnosis, prognosis and treatment selection. In: Genome Medicine. Band 13, 2021, S. 152, doi:10.1186/s13073-021-00968-x, PMID 34579788, PMC 8477474 (freier Volltext).
  55. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6. August 2017). „On calibration of modern neural networks“. Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research. Vol. 70. PMLR. S. 1321–1330.
  56. Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17. Dezember 2019). „Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift“. NeurIPS. arXiv:1906.02530.
  57. Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). „Description of Corner Cases in Automated Driving: Goals and Challenges“. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). S. 1023–1028. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN 978-1-6654-0191-3. 237572375.
  58. Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28. Januar 2019). „Deep Anomaly Detection with Outlier Exposure“. ICLR. arXiv:1812.04606.
  59. Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21. März 2022). „ViM: Out-Of-Distribution with Virtual-logit Matching“. CVPR. arXiv:2203.10807.
  60. Hendrycks, Dan; Gimpel, Kevin (3. Oktober 2018). „A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks“. ICLR. arXiv:1610.02136.
  61. Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). „Dual use of artificial-intelligence-powered drug discovery“. Nature Machine Intelligence. 4 (3): 189–191. doi:10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280 (freier Volltext). PMID 36211133.
  62. Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). „Truth, Lies, and Automation: How Language Models Could Change Disinformation“. doi:10.51593/2021ca003. 240522878. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 28. November 2022.
  63. „Propaganda-as-a-service may be on the horizon if large language models are abused“. VentureBeat. 14. Dezember 2021. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 24. November 2022.
  64. Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). „Automating Cyber Attacks: Hype and Reality“. Center for Security and Emerging Technology. doi:10.51593/2020ca002. 234623943. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 28. November 2022.
  65. „Lessons Learned on Language Model Safety and Misuse“. OpenAI. 3. März 2022. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 24. November 2022.
  66. Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10. August 2022). „New-and-Improved Content Moderation Tooling“. OpenAI. Archiviert (Memento vom 11. Januar 2023 im Internet Archive) vom Original am 11. Januar 2023. Abgerufen am 24. November 2022.
  67. a b Savage, Neil (29. März 2022). „Breaking into the black box of artificial intelligence“. Nature. doi:10.1038/d41586-022-00858-1. PMID 35352042. 247792459. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 24. November 2022.
  68. Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). „Key Concepts in AI Safety: Interpretability in Machine Learning“. CSET Issue Brief. doi:10.51593/20190042. 233775541. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 28. November 2022.
  69. McFarland, Matt (19. März 2018). „Uber pulls self-driving cars after first fatal crash of autonomous vehicle“. CNNMoney. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 24. November 2022.
  70. Felder, Ryan Marshall (Juli 2021). „Coming to Terms with the Black Box Problem: How to Justify AI Systems in Health Care“. Hastings Center Report. 51 (4): 38–45. doi:10.1002/hast.1248. ISSN 0093-0334. PMID 33821471.
  71. Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20. Dezember 2019). „Accountability of AI Under the Law: The Role of Explanation“. arXiv:1711.01134
  72. a b Fong, Ruth; Vedaldi, Andrea (2017). „Interpretable Explanations of Black Boxes by Meaningful Perturbation“. 2017 IEEE International Conference on Computer Vision (ICCV). S. 3449–3457. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN 978-1-5386-1032-9. 1633753.
  73. Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). „Locating and editing factual associations in GPT“. Advances in Neural Information Processing Systems. 35. arXiv:2202.05262.
  74. Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30. Juli 2020). „Rewriting a Deep Generative Model“. ECCV. arXiv:2007.15646.
  75. Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5. September 2022). „Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks“. IEEE SaTML. arXiv:2207.13243.
  76. Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19. April 2017). „Network Dissection: Quantifying Interpretability of Deep Visual Representations“. CVPR. arXiv:1704.05796.
  77. McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22. November 2022). Acquisition of chess knowledge in AlphaZero. Proceedings of the National Academy of Sciences. 119 (47): e2206625119. arXiv:2111.09259. Bibcode:2022PNAS..11906625M. doi:10.1073/pnas.2206625119. ISSN 0027-8424. PMC 9704706 (freier Volltext). PMID 36375061.
  78. Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). „Multimodal neurons in artificial neural networks“. Distill. 6 (3). doi:10.23915/distill.00030. 233823418.
  79. Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). „Zoom in: An introduction to circuits“. Distill. 5 (3). doi:10.23915/distill.00024.001. 215930358.
  80. Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). „Curve circuits“. Distill. 6 (1). doi:10.23915/distill.00024.006 (inaktiv ab 1. November 2024). Abgerufen am 5. Dezember 2022.
  81. Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Drain, Dawn; Ganguli, Deep; Hatfield-Dodds, Zac; Hernandez, Danny; Johnston, Scott; Jones, Andy; Kernion, Jackson; Lovitt, Liane; Ndousse, Kamal; Amodei, Dario; Brown, Tom; Clark, Jack; Kaplan, Jared; McCandlish, Sam; Olah, Chris (2022). „In-context learning and induction heads“. Transformer Circuits Thread. arXiv:2209.11895.
  82. Olah, Christopher. "Interpretability vs Neuroscience [rough note]". Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 24. November 2022.
  83. Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11. März 2019). „BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain“. arXiv:1708.06733.
  84. Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14. Dezember 2017). „Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning“. arXiv:1712.05526.
  85. Carlini, Nicholas; Terzis, Andreas (28. März 2022). „Poisoning and Backdooring Contrastive Learning“. ICLR. arXiv:2106.09667.
  86. a b c d e Russell, Stuart J.; Norvig, Peter (2021). Artificial intelligence: A modern approach (4th ed.). Pearson. pp. 5, 1003. ISBN 9780134610993. Abgerufen am 12. September 2022.
  87. Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar 2023). „The alignment problem from a deep learning perspective“. arXiv:2209.00626 cs.AI.
  88. Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli 2022.
  89. Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.
  90. Carlsmith, Joseph (16. Juni 2022). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353 cs.CY.
  91. Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 978-0-525-55863-7. OCLC 1113410915.
  92. Christian, Brian (2020). The alignment problem: Machine learning and human values (Memento vom 10. Februar 2023 im Internet Archive), W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar 2023. Abgerufen am 10. Februar 2022.
  93. Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni 2022). „Goal Misgeneralization in Deep Reinforcement Learning“. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März 2023.
  94. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback“. arXiv:2203.02155 cs.CL.
  95. Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
  96. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). Reinforcement learning in robotics: A survey. In: The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. 1932843. Abgerufen am 12. September 2022.
  97. a b c d Remco Zwetsloot, Allan Dafoe: Thinking About Risks From AI: Accidents, Misuse and Structure. In: Lawfare. 19. August 2023, abgerufen am 11. Februar 2025 (englisch).
  98. Yingyu Zhang, Chuntong Dong, Weiqun Guo, Jiabao Dai, Ziming Zhao: Systems theoretic accident model and process (STAMP): A literature review. In: Safety Science. Band 152, 1. August 2022, ISSN 0925-7535, S. 105596, doi:10.1016/j.ssci.2021.105596.
  99. a b Alexandros Gazos, James Kahn, Isabel Kusche, Christian Büscher, Markus Götz: Organising AI for safety: Identifying structural vulnerabilities to guide the design of AI-enhanced socio-technical systems. In: Safety Science. Band 184, 1. April 2025, ISSN 0925-7535, S. 106731, doi:10.1016/j.ssci.2024.106731.
  100. AI and the Future of Cyber Competition. In: Center for Security and Emerging Technology. Abgerufen am 11. Februar 2025 (amerikanisches Englisch).
  101. Ruti Gafni, Yair Levy: The role of artificial intelligence (AI) in improving technical and managerial cybersecurity tasks’ efficiency. In: Information & Computer Security. Band 32, Nr. 5, 1. Januar 2024, ISSN 2056-497X, S. 711–728, doi:10.1108/ICS-04-2024-0102.
  102. AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement. In: Center for Security and Emerging Technology. Abgerufen am 11. Februar 2025 (amerikanisches Englisch).
  103. a b AI Strategy, Policy, and Governance (Allan Dafoe). In: Future of Life Institute. 23. November 2022, abgerufen am 11. Februar 2025 (englisch).
  104. Andy Zou, Tristan Xiao, Ryan Jia, Joe Kwon, Mantas Mazeika, Richard Li, Dawn Song, Jacob Steinhardt, Owain Evans, Dan Hendrycks: Forecasting Future World Events with Neural Networks. 9. Oktober 2022, abgerufen am 11. Februar 2025.
  105. Sneha Gathani, Madelon Hulsebos, James Gale, Peter J. Haas, Çağatay Demiralp: Augmenting Decision Making via Interactive What-If Analysis. 9. Februar 2022, abgerufen am 11. Februar 2025.
  106. Roy Lindelauf: Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited. In: NL ARMS Netherlands Annual Review of Military Studies 2020: Deterrence in the 21st Century—Insights from Theory and Practice. T.M.C. Asser Press, The Hague 2021, ISBN 978-94-6265-419-8, S. 421–436, doi:10.1007/978-94-6265-419-8_22.
  107. a b Vann R. Newkirk II: Is Climate Change a Prisoner's Dilemma or a Stag Hunt? In: The Atlantic. 24. November 2022, abgerufen am 11. Februar 2025 (englisch).
  108. a b Stuart Armstrong, Nick Bostrom, Carl Shulman: Racing to the Precipice: a Model of Artificial Intelligence Development (Report). In: Future of Humanity Institute (Hrsg.): Oxford University.
  109. a b Allan Dafoe: AI Governance: A Research Agenda (Report). In: Centre for the Governance of AI, Future of Humanity Institute (Hrsg.): University of Oxford.
  110. Allan Dafoe, Edward Hughes, Yoram Bachrach, Tantum Collins, Kevin R. McKee, Joel Z. Leibo, Kate Larson, Thore Graepel: Open Problems in Cooperative AI. 15. Dezember 2020, abgerufen am 11. Februar 2025.
  111. a b Allan Dafoe, Yoram Bachrach, Gillian Hadfield, Eric Horvitz, Kate Larson, Thore Graepel: Cooperative AI: machines must learn to find common ground. In: Nature. Band 593, Nr. 7857, Mai 2021, S. 33–36, doi:10.1038/d41586-021-01170-0.
  112. Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (= FAccT '21). Association for Computing Machinery, New York, NY, USA 2021, ISBN 978-1-4503-8309-7, S. 610–623, doi:10.1145/3442188.3445922.
  113. E. Strubell, A. Ganesh, A. MyCallum: Energy and Policy Considerations for Deep Learning in NLP. 2019.
  114. Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (= FAccT '21). Association for Computing Machinery, New York, NY, USA 2021, ISBN 978-1-4503-8309-7, S. 610–623, doi:10.1145/3442188.3445922.
  115. Nicholas Crafts: Artificial intelligence as a general-purpose technology: an historical perspective. In: Oxford Review of Economic Policy. Band 37, Nr. 3, 1. September 2021, ISSN 0266-903X, S. 521–536, doi:10.1093/oxrep/grab012.
  116. 以系統性文獻綜述談人工智慧時代下的勞力取代 - 臺灣東亞文明研究學刊. doi:10.6163/tjeas.202012_17(2).0002 (chinesisch).
  117. James Johnson: Artificial intelligence & future warfare: implications for international security. In: Defense & Security Analysis. Band 35, Nr. 2, 3. April 2019, ISSN 1475-1798, S. 147–169, doi:10.1080/14751798.2019.1600800.
  118. Katarina Kertysova: Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered. In: Security and Human Rights. Band 29, Nr. 1–4, 12. Dezember 2018, ISSN 1875-0230, S. 55–81, doi:10.1163/18750230-02901005.
  119. Steven Feldstein: The Global Expansion of AI Surveillance. Hrsg.: Carnegie Endowment for International Peace. 2019.
  120. The economics of artificial intelligence: an agenda (= National Bureau of Economic Research conference report). The University of Chicago Press, Chicago London 2019, ISBN 978-0-226-61347-5.
  121. Jess Whittlestone, Jack Clark: Why and How Governments Should Monitor AI Development. 31. August 2021, abgerufen am 11. Februar 2025.
  122. a b Toby Shevlane: Sharing Powerful AI Models. In: GovAI Blog. Center for the Governance of AI, 24. November 2022, abgerufen am 11. Februar 2025 (englisch).
  123. Amanda Askell, Miles Brundage, Gillian Hadfield: The Role of Cooperation in Responsible AI Development. 10. Juli 2019, abgerufen am 11. Februar 2025.
  124. Furkan Gursoy, Ioannis A. Kakadiaris: System Cards for AI-Based Decision-Making for Public Policy. 31. August 2022, abgerufen am 11. Februar 2025.
  125. Inioluwa Deborah Raji, Andrew Smart, Rebecca N. White, Margaret Mitchell, Timnit Gebru, Ben Hutchinson, Jamila Smith-Loud, Daniel Theron, Parker Barnes: Closing the AI accountability gap: defining an end-to-end framework for internal algorithmic auditing. In: Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency (= FAT* '20). Association for Computing Machinery, New York, NY, USA 2020, ISBN 978-1-4503-6936-7, S. 33–44, doi:10.1145/3351095.3372873.
  126. Jennifer Cobbe, Michelle Seng Ah Lee, Jatinder Singh: Reviewable Automated Decision-Making: A Framework for Accountable Algorithmic Systems. In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (= FAccT '21). Association for Computing Machinery, New York, NY, USA 2021, ISBN 978-1-4503-8309-7, S. 598–609, doi:10.1145/3442188.3445921.
  127. NeMo Guardrails. In: NVIDIA NeMo Guardrails. Abgerufen am 11. Februar 2025 (englisch).
  128. Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations. In: Meta AI. Abgerufen am 11. Februar 2025 (englisch).
  129. Kristina Šekrst, Jeremy McHugh, Jonathan Rodriguez Cefalu: AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development. 5. November 2024, abgerufen am 11. Februar 2025.
  130. Yi Dong, Ronghui Mu, Gaojie Jin, Yi Qi, Jinwei Hu, Xingyu Zhao, Jie Meng, Wenjie Ruan, Xiaowei Huang: Building Guardrails for Large Language Models. 29. Mai 2024, abgerufen am 11. Februar 2025.
  131. William D’Alessandro: Deontology and safe artificial intelligence. In: Philosophical Studies. 13. Juni 2024, ISSN 1573-0883, doi:10.1007/s11098-024-02174-y.
  132. Alexey Turchin, David Denkenberger, Brian Patrick Green: Global Solutions vs. Local Solutions for the AI Safety Problem. In: Big Data and Cognitive Computing. Band 3, Nr. 1, März 2019, ISSN 2504-2289, S. 16, doi:10.3390/bdcc3010016.
  133. a b Bart Ziegler: Is It Time to Regulate AI? In: Wall Street Journal. 8. April 2022.
  134. John Smith: Global Governance of Artificial Intelligence: Opportunities and Challenges. In: The Guardian. 15. April 2022.
  135. Chris Reed: How should we regulate artificial intelligence? In: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. Band 376, Nr. 2128, 6. August 2018, S. 20170360, doi:10.1098/rsta.2017.0360, PMID 30082306, PMC 6107539 (freier Volltext).
  136. Keith B. Belton: How Should AI Be Regulated? In: IndustryWeek. 29. Januar 2022, abgerufen am 11. Februar 2025 (englisch).
  137. Final Report (Hrsg.): National Security Commission on Artificial Intelligence. 2021.
  138. AI Risk Management Framework. National Institute of Standards and Technology, 24. Februar 2022, abgerufen am 11. Februar 2025 (englisch).
  139. Tim Richardson: Britain publishes 10-year National Artificial Intelligence Strategy. In: The Register. 2021, abgerufen am 11. Februar 2025 (englisch).
  140. a b Guidance: National AI Strategy. In: GOV.UK. 2021, abgerufen am 11. Februar 2025 (englisch).
  141. Kimberley Hardcastle: We're talking about AI a lot right now – and it's not a moment too soon. In: The Conversation. 23. August 2023, abgerufen am 11. Februar 2025 (englisch).
  142. Iconic Bletchley Park to host UK AI Safety Summit in early November. In: gov.uk. 31. Oktober 2023, abgerufen am 11. Februar 2025 (englisch).
  143. IARPA – TrojAI. In: Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. 24. November 2022, abgerufen am 11. Februar 2025 (englisch).
  144. Matt Turek: Explainable Artificial Intelligence. 19. Februar 2021, abgerufen am 11. Februar 2025 (englisch).
  145. Bruce Draper: Guaranteeing AI Robustness Against Deception. In: Defense Advanced Research Projects Agency. 9. Januar 2023, archiviert vom Original (nicht mehr online verfügbar) am 9. Januar 2023; abgerufen am 11. Februar 2025 (englisch).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.darpa.mil
  146. Safe Learning-Enabled Systems. In: National Science Foundation. 26. Februar 2023, abgerufen am 11. Februar 2025 (englisch).
  147. General Assembly adopts landmark resolution on artificial intelligence. In: UN News. 21. März 2024, archiviert vom Original am 20. April 2024; abgerufen am 11. Februar 2025 (englisch).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/news.un.org
  148. Mark Say: DSIT announces funding for research on AI safety. In: UKAuthority. 23. Mai 2024, archiviert vom Original am 24. Mai 2024; abgerufen am 11. Februar 2025 (englisch).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.ukauthority.com
  149. Matti Mäntymäki, Matti Minkkinen, Teemu Birkstedt, Mika Viljanen: Defining organizational AI governance. In: AI and Ethics. Band 2, Nr. 4, 1. November 2022, ISSN 2730-5961, S. 603–609, doi:10.1007/s43681-022-00143-x.
  150. a b c Miles Brundage, Shahar Avin, Jasmine Wang, Haydn Belfield, Gretchen Krueger, Gillian Hadfield, Heidy Khlaaf, Jingying Yang, Helen Toner, Ruth Fong, Tegan Maharaj, Pang Wei Koh, Sara Hooker, Jade Leung, Andrew Trask, Emma Bluemke, Jonathan Lebensold, Cullen O'Keefe, Mark Koren, Théo Ryffel, J. B. Rubinovitz, Tamay Besiroglu, Federica Carugati, Jack Clark, Peter Eckersley, Sarah de Haas, Maritza Johnson, Ben Laurie, Alex Ingerman, Igor Krawczuk, Amanda Askell, Rosario Cammarota, Andrew Lohn, David Krueger, Charlotte Stix, Peter Henderson, Logan Graham, Carina Prunkl, Bianca Martin, Elizabeth Seger, Noa Zilberman, Seán Ó hÉigeartaigh, Frens Kroeger, Girish Sastry, Rebecca Kagan, Adrian Weller, Brian Tse, Elizabeth Barnes, Allan Dafoe, Paul Scharre, Ariel Herbert-Voss, Martijn Rasser, Shagun Sodhani, Carrick Flynn, Thomas Krendl Gilbert, Lisa Dyer, Saif Khan, Yoshua Bengio, Markus Anderljung: Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims. 20. April 2020, abgerufen am 11. Februar 2025.
  151. Welcome to the Artificial Intelligence Incident Database. 24. November 2022, abgerufen am 11. Februar 2025 (englisch).
  152. Robert Wiblin, Keiran Harris: Nova DasSarma on why information security may be critical to the safe development of AI systems. In: 80.000 Hours. 24. November 2022, abgerufen am 11. Februar 2025 (englisch).
  153. Best Practices for Deploying Language Models. In: OpenAI. 15. März 2023, abgerufen am 11. Februar 2025 (englisch).
  154. OpenAI Charter. In: OpenAI. 4. März 2021, abgerufen am 11. Februar 2025 (englisch).
  155. Versprechen zu tödlichen autonomen Waffen. In: Future of Life Institute. 2016, abgerufen am 11. Februar 2025.