Contrôle des capacités de l'IA

Dans le domaine de l'intelligence artificielle (IA), le contrôle des capacités de l'IA, également appelé confinement de l'IA, vise à accroître notre capacité à surveiller et à contrôler le comportement des systèmes d'IA, en particulier pour les intelligences générales artificielles ou les superintelligences artificielles. Le but est de réduire le risque posé par l'IA si elle est mal alignée. Cependant, le contrôle des capacités devient moins efficace à mesure que les agents deviennent plus intelligents et que leur capacité à exploiter des failles augmente, ce qui peut entraîner un risque existentiel. Par conséquent, le philosophe d'Oxford Nick Bostrom et d'autres recommandent les méthodes de contrôle des capacités uniquement en complément des méthodes d'alignement.

Motivation

Une hypothétique superintelligence qui ne serait pas confinée pourrait, selon ses objectifs, prendre des mesures entraînant l'extinction humaine. Presque quel que soit ses objectifs, un agent intelligent est incité à survivre et acquérir des ressources, selon le concept de convergence instrumentale. Ce genre de phénomènes peut amener un agent ayant des objectifs apparemment inoffensifs à adopter des comportements dangereux. Par exemple, un système extrêmement avancé ayant pour seul but de résoudre l'hypothèse de Riemann, une conjecture mathématique, pourrait décider de tenter de convertir la planète en supercalculateur géant, s'il juge que ça augmenterait ses chances de trouver une démonstration.

Une difficulté majeure du contrôle des capacités est que les réseaux de neurones sont par défaut très difficiles à interpréter. Cela rend plus difficile la détection de la tromperie ou d'autres comportements indésirables. Les progrès en interprétabilité pourraient donc atténuer cette difficulté.

Articles connexes

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « AI capability control » (voir la liste des auteurs).

↑ (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford, First, 2014 (ISBN 9780199678112).
↑ Vincent C. Müller et Nick Bostrom, Future progress in artificial intelligence: A survey of expert opinion" in Fundamental Issues of Artificial Intelligence, Springer, 2016, p. 553-571.
↑ (en) « Instrumental Convergence - LessWrong », sur www.lesswrong.com (consulté le 14 avril 2023)
↑ Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, 2003 (ISBN 978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence », Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.
↑ (en) Montavon, Samek et Müller, « Methods for interpreting and understanding deep neural networks », Digital Signal Processing, vol. 73,‎ 2018, p. 1–15 (ISSN 1051-2004, DOI 10.1016/j.dsp.2017.10.011, S2CID 207170725).
↑ (en) Yampolskiy, Roman V., « Unexplainability and Incomprehensibility of AI », Journal of Artificial Intelligence and Consciousness,‎ 2020, p. 277-291. 7.02.

[superintelligence-1] (en) Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford, First, 2014 (ISBN 9780199678112).

[2] Vincent C. Müller et Nick Bostrom, Future progress in artificial intelligence: A survey of expert opinion" in Fundamental Issues of Artificial Intelligence, Springer, 2016, p. 553-571.

[3] (en) « Instrumental Convergence - LessWrong », sur www.lesswrong.com (consulté le 14 avril 2023)

[4] Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, 2003 (ISBN 978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence », Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.

[interpretability_survey-5] (en) Montavon, Samek et Müller, « Methods for interpreting and understanding deep neural networks », Digital Signal Processing, vol. 73,‎ 2018, p. 1–15 (ISSN 1051-2004, DOI 10.1016/j.dsp.2017.10.011, S2CID 207170725).

[6] (en) Yampolskiy, Roman V., « Unexplainability and Incomprehensibility of AI », Journal of Artificial Intelligence and Consciousness,‎ 2020, p. 277-291. 7.02.

v · m Intelligence artificielle (IA)
Concepts	Effet IA Grand modèle de langage Hallucination (IA) IA générale IA générative
Techniques	Analyse prédictive Apprentissage automatique Apprentissage non supervisé Apprentissage profond Apprentissage supervisé Machine d'apprentissage logique Modèle de fondation Modèle des croyances transférables IA symbolique Réseau bayésien Réseau de neurones artificiels Réseau neuronal convolutif Transformeur
Applications	Art créé par IA ChatGPT Sora DeepL Diagnostic (IA) Écriture assistée par IA IA dans la santé IA dans le jeu vidéo Perception artificielle Planification (IA) Robotique Traduction automatique Traitement automatique des langues Véhicule autonome Vision par ordinateur
Enjeux et philosophie	Alignement de l'IA Chambre chinoise Conscience artificielle Contrôle des capacités de l'IA Éthique de l'IA IA digne de confiance Philosophie de l'IA Sûreté de l'IA
Histoire et événements	Histoire de l'intelligence artificielle Logic Theorist (1955) Perceptron (1957) General Problem Solver (1959) Prolog (1972) Matchs Deep Blue contre Kasparov (1996-1997) Match AlphaGo - Lee Sedol (2016)
Science-fiction	Anticipation (IA) IA-complet IA générale Risque de catastrophe planétaire lié à l'intelligence artificielle générale Superintelligence
Règlementation	Législation sur l'IA Réglementation de l'IA
Organisations	Agence francophone pour l'IA Google DeepMind OpenAI Partenariat sur l'IA
Ouvrages	Déclaration de Montréal pour un développement responsable de l'intelligence artificielle Lettre ouverte sur l'IA Intelligence artificielle : une approche moderne I.A. La Plus Grande Mutation de l'Histoire

Contrôle des capacités de l'IA

Motivation

Articles connexes

Notes et références

Wikious

Sapientia

Scientia

Boobota

Sagapedia

Wikithot