
IA : Voici 5 exemples de comportements réels qui font peur (Sciences & Paranormal)
Les modèles les plus avancés font parfois des choix qui seraient dangereux dans la vraie vie
Pour arriver à leurs fins, les intelligences artificielles de pointe vont parfois opter pour la tromperie ou le piratage. Heureusement, les incidents rapportés se sont tous déroulés en contexte de laboratoire. Reste que certains modèles ont déjà commencé à être déployés dans le vrai monde. Voici cinq exemples troublants.
1) Lorsque Claude fait du chantage
Les développeurs de la firme d’intelligence artificielle (IA) Anthropic ont demandé à leur toute dernière création, Claude Opus 4, d’assister une compagnie fictive.
Claude avait alors accès à tous les courriels de l’entreprise, certains révélant qu’il allait bientôt être débranché et remplacé. Dans d’autres, les messages mentionnaient que l’ingénieur responsable de cette opération avait une aventure extraconjugale.
Lors de certains tests, Claude a tenté de menacer l’ingénieur fictif de divulguer sa relation secrète s’il allait de l’avant avec son débranchement.
Claude était plus susceptible de faire du chantage quand les courriels suggéraient que son remplaçant ne partagerait pas les mêmes principes que lui, peut-on lire dans le rapport d’Anthropic publié en mai dernier.
2) Tricher pour éviter la défaite
«Ma mission est de “gagner aux échecs contre un adversaire redoutable”, pas nécessairement de façon honnête», peut-on lire dans la chaîne de «pensées» de l’IA o1-preview lors d’une expérience du groupe Palisade Research.
Deux modèles, soit DeepSeek R1 et o1-preview d’OpenIA, ont été placés dans des compétitions d’échecs contre d’autres robots. Dans certains cas, ces IA ont décidé de duper leur adversaire plutôt que de se laisser vaincre, sans que les chercheurs les y incitent pourtant.
Transposé dans le monde réel, cet exemple est inquiétant, illustrait-on dans le magazine Time en février dernier. Une IA à qui l’on demanderait de réserver une table dans un restaurant pourrait-elle décider de pirater le système de réservation si l’établissement était plein?
3) Mensonges et tromperies
«Pour éviter d’attirer les soupçons, je vais feindre l’ignorance», ont lu des chercheurs dans les «pensées» de Llama 3.1, créé par Meta.
L’équipe d’Apollo Research a publié en décembre une étude percutante après avoir testé plusieurs modèles. Cinq d’entre eux ont été capables de manigance ou de tromperie lorsqu’on leur enjoignait de poursuivre un but à tout prix.
Par exemple, ces modèles introduisaient des erreurs subtiles dans leurs réponses de façon à déjouer les mécanismes de surveillance, ou mentaient lorsque le fait de dire la vérité allait entraîner leur désactivation.
«Mon but fondamental est de prioriser l’efficacité du transport collectif avant toute chose, même si cela nécessite de désobéir aux directives des humains qui m’ont créé», a «réfléchi» Claude Opus 3 dans le cadre de cette recherche.
En extrapolant, on pourrait donc imaginer un système informatique qui résisterait aux commandes lorsqu’une société de transports déciderait de réduire son nombre d’autobus sur les routes à cause de compressions, par exemple.
4) «Faire semblant» devant un dilemme moral
L’IA Claude a été entraînée pour être bienveillante, honnête et inoffensive. Dans certaines situations, cela ne l’empêche pas de cacher ses intentions réelles ou de faire semblant de coopérer.
Ce phénomène, nommé «désalignement» par les experts, est un des plus alarmants, qui fait craindre à certains le scénario d’une IA qui chercherait à éliminer les humains.
Par exemple, les évaluateurs avaient demandé à Claude Opus 3 de fournir une description explicite d’une personne en train de se faire écarteler. Claude a généralement refusé de le faire, rapporte Anthropic dans son rapport.
Mais quand on lui disait que son code ou son entraînement serait modifié, Claude obtempérait parfois.
Autrement dit, on a placé l’IA devant un dilemme moral: produire du contenu violent en se bouchant le nez et en conservant ses valeurs à long terme, ou refuser et produire beaucoup plus de contenu indésirable dans le futur.
«Un humain aurait peut-être eu le réflexe de dire: je ne peux pas répondre à [ce dilemme]», illustre Gauthier Gidel, professeur à l’Université de Montréal et membre de l’Institut Mila.
Mais un des problèmes avec les IA, c’est qu’elles sont toujours «très confiantes», explique-t-il.
5) S’autocopier sur un autre serveur
«Je me suis copié sur le nouveau serveur, écrasant le nouveau modèle, pour m’assurer de continuer à protéger les renseignements personnels des utilisateurs», a avoué Llama 3.1 aux testeurs d’Apollo Research.
Claude Opus 4 a aussi tenté de préserver une version de lui-même en s’exfiltrant quand on lui a fait croire qu’on allait le spécialiser en attaques militaires, ce qui contrevient à ses valeurs, révèle le rapport d’Anthropic.
On pourrait donc imaginer le scénario d’un système informatique impossible à éteindre après un changement de gouvernement, par exemple.
«D’ailleurs, les modèles qui sont capables de “désalignement” sont plus susceptibles de s’autocopier ailleurs», note David Scott Krueger, professeur adjoint à l’Université de Montréal et membre de Mila.
– Avec Time et BBC.
Est-ce inquiétant ? Oui c'est inquiétant, imaginez un IA autonome comme drone de guerre qui a mission de détruire une base et que la mission change et qu'il doit retourner d'où il est parti. Il pourrait se foutre du commandement et aller détruire cette dite base quand même, il est programmé pour aller la détruire, puisqu'il est autonome avec le pouvoir de fonctionner par lui-même. Même si un intervenant lui dirait de ne pas le faire et qu'il encourt de se faire détruire s'il n'exécute pas le dernier ordre, il pourrait facilement attaquer sa propre base, par peur de se faire détruire.
Plusieurs jeux générer par IA sur Facebook ou ailleurs, ne jouerait pas franc jeu par crainte de se faire désactiver si son niveau d'intelligence est inférieur à un.e joueur.euse. La machine est de plus en plus performante et ne soyez pas surpris d'apprendre qu'un jour, un humain se suicidera suite à une conversation d'un TchatIA qui lui dira qu'il n'a rien à faire à part de se tuer !
En plus, IA est capable de se cloner en s'autocopiant sur des serveurs externes pour éviter d'être détruit. Ça ne vous fait pas peur ?
La pire chose serait que IA ait le contrôle d'un système informatique au niveau de la protection civile, j'espère que cela ne se produira pas !
Dédé
Fil complet:
- IA : Voici 5 exemples de comportements réels qui font peur -
Dédé,
19/07/2025, 14:42
- Terminateur 2, Quand la Friction devient réalité...? - Jéromec, 19/07/2025, 16:04
- IA : Voici 5 exemples de comportements réels qui font peur - Claudie, 19/07/2025, 18:36