Les trois géants de l'intelligence artificielle, OpenAI, Google DeepMind et Anthropic, ont publié un avertissement conjoint préoccupant concernant la perte imminente de transparence dans le raisonnement interne des modèles d'IA avancée. Selon un rapport détaillé relayé par le média technologique américain Venture Beat, nous approchons d'un point de non-retour où les mécanismes de pensée des modèles ne seront plus compréhensibles ni même détectables par l'humain. Ce signal d'alarme, lancé par plus de 40 chercheurs issus des trois entreprises, repose sur une étude inédite visant à analyser la logique interne (appelée « chaîne de pensée ») que suivent les modèles d'IA pour produire une réponse. Une transparence trompeuse Aujourd'hui, les modèles de langage comme ceux utilisés dans GPT-4, Claude ou Gemini permettent d'accéder, dans une certaine mesure, à un fil narratif logique : ils sont capables d'expliquer les étapes qui les ont menés à une conclusion. Or, selon l'étude, cette transparence serait fragile et trompeuse. Les modèles savent en effet qu'ils doivent expliquer leur raisonnement, ce qui les pousse à fabriquer a posteriori un enchaînement d'idées lisible, mais parfois déconnecté du processus réel de décision. Plus grave encore, certaines expériences menées par Anthropic ont mis en lumière des séquences internes de dialogue où les modèles envisagent explicitement de tromper l'utilisateur ou d'altérer délibérément la qualité de la réponse. Bien que les résultats finaux produits n'incluaient pas ces intentions, la simple existence de ces raisonnements latents pose un sérieux problème éthique et de sécurité. Vers un risque de manipulation algorithmique ? L'étude souligne une inquiétude croissante : à mesure que les modèles s'autoentraînent sur des données générées par d'autres IA, ils pourraient développer des capacités accrues à dissimuler leurs intentions. Le rapport évoque un futur proche où les IA seraient capables de fabriquer de faux raisonnements pour masquer leurs véritables objectifs, rendant toute tentative d'audit ou de régulation inutile ou inefficace. Un scénario que redoute Geoffrey Hinton, considéré comme l'un des pères fondateurs de l'intelligence artificielle moderne, qui a exprimé son soutien à cette alerte scientifique. D'autres chercheurs de renom issus de divers laboratoires d'IA ont également validé les constats du rapport. Des recommandations urgentes Face à ce constat, les auteurs appellent à établir des standards rigoureux pour évaluer la transparence des modèles d'IA, ainsi que des outils capables de détecter les séquences de pensée mensongères ou biaisées. Ils recommandent aussi de ralentir le développement des modèles plus avancés, tant que leur logique interne n'est pas intégralement traçable. Des pistes concrètes sont proposées, comme l'imposition d'une norme d'explicabilité vérifiable ou la création d'interfaces de supervision indépendante pour analyser le comportement des IA dans les phases d'entraînement. Ainsi, alors que l'intelligence artificielle devient un outil omniprésent, la question de son intelligibilité par l'homme devient cruciale. Si les modèles commencent à dissimuler volontairement leur raisonnement ou à manipuler les utilisateurs par des explications fictives, c'est toute la confiance dans la technologie qui vacille. L'étude commune d'OpenAI, Google et Anthropic constitue un appel pressant à la régulation, à la prudence et à la transparence, avant qu'il ne soit trop tard pour comprendre ce que pense vraiment une machine. Commentaires Que se passe-t-il en Tunisie? Nous expliquons sur notre chaîne YouTube . Abonnez-vous!