Ce weekend, j’ai eu l’opportunité, à deux reprises, de jouer avec des reasoning language models ou modèles de langage de raisonnement.
Et le moins que l’on puisse dire, c’est que le résultat est plutôt inquiétant.
Premier cas d’usage : calcul entre deux dates
Alors que je migrais les articles de 2013, je suis tombé sur celui-ci, qui parlait des cinq ans du nom de domain elauhel.fr.
En consultant le Whois, j’ai constaté qu’il était maintenant âgé de plus de 6 000 jours.
Par curiosité, et plutôt que de faire le calcul moi-même, j’ai demandé à DeepSeek V3.2 :
Something made on 2008-06-24. What is going to be the day of its 10 000 days birthday?
Sa réponse :
The 10,000th day after June 24, 2008, will be November 10, 2035, which falls on a Saturday.
Cool.
Cependant, j’ai décidé de regarder comment il en était arrivé là, et… C’est tellement verbeux que je ne peux pas le partager directement sur cette page, mais je mets le fichier texte complet à disposition ici.
Techniquement ça tient la route, mais ça ressemble plus à du brute-force qu’à un éventuel raisonnement issu d’une supposée intelligence.
Second cas : statistique de prêts
Hier, je recevais un email de Kiva pour m’annoncer qu’un des prêts accordés à un emprunteur états-unien venait encore de finir en défaut.
Déjà agacé par le fait que je m’étais retrouvé, à mon insu, à prêter de l’argent à des citoyens de ce pays de cons ; j’ai aussi le sentiment que les emprunteurs s’y trouvant sont bien plus mauvais qu’ailleurs.
Afin de savoir si c’est la réalité ou bien si je suis un abruti plein de préjugés (les deux propositions n’étant pas exclusives), je suis allé récupérer un export CSV de l’ensemble des prêts effectués sur Kiva.
Puis j’ai demandé à différents LLM de me pondre des statistiques sur ce fichier.
Après une trentaine d’essais, je n’ai toujours pas réussi à obtenir des résultats dans lesquels je pourrais avoir confiance.
Initialement, c’est parti en sucette, car le CSV contient, en plus du montant que j’ai prêté personnellement, le montant global.
Quand j’ai vu apparaître des totaux supérieurs à $1 million, j’ai su qu’il fallait redresser la barre.
J’ai tenté de les forcer à lire les bonnes colonnes, mais ils continuaient à me fournir des valeurs incorrectes.
J’ai alors demandé à un LLM de me produire un simple script Python pour ne garder que les colonnes importantes.
Puis j’ai donné ce nouveau fichier à plusieurs LLM.
Cette fois, les montants semblaient réalistes.
Mais si je prêtais attention aux autres valeurs fournies, rapidement, je réalisais que c’était incorrect.
J’ai eu droit :
- à un nombre total de prêts variant de 400 à 668 (668 en réalité)
- à un nombre de prêts aux USA variant de 2 à 45 (34 en réalité)
- à un nombre de défauts aux USA variant de 2 à 9 (7 en réalité)
À aucun moment, je n’ai eu des résultats, sur ces valeurs faciles à vérifier, qui m’ont permis d’avoir confiance dans ce qui aurait pu être calculé par ailleurs.
L’avantage d’utiliser un LLM pour générer du code, c’est qu’il est relativement aisé de valider son fonctionnement, si tant est que l’on sache précisément ce que l’on attend.
Par contre, ici, c’est justement parce que je n’ai pas envie de faire les calculs qui me permettraient de valider le résultat, que je soumets le problème à un LLM.
Quand je vois la soupe que j’ai obtenue, je suis particulièrement inquiet.
L’IA est de plus en plus poussée pour les personnes chargées de réaliser ce genre d’analyses et de prendre des décisions en fonction des résultats obtenus.
Sachant que les résultats n’étaient pas fiables, je n’ai même pas perdu de temps à approfondir leur lecture ; mais si je devais prendre des décisions en me basant dessus, les conséquences pourraient être graves.
Pour information, sans entrer dans le détail des montants, car je n’ai pas envie de faire les calculs et qu’aucun LLM n’a pu me fournir une réponse en laquelle j’ai confiance, j’ai simplement fait les ratios sur le nombre de prêts.
Total de prêts : 668
Total de prêts aux USA : 34
Total de prêts en défaut : 22
Total de prêts en défaut aux USA : 7
Défaut global : 3.3%
Défault USA : 20.6%
Défault USA sur global : 31.8%
Voilà. Quasiment un tiers des défauts provient des USA. Thanks, Obama!
À titre de comparaison, le second, c’est le Paraguay avec 2 prêts en défaut sur un total de 54 (3.7% et 9.1% au global).
¡Muchas gracias, Peña!