C’est un peu LA découverte de la semaine pour moi.

Alors qu’il m’arrivait de rentrer régulièrement les informations demandées par le module utilisé par de nombreux sites (dont Facebook il me semble), je n’avais pas idée de la finalité réelle de reCaptcha.

Pour les webmasters, reCaptcha est avant tout un service qui propose de fournir un outil de captcha (demander à un humain de saisir des chiffres/lettres affichés et qu’une machine ne peut décoder, afin d’accéder à des contenus réservés aux humains et bloqués pour les “bots”) assez performant, bien fait, et clé en main. Pas besoin de coder un quelconque générateur d’image, reCaptcha se charge de tout.

De mon point de vue, j’avais surtout remarqué que le module demandait de saisir deux vrais mots, alors que les autres systèmes de captcha demandaient de saisir des chiffres et/ou des lettres aléatoires. L’autre point qui m’avait intrigué avec reCaptcha était que, sur les deux mots affichés, si j’en rentrais un correctement (le premier), je pouvais saisir n’importe quoi pour le second, ça passait.

Mais en réalité, reCaptcha va beaucoup plus loin qu’un simple système de captcha, puisque son but est d’améliorer les systèmes d‘OCR (et en particulier celui de Google, qui a racheté reCaptcha…) de manière communautaire.

Ainsi, si le premier mot affiché est généré aléatoirement, l’outil en connaît donc la réponse et s’en sert pour identifier un humain, l’autre mot provient d’une page scannée que le système d’OCR ne parvient pas à déchiffrer, et compte donc sur l’humain pour l’aider. En regroupant un certain nombre de réponses fournies par les utilisateurs pour un seul mot, reCaptcha est donc capable de déterminer le vrai sens de ce mot.

Personnellement, je trouve que mettre à profit le fonctionnement d’un système pour en améliorer un autre est une idée géniale, qui devrait être utilisée beaucoup plus souvent que cela.