CC : J. Dassié
Projet

Peut-on réviser les cours avec Archéo-Bot ?

Un agent conversationnel intelligent pour approfondir les notions d'archéologie...

Composante : Département Histoire de l'art et Archéologie
Porteurs de projet : Guillaume Simiand, Alain Duplouy, Vincenzo Capozzoli
Public : Étudiants de L1
Période : 2023-2024

 

Portrait de Guillaume Simiand

Encyclopédie versus cours situé ?
"La concurrence de la machine oblige l’enseignant à se poser la question de sa plus-value"
Guillaume SIMIAND

Contexte

Enseignant de culture générale, mais aussi programmeur, Guillaume Simiand travaille de longue date sur les questions relatives au web sémantique. C’est tout naturellement qu’il s’est intéressé aux usages pédagogiques de l’IA avec le désir de développer des outils sur mesure pour répondre aux besoins exprimés par les enseignants. Cette proposition a trouvé rapidement un écho à l’UFR d’Histoire de l’art et d’archéologie où Alain Duplouy et Vincenzo Capozzoli ont accepté de jouer le jeu et d’entrer dans l’aventure. Entre juillet et novembre 2023, ils mettent en commun leurs énergies pour parvenir à créer un « compagnon intelligent », nommé Archéo-Bot, susceptible d’aider les étudiants de L1, L2 et L3 à mener une exploration avancée des questions archéologiques ou à effectuer des recherches ciblées sur leurs lacunes.

Dispositif mis en œuvre  

Disponible sur un espace de cours réservé aux étudiants de l’UFR sur la plateforme EPI, l’interface est simplissime. Comme tous les agents conversationnels, Archéo-Bot se présente sous la forme un modeste champ de texte vierge où l’étudiant pourra poser une question en rapport avec le cours. En cinq à dix minutes, Archéo-Bot fournit un écrit de plusieurs pages, correctement rédigé, structuré selon un plan parfaitement clair comportant définitions, analyses, exemples et résumé synthétique. Plus étonnant : Archéo-Bot site ses sources au bas de chaque partie. Les sources en question sont le plus souvent des textes (articles ou ouvrages de référence), mais également des vidéos ou des podcast issus de la recherche scientifique. A terme, toutes les sources seront immédiatement vérifiables en cliquant sur le lien qui mène au document.

Les questions que les étudiants peuvent poser à ce compagnon intelligent sont infinies :
•    Préciser une définition : « qu’est-ce que l’épigraphie ? », « qu’est-ce que l’archéologie préventive ? », « qu’est-ce que l’archéologie du paysage ? »
•    Obtenir des informations sur un process ou une notion : « comment dater un os ? », « explique-moi la construction angulaire dans l’ordre dorique ».
•    Explorer les axes de grands débats : « existe-t-il une ou des archéologies ? »

Archéo-Bot n’aura rien à dire sur un sujet externe, par exemple en histoire contemporaine. Sa réponse renverra alors l’étudiant à d’autres sources : « Après avoir examiné les sources fournies, il apparaît qu'aucune d'entre elles ne contient d'informations pertinentes… Il est recommandé de consulter des sources historiques fiables et vérifiées ». Archéo-Bot est donc capable de reconnaître une question hors sujet, d’expliquer pourquoi - et ce, d’une façon conforme aux règles d’usage dans les interactions scientifiques.

Les enseignants porteurs du projet se sont assurés, sur un échantillon significatif de réponses, que celles-ci ne comportent pas d’erreurs et livrent aux étudiants un contenu approprié et qualitatif. Contrairement aux outils d’IA actuellement disponibles au grand public, Archéo-Bot n’hallucine pas, ou extrêmement peu. C’était bien entendu l’objectif, et il est atteint.

Démarche projet

Si cet outil paraît simple, c’est en réalité au prix d’un très gros travail de développement que les retours du chat-bot produisent ces résultats satisfaisants. Le premier travail est d’établir une base de données ample et crédible : les enseignants ont sélectionné 22 000 documents, représentant 90 millions de signes pour nourrir Archéo-Bot. Ces documents sont divers : cours des enseignants eux-mêmes, articles issus de bases de données de recherche, ouvrages de référence, archives scannées en PDF, interventions vidéo ou podcasts issus de colloques scientifiques ou de modules de formation. Lorsqu’elles sont incomplètes, les métadonnées sont précisées manuellement par une personne compétente (enseignant-chercheur ou documentaliste).

Cette base de données a été vectorialisée et associée à Archéo-Bot. Celui-ci va chercher dans toutes les pièces-jointes. Il va représenter mathématiquement le texte complet et en faire une analyse sémantique. Un travail de programmation a été réalisé de sorte que le chat-bot repère des mots-clés et organise sa réponse de façon académique : décomposer, reformuler la question ou résumer le résultat. Cela permet d’obtenir des réponses structurées en langage naturel, et non simplement des retours de requêtes remontant des fragments ou extraits des sources.

On l’aura compris, l’étudiant obtient ainsi une réponse bien plus fournie et construite que ce que lui permettrait d’obtenir un simple moteur de recherche, mais également très différente de ce que pourrait produire une IA grand public. La qualité de ces réponses vient du fait que les sources dont Archéo-Bot se sert sont à la fois limitées à la littérature scientifique et en nombre suffisant pour aborder quasiment tous les aspects du champ disciplinaire choisi. Bien qu’il ne soit pas encore en mesure de mettre entre guillemets des citations littérales, le chat-bot est capable d’identifier et de citer la source des idées qu’il restitue : un point absolument stratégique dans le contexte de l’enseignement ou de la recherche.

En effet, pour l’instant, les IA grand public hallucinent aussi bien les contenus que les sources elles-mêmes. Ces hallucinations sèment légitimement le doute dans la communauté scientifique et enseignante, sur la pertinence d’utiliser les IA dans le cadre universitaire. L’expérience Archéo-Bot sur un corpus fermé – et dont les résultats ne sont pas reversés à la base de données – permet de se prémunir des travers de ces outils trop larges que sont les agents conversationnels gratuitement disponibles en ligne.

L’expérience tend donc à montrer qu’à la condition que les bases de données soient fiables et complètes, les outils de chat-bot permettent d’obtenir des réponses de très bon niveau, utilisables non seulement par les étudiants pour approfondir le cours, mais également par les chercheurs pour l’indentification de sources en rapport avec leur sujet.

Ouvertures

Dans son développement actuel, l’outil est largement adapté à l’usage prévu : permettre à l’étudiant de réviser, compléter ou approfondir les notions du cours. Cependant au fur et à mesure que la base de données s’enrichit, Archéo-Bot devient trop puissant pour cet usage et renvoie des réponses dont la précision et la complexité ne sont pas requises dans les premières années d’un parcours en Histoire de l’art et archéologie.
L’idée serait donc d’imaginer à terme deux outils différents : le premier pour les étudiants (avec une base de données restreinte), le second pour les chercheurs avec une base de données augmentée allant bien au-delà de la version actuelle. De telles bases de données très complètes et exploitables pour la recherche sont envisageables dans le cadre de partenariats avec d’autres universités et institutions.

Conclusions

Si le projet ouvre de belles perspectives, celles-ci ne sont pas simples à mettre en œuvre. Il faut construire et alimenter des bases de données de qualité. Cela requiert un énorme travail, d’identification, de numérisation, de référencement et d’indexation. Il faut ensuite vérifier cette base, traquer les erreurs éventuelles, redresser les biais. Cela fait émerger de nouveaux types de tâches que les chercheurs ne sont pas forcément prêts à assumer.

Par ailleurs, ces outils sont loin d’être gratuits et sans conséquences. Chaque question posée consomme de l’intelligence artificielle (celle de Chat-GPT ou d’un autre modèle de langage tel que Mistral). A l’heure actuelle, si ces outils étaient massivement utilisés par les étudiants et les chercheurs, les coûts financiers seraient astronomiques – sans même parler des coûts écologiques, qui s’annoncent, également, colossaux.

Enfin, l’outil aussi performant soit-il, ne remplacera jamais la présence et l’expérience incarnées de l’enseignant, son engagement et ses prises de positions. C’est le regard situé de l’enseignant qui rend un contenu disciplinaire appropriable par l’étudiant, qui lui donne sens et l’anime. S’il semble inévitable que l’IA, conquière, à court ou moyen terme, une place importante dans la transmission des savoirs, elle ne remplacera pas pour autant l’enseignant. Mais elle met plus que jamais en valeur cette axiome de la pédagogie : le rôle de l’enseignant n’est pas seulement d’apprendre à l’étudiant à fournir de bonnes réponses mais, surtout, de lui apprendre à poser les bonnes questions.

Complément

Pour en savoir plus sur les aspects techniques, voir l'article publié par l'observatoire de l'IA (décembre 2023) : Un compagnon intelligent et vérifié pour explorer l’archéologie et ses méthodes avec LangChain.

 

Contenus liés

Projet

Winter School Ancient Cities

Un projet international en Archéologie sur les cités grecques et romaines Composante : UFR 03...