Date

Feb 4, 2024

Author

Youssef Jlidi

Topics

Interview

IA

News

3

minute read

Interview : "Réalité et démystification" de Carole Lailler

Interview : "Réalité et démystification" de Carole Lailler

J'ai eu le plaisir, que dis-je, l'honneur de rencontrer Carole Lailler.

On a eu l'occasion de discuter de pas mal d'éléments : IA, linguistique, AGI …

L'interview :

Q : Bonjour, Carole Lailler, c’est un plaisir de vous recevoir. Alors, commençons par des présentations. 

R : Bonjour, Youssef, que dire ? Je suis linguiste, scribe et causeuse ! Plus sérieusement, je suis titulaire d’un doctorat en sciences du langage que j’ai effectué dans un laboratoire d’informatique pour être au plus près des données et de la réalité des usages langagiers. C’est comme ça que je suis tombée dans les outils d’IA appliqués aux textes et à la parole il y a maintenant presque 2 décennies ! J’ai monté Scribe-conseil, ma boîte pour justement proposer un double regard sur les outils d’IA : d’une part, un regard aiguisé posé sur le versant technique et technologique : quels systèmes dans quelles chaînes de traitements et avec quelles évaluations ?  D’autre part, un regard bienveillant et jamais normatif à outrance sur le versant linguistique et les usages : quels sont les utilisateurs cibles et que font/disent-ils ?

Q : Vous êtes consultante en IA depuis presque 6 ans. Cela fait plus qu’une bonne partie de tous les nouveaux consultants ChatGPT qu’on peut retrouver sur LinkedIn… Qu’est-ce qui s’est passé ces dernières années ?

R: Oups… déjà ! Effectivement, le magnifique coup marketing d’OpenAI a mis en lumière la puissance des Transformers, héritiers des mécanismes d’attention à travers les LLM (Large Language Models). Ces modèles de langage (ils en existent d’autres, plus petits, depuis fort longtemps embarqués dans des systèmes de traduction ou de reconnaissance de la parole par exemple) ont une capacité non seulement à infuser nos usages les plus courants, mais aussi à générer du texte. C’est là la révolution : dans la production de contenus. Point de créativité cependant, tout est prévisible si j’ose dire puisque déjà vu à travers l’apprentissage.

Mais rappelons tout de même que si ce formidable outil a été plongé dans le grand bain de la foule des utilisateurs anonymes sans cas d’usages préalablement esquissés. En d’autres termes, il n’est pas fait pour… : merci de remplir les points de suspension !

De plus, on nous a présenté ChatGPT (pour ne pas le nommer) et ses copains Bard ou Claude comme des chatbots, des dialogueurs. Mais discutent-ils vraiment ou sont-ils simplement des élèves modèles qui répondent à coup sûr ? Pas toujours bien, mais à tous les coups ! 

Et rappelons également que les modèles de langage génératifs ne sont pas seuls dans des technos comme ChatGPT : choix des data et annotations en amont, heuristiques et traitements dédiés en aval, c’est un paquet cadeau parfois un peu encombrant !

Q: De nombreuses personnes parlent d’une révolution “paradigmatique” plus que technologique, l’IA est enfin devenue “réaliste”. Qu’en pensez-vous ?

R: Réaliste puisque disponible pour tout un chacun ou presque ! La réalité terrain est là ; à double titre, entre les données d’apprentissages (Wikipédia plus que corpus dédiés à des tâches) et les utilisations plus ou moins fantasques puisque non guidées par un objectif affiché. Le “ça sert à quoi” n’a pas été saturé, je le disais. 

Paradigmatique puisqu’on sort du modèle boîte de Petri, des cas d’usage dédiés et des évaluations idoines pour rencontrer le quotidien, les questions intimes et les métiers. Les outils d’IA appliqués aux textes et manipulant les langues semblent d’un coup enfin accessibles puisqu’un simple prompt (i.e. un énoncé consigne) donne lieu à une réponse sans autre forme de procès. 

Pourtant, en dehors de cette apparente facilité d’utilisation, les solutions sont complexes. Plus qu’un LLM, il s’agit d’une intrication de technos, d’heuristiques et de data… pour le meilleur comme pour le pire : n’oublions pas trop vite les hallucinations ni les dépenses énergétiques autour de ces outils. 

De même, il ne s’agit pas tant d’un dialogue que d’une réponse très stéréotypée. Amusez-vous à retrouver le pattern de réponse : le thème général du prompt est posé dans un énoncé introductif. Quelques bribes de réponses (souvent en liste avec majuscules aussi souvent que possible) sont données avant de conclure sur le caractère non exhaustif et non gravé dans le marbre du propos.


Q: En ce moment, c’est un peu la foire aux LLM. En France, nous avons Mistral qui semble faire beaucoup parler de lui. Avez-vous un modèle préféré ? (vous avez le droit de me dire que l’enjeu n’est pas dans les LLM…)

R: J’aime beaucoup Llma-2 de Meta. Et puisqu’on parle de bestioles à poil long, j’ai un petit faible pour l’essai effectué sur la langue française à partir de Llama justement. Il se nomme Vigogne — https://github.com/bofenghuang/vigogne. Ce LLM spécifié avec RAG me semble intéressant. En revanche, je ne l’ai pas évalué sur toute l’étendue des inexactitudes possibles. Une grande dépendance existe évidemment eu égard aux corpus utilisés pour le RAG… Mais la bonne nouvelle avec le RAG justement, c’est qu’on retrouve la notion d’adaptation aux contextes d’usage.

Q: Vous croyez aux AGI ? (d’ailleurs c’est quoi exactement ?)

R: Si on parle des outils d’IA générale avec conscience servie sur un plateau, non ! Définitivement non ! Penser qu’une IA puisse se doter d’une âme me semble aussi illusoire que vain. Le pas de côté, la surprise au milieu de l’attendu, les réseaux intertextuels joliment mélangés à nos cultures et souvenirs d’enfance sont ce qui nous permet de continuer à apprendre, d’interagir avec séduction parfois, mais pas toujours, bref de nous distinguer en tant qu’individu. La fatigue et le manque font également partie du jeu !

Q: Que pensez-vous des débats sur le remplacement de l’Homme par les IA ? Je suis passionné de SF, j’ai lu Carbon & Silicium de Mathieu Blabet, est-ce un scénario possible (si vous ne l’avez pas encore lu, je vous l’offre).

R: Les récits dystopiques sont là pour jouer sur la corde, pas seulement sensible, de nos vies. Il s’agit d’entrevoir les possibles si on ne se saisit pas de nos valeurs et éthiques. En revanche, il s’agit toujours d’une complication liée à l’interface chaise-clavier, pas clavier-serveur…

Q: Revenons sur Terre. On a l’impression qu’aujourd’hui l’IA c’est le truc pour faire danser Emmanuel Macron sur un clip de rap, cloner la voix d’un ami pour rigoler ou encore dessiner des images relativement belles. Que manque-t-il à l’IA pour devenir à la fois crédible et utile pour le grand nombre ? 

R: Le lien aux usages et aux utilisateurs, définitivement ! Si les deep Fakes sont éminemment dangereuses puisque surfent sur nos inattentions et nos fatigues, les outils doivent garder ce point de mire qu’est l’adjuvance. Or, ils ne peuvent réellement l’avoir qu’à travers la visée d’un cas d’usage et l’identification du public cible, de ses appétences, attentes, usages et détournements.


Q: Un chef d’entreprise vous demande des conseils pour “profiter de l’IA” vous lui répondez quoi ?

R: Donnez-moi vos data, je vous dirai comment en tirer une véritable substantifique moelle ! Avant même de penser Machine Learning, Deep et réseaux voire LLM (interroger un outil en langue naturelle, c’est tout de même plus confortable !), revenons à vos besoins et aux données que vous avez déjà. Et elles sont partout : verbatims, notes de compte-rendu, voix et tableurs ; il s’agit de les faire se mettre à table sans les brutaliser ! Moins interrogatoire que maïeutique en somme.

Q: Un étudiant vous demande des conseils pour “travailler dans l’IA” vous lui répondez quoi ?

R: Restez curieux que diable !  Et gardez une appétence pour la logique et les fondements mathématiques. 

Q : Vous le savez peut-être déjà, mais en marketing, l’écriture de contenu est essentielle pour bien se positionner sur Google (pour augmenter son trafic et ses ventes). Sauf que voilà, Google sait détecter du texte réalisée par de l’IA.

Pourriez-vous nous expliquer les éléments décisifs permettant de différencier un texte “humain” d’un texte “IA” ? 

R : Outre les fautes d’orthographe (!), le texte est moins convenu, plus surprenant. Il est souvent constitué de phrases possiblement plus longues avec un rythme qui varie au fur et à mesure de l’avancée du propos. Il possède une ponctuation plus variée, des adjectifs antéposés (avant le nom qu’il qualifie), des adverbes voire des relatives ! Bref, une écriture signature autant de la ligne éditoriale que de l’auteur lui-même. Car oui, chacun de nous possède un modèle de langage interne qui s’enrichit au fur et à mesure de nos lectures et rencontres ! Vous avez tous joué à repérer les expressions fétiches de vos profs, non ?!

Q: Je voulais switcher sur des questions orientées linguistiques. Je cultive un intérêt pour les mots et leur portée, ces sons qui véhiculent à la fois une réalité, mais aussi une Histoire (étymologie) et un sens profond. 

Je m’interroge parfois sur notre capacité à comprendre réellement les termes que nous utilisons.

Prenons un terme décliné en plusieurs langues : Amour, qui se dit “love” en anglais et “hob” en arabe. Ces trois mots sont différents, que ce soit dans leur forme ou dans leur histoire. 

Amour en français viendrait du latin “âme” + “être tourné vers”.

Love viendrait du “bas allemand”, “lofen” qui voudrait dire “tourner”

Hob viendrait de la graine qui fécond dans le sol.

Ces significations étymologiques permettent de comprendre encore mieux l’image que se faisaient nos ancêtres de certains termes et le sens profond qu’ils offrent (si l’on se donne les moyens de réfléchir et de méditer).

Pensez-vous que l’IA peut nous aider à faire ce travail de recherche ?

R: C’est un bien joli exemple ! Outre les origines des langues et les  travaux philologiques, il faut aussi préciser que les mots vieillissent, disparaissant parfois ou bien se transformant sous nos usages. Ainsi, copain et compagnon sont deux versions déclinées d’un même mot (tantôt cas sujet, tantôt cas objet - eh oui, le français médiéval se décline !), mais ils se sont teintés de sens différents au fur et à mesure de leur utilisation par les locuteurs, prenant deux chemins certes parallèles, mais non liés… 

Les outils d’IA et particulièrement les modèles de langage par leur capacité à ingurgiter beaucoup de données peuvent infuser des usages différents selon les époques, les ensembles de locuteurs ou scripteurs. Il convient alors de les confronter et d’analyser les résultats. On peut détecter du plagiat, mais aussi mesurer le taux de pénétration d’un vocabulaire de métier/spécialité (terminologique) dans le quotidien. En somme, ce sont de merveilleux outils d’investigations. N’oublions pas non plus les outils de traduction pour conserver la mémoire de langues rares (avec de moins en moins de locuteurs) et/ou pour décrypter des langues anciennes aujourd’hui disparues.


Q : Merci Carole. Je vous laisse le dernier mot.

R: Curiosité first et rappelons-nous, il ne s’agit que d’outils…




Selected Clients