Logo de Wikit
12 mai 2022
Technologie

Question Answering, obtenez la réponse à votre question

Imaginez l'ensemble des documents produits dans votre organisation au fil des projets et des années. Tous ces documents qui constituent un formidable patrimoine informationnel pour vos équipes, et dont la majorité sont bien (trop !) à l'abri au fin fond d'un système de stockage de fichiers ou de gestion électronique de documents (par exemple : SharePoint, OneDrive, Google Drive, Alfresco, des lecteurs partagés, ...).

Comment faire pour exploiter ces documents ?

Les possibilités sont multiples, voici quelques approches :

• Proposer un outil d'organisation de l'information, orienté utilisateur final (ex : portail, site, chatbot, ...), qui permette à l'employé·e de naviguer vers les documents clés ;

• Proposer un moteur de recherche qui indexe lesdits documents, pour proposer ceux les plus pertinents à partir des mots-clés de l'utilisateur ;

• Proposer un système de questions-réponses qui ingère les documents pour en extraire des réponses.

Dans cet article, nous esquissons quelques directions pour vous aider à tirer profit de votre patrimoine documentaire 📄📄📄



La première approche – avec un outil pour naviguer vers les documents – repose sur un important travail intellectuel et manuel pour concevoir (et maintenir) la structure qui va guider l'utilisateur vers les bons documents.

Elle est adaptée si le nombre de documents à mettre en avant reste mesuré. La distillation fine des documents dans les pages – ou encore scripts conversationnels en cas de chatbot FAQ – nécessite en effet du temps et une bonne compréhension de l’organisation globale de la connaissance dans le système.

Concrètement, ce type d'outil peut être un site SharePoint, un espace de travail Notion ou encore un chatbot interne de support utilisateur.

Le système guide l'utilisateur par exemple via une arborescence de navigation ou des scripts conversationnelles, jusqu'à obtention du document qui contient la précieuse information recherchée.


Moteur de recherche 🔍


Cette seconde approche est la plus simple à mettre en place d'un point de vue automatisation. Les documents sont analysés par l'algorithme d'indexation du moteur de recherche. L'utilisateur peut alors saisir les mots-clés associés à son besoin, puis il peut choisir dans les résultats de sa recherche.

Voici trois exemples emblématiques dans les entreprises :

Elasticsearch la solution open source la plus connue sur le sujet ; • Google Cloud Search, la version entreprise du célèbre moteur du recherche du web, proposé en particulier pour explorer les contenus créés dans Google Workplace ; • Et aussi Algolia, une entreprise fruit de beaux cerveaux français 🇫🇷, qui est spécialisée dans le search as a service et compte 1,5 milliard de milliards de recherche par an !

Si cette approche donne rapidement des résultats, un point est fondamental dans l'expérience utilisateur avec les moteurs de recherche : c'est bien l'utilisateur qui choisit sa réponse, et non le système !


Système de questions-réponses 💬


Ensuite, autre approche proposée pour exploiter le contenu des documents : les systèmes de questions-réponses ou de Question Answering (QA).

Un système de questions-réponses est un programme de traitement automatique du langage naturel (NLP) visant à extraire une réponse à une question dans un ensemble de documents.

Un exemple sera parlant. Voici quelques interactions de question/réponse tirées du FQuAD, un jeu de données de Question Answering en français issu des travaux de R&D de Illuin Technology.

💬 Question : Quand risquons nous d'atteindre un réchauffement à 1.5 degrés ?

👉 Réponse : entre 2030 et 2052

💬 Question : Quels sont les gaz à effet de serre autres que le CO2?

👉 Réponse : méthane, le noir de carbone, le protoxyde d'azote)

💬 Question : Comment améliorer l'efficacité de l'industrie ?

👉 Réponse : de nouvelles politiques et recherches

Nous voyons bien que l'objectif est que la machine réponde précisément et spécifiquement à la question de l'humain.


Comment ça marche le Question Answering ?

Il existe plusieurs familles de question answering : celui dit extractif, qui opère l’extraction de la réponse à une question dans un texte), et le question answering génératif, qui produit une réponse à partir d’un texte et d’une question. Nous nous limitons ici aux systèmes de questions-réponses extractif, i.e. l’*Extractive Question Answering.*

De façon schématique, deux briques composent un système de questions-réponses extractif :

• Un Retriever, pour identifier le ou les documents pertinents par rapport à la question de l'utilisateur ; • Un Reader, pour extraire la réponse dans un document.

Ces modules s'appuient en général sur des modèles de représentation du langage (BERT étant le plus connu dans le domaine du NLP) et des réseaux de neurones (on parle de deep learning, un sous-discipline du machine learning).

Sur ce domaine du QA, chez Wikit, nous travaillons notamment avec IBM Watson et sa galaxie d'outils de NLP – par exemple Watson Discovery – et surtout avec The QA Company, une startup amie 💚 qui est experte du sujet Question Answering.


Et maintenant ?


Le potentiel des systèmes de questions-réponses est énorme. S'il reste des verrous technologiques et scientifiques à résoudre pour une adoption massive par les entreprises, c'est le bon moment de lancer des projets d'innovation et même des expérimentations avec des jeux de documents restreints (i.e. des documents internes de support informatique ou sur la gouvernance et les processus de l'entreprise).

Cela peut prendre forme d'un chatbot FAQ dynamique qui s'appuie sur un moteur de QA ; ou d'un système de QA autonome, interrogeable depuis une page qui ressemble à un moteur de recherche... mais qui va plus loin, vers des réponses plus fines 🔍