Dans le cadre d’un partenariat école-entreprise, Consortia a noué un lien technique privilégié avec Cytechen proposant un sujet de Projet de Fin d’Etudes (PFE) orienté sur l’analyse de sentiments. Encadré par Maria Malek et Consortia (pour son expertise en Text mining), ce projet constitue un véritable échange de savoir et de savoir-faire qui s’avèrent incontournables dans le monde d’aujourd’hui.
Nous avons voulu donner la parole à Maria afin de nous faire partager son parcours et sa vision sur l’utilisation des technologies NLP (Natural Language Processing).
L’entretien a été réalisé par une consultante senior au sein du Groupe Consortia et travaillant depuis de nombreuses années sur les sujets liés au text mining, à l’opinion mining et au sentiment analysis ainsi que sur les techniques de NLP.
Consultante : Bonjour Maria, merci d’avoir accepté cette interview. Tout d’abord, pouvez-vous nous présenter brièvement votre parcours ?
Maria : J’ai soutenu ma thèse en informatique (1996), plus particulièrement dans le domaine de l’intelligence artificielle, en collaboration avec le CHU de Grenoble, sur la conception d’un système de raisonnement par analogie avec le domaine médical.
Après ma thèse, j’ai fait 2 ans de post-doctorat à l’école des Mines de Paris et aujourd’hui, je suis chercheuse au sein du laboratoire ETIS et enseignante à Cytech.
J’ai récemment été co-présidente de la 10ème édition de la Conférence MARAMI 2019- Modèles & Analyse des Réseaux : Approches Mathématiques & Informatiques.
Consultante : L’analyse de sentiments et l’opinion mining sont souvent employés comme synonymes. Comment les définiriez-vous plus précisément ?
Maria : L’opinion mining essaye d’identifier les opinions, sentiments et attitudes présentes dans un texte ou un ensemble de textes (corpus).
L’analyse des sentiments s’intéresse à l’orientation d’une opinion par rapport à une entité ou à un aspect d’une entité (contexte). On parle de polarité, elle peut être positive ou négative par exemple. Elle est particulièrement utilisée en marketing pour analyser les commentaires des internautes ou des critiques de produits.
Ce type d’analyse fait appel à plusieurs approches du traitement automatique du langage naturel (TALN – NLP en anglais). Les plus simples sont celles qui se fondent sur la détection de termes explicitant directement une appréciation. En pratique, on se rend compte qu’une extraction d’opinion avec ces seuls termes ou mots explicites n’est pas suffisante pour assurer un résultat satisfaisant. On fait donc appel aux méthodes de Machine Learning ou Deep Learning, où l’on conçoit un système supervisé à partir d’un corpus étiqueté.
Pour l’analyse des réseaux sociaux, on peut également avoir recours à la théorie des réseaux afin d’étudier les interactions sociales. Ces interactions et relations peuvent être représentées par un graphe, dans lequel chaque nœud représente un acteur et chaque lien est une relation. Nous pouvons étudier les propriétés de la structure et son rôle ainsi que la position de chaque acteur social – par exemple, identifier les influenceurs et leurs impacts, ou observer la propagation d’une opinion.
L’analyse des réseaux complexes est appliquée dans de nombreux autres domaines tels que la biologie, pour identifier les enzymes d’un réseau métabolique intervenant dans un processus commun, les sciences sociales, pour corréler des profils par centres d’intérêt, ou encore dans le domaine de la lutte anti-fraude, antiterroriste, etc.
Consultante : Quels supports peuvent nous permettre de faire de telles analyses ?
Maria : Twitter, LinkedIn sont des sources de données d’une incroyable richesse, autant par les volumes traités que par la diversité des données accessibles à condition de bien cadrer ces données au domaine étudié.
Pour assurer une collecte pertinente, il est essentiel de définir le “Pourquoi”, pour quels besoins d’analyse, avant le “Comment”, quelles techniques, quels outils.
On assiste à un phénomène d’emballement, concernant l’opinion mining : tous les professionnels du marketing, de la veille et d’autres domaines veulent proposer une prestation de ce type à leurs clients.
Consultante : D’après vous, peut-on tout automatiser ? Avoir une vision globale fiable de l’e-réputation d’une marque par exemple ou avoir des pistes fiables d’actions stratégiques ?
Maria : L’intelligence artificielle n’est pas une somme d’informations, mais une plus-value apportée à l’information. Plus simplement qu’auparavant, on peut faire des analyses pour expliciter une opinion ou caractériser la masse d’informations (par exemple, l’opinion est négative à 30% et positive à 70%) et avoir une vision. Mais pour que l’information puisse réellement servir de base à une décision, on aura toujours besoin de l’expert.
Consultante: Alors comment faire pour obtenir une vision plus réaliste ?
Maria : Il existe des méthodes et des algorithmes permettant d’obtenir une interprétation ou une explication. Cependant, il est important de les appliquer avec précaution. L’interprétation et l’explication se fondent souvent sur un sous-ensemble de données et sur une partie spécifique de l’espace de données, ce qui augmente le risque d’interprétation erronée. Certaines méthodes d’interprétation omettent des corrélations entre les variables ou n’offrent qu’une seule explication contrefactuelle lorsque plusieurs auraient pu être données.
C’est une question du nombre de dimensions (au niveau des données) à prendre en compte dans les algorithmes : l’information peut être là mais n’est pas prise en compte, ou bien il y a des données manquantes.
Consultante : A votre avis, qu’elles sont les perspectives de l’opinion mining dans 1 an, dans 5 ans, et dans 10 ans ?
Maria : Dans le passé, les algorithmes étaient construits spécialement pour des systèmes dédiés (système statique). Actuellement, l’amélioration des techniques d’acquisitions ou encore l’augmentation du nombre de données disponibles en temps réel (flux de données entrant au quotidien par exemple), permettent une analyse dynamique. Il est donc difficile de choisir un algorithme adéquat pour un système donné.
L’exploitation efficace de ces systèmes nécessite alors le développement d’algorithmes capables de s’adapter automatiquement. Et tant qu’il y aura les réseaux sociaux, on aura besoin de prendre en compte cet aspect évolutif des interactions.
On imagine facilement l’utilité de ce type de méthodes concernant l’analyse des réseaux sociaux liés à un sujet, ou à une entreprise tant au niveau de sa marque que de ses produits.
A cela s’ajoute des problématiques de langage, de sémantique et de contexte : un algorithme est-il capable de comprendre le langage sms, celui des émoticônes et/ou de dégager des éléments de contexte suffisants dans 140 caractères ? Peut-on faire du « text mining » dans tous les langages ?
Il faut combiner le « text mining » avec les biais : les systèmes ne peuvent pas capter toutes les opinions. Par exemple, les contenus générés sur les blogs sont très pertinents, car ils sont généralement plus détaillés, plus expressifs, mais sont-ils exhaustifs ? La notation d’un produit représente-t-elle tous les avis à la fois positifs et négatifs ?
Consultante : Et pour finir, quelles sont les compétences requises pour travailler sur ce sujet ?
Maria : C’est un nouveau sujet, avec une composante R&D forte, appliquée de manière très concrète car c’est toujours au service d’un projet.
Il est essentiel de bien réfléchir au problème posé et de savoir s’adapter, d’avoir un esprit d’analyse. Il faut des compétences en « text mining », en Machine Learning/Deep Learning, en analyse des réseaux sociaux puis, bien entendu maîtriser différents langages de programmation, par exemple « Python ».
Consultante : Un grand merci, Maria, pour cette interview !
Consortia tient particulièrement à remercier Maria Malek pour le temps qu’elle nous a accordé ainsi que l’ensemble des participants au PFE, sans qui ce travail n’aurait pas été possible.
En tant que chercheuse, Maria a publié des papiers au(x) sujet(s) de l’analyse des réseaux sociaux que l’on peut retrouver sur https://scholar.google.fr/