Avoir un site internet, des médias de communication sur le web (réseaux sociaux, blogs…) c’est bien, mais encore faut-il veiller à les utiliser efficacement pour gagner en visibilité et en efficacité commerciale.
Chaque post, chaque texte, chaque photo, chaque commentaire sur les réseaux sociaux ou un site internet est utilisé par des algorithmes peut être référencé grâce aux mots. Se doter des moyens pour comprendre et prédire les résultats de vos efforts de SEO[1] est dorénavant fondamental, notamment si votre site est au centre de votre système de commercialisation.
Si l’optimisation du référencement a toujours fait partie des challenges de la communication sur le Web, les méthodes statistiques et l’écosystème de la donnée ouvrent dorénavant de nouveaux potentiels d’analyse au travers de l’optimisation par la donnée ou Data-Driven SEO.
Automatisation, reporting, systèmes d’alerte sont au cœur des enjeux de ces nouvelles approches. Ces outils sont devenus essentiels pour gagner en réactivité.
Un Data Scientist peut aider à comprendre les données de recherche et de trafic, à automatiser les analyses et prédire les résultats des stratégies de SEO. Comment travaille-t-il ? Quelles réponses contribue-t-il à construire ?
[1] SEO : Search Engine Optimization. Le SEO est le terme qui définit l’ensemble des techniques mises en œuvre pour améliorer la visibilité d’un site web sur les pages de résultats des moteurs de recherche. On peut aussi trouver le terme de référencement naturel.
1. Référencement SEO dans sa plus simple expression
Les moteurs de recherche ont des crawlers, aussi appelés spiders. Concrètement, ce sont des programmes informatiques qui vont parcourir les différents sites afin d’y récupérer le contenu des pages. Ce contenu est ensuite analysé puis indexé. Lorsqu’un utilisateur effectue une recherche sur un moteur de recherche, ce sont ces index qui sont interrogés. Le moteur de recherche propose alors la réponse (combinaison d’index) la plus pertinente par rapport à la requête de l’utilisateur en affichant les résultats sur la SERP[1].
Les critères utilisés par les moteurs de recherche pour privilégier un résultat sont multiples. Google en utiliserait plus de 200 – même si tous ne sont pas à considérer avec la même importance. On peut notamment citer :
- l’âge du domaine,
- la structure du site,
- la vitesse de chargement de la page,
- la qualité du contenu,
- l’unicité du contenu,
- la pertinence et le nombre des liens entrants/sortants…
Les approches d’optimisation du SEO reposent, pour la plupart, sur des approches empiriques d’optimisation.
[1] SERP : Search Engine Result Page
2. Données à disposition et apports du Data Scientist
Dans le contexte de l’optimisation du référencement, un Data Scientist peut aider à mieux comprendre les données de recherche et de trafic, permettre des recherches d’optimisation en temps « réel » et à prédire les résultats des stratégies de SEO. Il dispose pour cela de plusieurs axes d’analyse.
Optimisation des pages Web
Les logs sont les traces informatiques laissées lors de toute visite de page. Le travail du Data Scientist va permettre une priorisation des pages à fermer ou à rediriger, une automatisation de l’analyse des fichiers de logs, de la détection des ruptures de tendance, des pics d’erreur. Les approches de data visualisation permettront de fournir les résultats sous forme de système d’alerte ou de tableau de bord.
L’analyse préliminaire va permettre une classification de la donnée : distinguer les visites des crawlers, d’indexation des moteurs de recherche, des visites utilisateurs. En effet les crawlers de Google, ainsi que ses concurrents, ont des user-agent avec des adresses IP prédéfinies, qui permettent de les identifier dans la masse des visites.
On pourra ensuite étudier les logs selon diverses approches :
- mettre en évidence les pages renvoyant des erreurs (erreur 404 pour une page supprimée, etc.),
- détecter les pages ayant un temps de chargement anormalement élevé,
- ou bien encore tracer celles qui ont un nombre de visites faible voire nul au regard du crawl qu’elles consomment.
Il vaudra mieux économiser ce temps de crawl pour d’autres pages à plus forte valeur ajoutée.
Sur la base des inventaires de pages du site et de la structure, on pourra mieux analyser les raisons des performances de certaines pages. Le Data Scientist, par quelques requêtes, pourra isoler les pages orphelines ou peu linkées.
Veille marketing
Anticiper sur les résultats possibles d’une politique de référencement est dorénavant possible. Voir l’émergence d’un concurrent, de nouvelles tendances voire de nouveaux produits peut s’outiller grâce à la data.
Les méthodes de Web Scraping permettent d’automatiser le parcours d’un site Web. A l’image des crawlers des moteurs de recherche qui parcourent les sites à référencer, il est possible de récupérer de manière fréquente la SERP d’une liste de mots-clés prédéfinis.
Les axes d’analyse offerts au Data Scientist sont alors multiples : il peut analyser les positions à un certain point dans le temps, mais également les variations temporelles en historisant les données de ranking. Avec de l’inventivité, il peut proposer une carte de contrôle et mettre en place des règles de gestion avec les experts SEO pour être alerté au plus vite en cas d’incident sur le site. Par comptage, il peut voir l’émergence d’un concurrent.
En complément, le Data Scientist pourra automatiser et industrialiser certaines tâches dans la recherche de nouveaux mots-clés et d’historiser certains de ces mots-clés. Ils pourront donner lieu à la mise en exergue de nouveaux services ou produits, de facteurs différenciants via la création de nouvelles pages sur le site ou simplement permettre la mise en place d’un vivier de futures opportunités. Pensons par exemple à un mot-clé comme “batterie externe pour téléphone” et aux sites web qui ont flairé le bon coup les premiers.
Outils d’aide à la décision
Les outils de suivi de l’audience, tels que Google Analytics ou Matomo, permettent au Data Scientist de disposer de l’ensemble des données pour pouvoir créer des tableaux de bord facilitant la prise de décision et la réactivité.
Il pourra créer des graphiques personnalisés axés sur le suivi du comportement des utilisateurs et faciliter les évolutions adhoc des environnements commerciaux notamment. On pourra ainsi retracer son parcours, page par page voire au sein de chaque page. Pour un site de e-commerce, le Data Scientist créera un tunnel de conversion et permettra la compréhension de ce qui se passe à chaque étape de la transaction en croisant les données de visites avec les logs par exemple.
3. Outils et méthodes pour aller plus loin dans l’analyse des contenus
Les outils à disposition du Data Scientist pour l’analyse du référencement sont nombreux. En plus des solutions sur étagère proposées par les éditeurs, les outils et langages Open Source permettent de couvrir toute la palette des besoins évoqués.
Par exemple, la suite ELK (ElasticSearch, Logstash, Kibana) regroupe un outil d’analyse de logs (Logstash), une solution d’indexation (Elasticsearch), et la data visualisation associée (Kibana).
Les langages de la Data Science, parmi lesquels Python et R permettent tous deux d’effectuer des requêtes pour récupérer des pages ou informations sur Internet, offrent des méthodes d’analyse temporelle, des librairies dédiées à la data visualisation, etc. Par l’intermédiaire de packages tels que RGoogleAnalytics et searchConsoleR, R permet même de récupérer certaines données de manière automatisée par l’intermédiaire des API de Google.
On retrouve également dans ces deux langages, et d’autant plus sur Python, d’excellents outils de traitement du langage naturel, ou NLP. Le Data Scientist pourra, par exemple, proposer une méthode de détection du contenu dupliqué, ou une analyse syntaxique des contenus les mieux référencés. Les packages nltk ou spaCy de Python seront des alliés de choix dans cette mission.
4. Perspectives et évolutions
La complexité et l’opacité de l’algorithme de ranking de Google rendent les analyses statistiques complexes. L’optimisation du SEO est un domaine qui évolue constamment. Construire des outils d’analyse, flexibles et réactifs est devenu indispensable pour répondre aux besoins d’adaptation permanent à la complexité et aux changements. Les évolutions suivantes sont à attendre et devront être intégrées pour continuer à assurer la compétitivité des organisations commerciales et de leur communication :
Complexification des facteurs
-
La recherche vocale
Augmentation de l’utilisation des assistants vocaux tels que Siri, Alexa et Google Assistant, devant être intégrés au SEO et donc aux analyses y afférant
Impératifs de conception
-
La qualité du contenu
Une place croissante de l’analyse sémantique dans les moteurs de recherche et donc un impératif de contenu de qualité, unique et précis, surtout si le secteur est technique et de niche
-
L’expérience utilisateur
Une prise en compte croissante de l’expérience utilisateur et donc un impératif pour les entreprises à créer un site Web convivial, facile à naviguer et accessible
En synthèse, les entreprises qui veulent maintenir ou améliorer leur classement dans les résultats de recherche devront s’adapter à ces tendances en évolution constante.
Au regard des complexités induites, le rôle du Data Scientist et l’intégration de l’IA peuvent devenir de plus en plus centraux.
Sources : https://www.seo.fr – https://www.orixa-media.com – https://www.blogdumoderateur.com/seo-outils-ia-revolutionner-redaction-contenu/ – https://support.google.com/webmasters/answer/9128668?hl=fr