L’analyse du problème de l’analyse des mots clés

J’ai une énigme à résoudre aujourd’hui. Je suis dans un processus d’analyse des mots clés qui sont les plus utilisés pour venir consulter un de mes sites. Cette analyse me permettra d’établir un tableau de bord pour suivre les objectifs d’optimisation de ce site pour les moteurs de recherche. Je présenterai bientôt un résumé de la méthodologie que j’utilise pour rechercher et déterminer les mots clés qui sont importants à suivre, mais pour l’instant je suis aux prises avec une donnée vraiment bizarre. En fait, il me semble que George Bataille serait mort de rire, car je suis pris avec un impossible. J’aimerais bien que vous me disiez quelle peut être la cause de cet impossible, car je ne comprends pas. Je pourrais bien me fermer les yeux et continuer de faire mon travail comme si de rien n’était, mais ça m’embête de ne pas comprendre. Voici la brève histoire de ma rencontre avec cet impossible.

Mots clés et modificateurs

Tout a commencé quand j’analysais les modificateurs les plus populaires des termes que je cible sur mon site. J’étais en train d’utiliser la segmentation par mots clés afin de mieux comprendre l’impact des principaux termes que je cible ainsi que leurs modificateurs.

Analyse du trafic en provenance des mots clés

Analyse du trafic en provenance des mots clés

Les termes ciblés sont la raison d’être de mon site. Par exemple, pour un site de commerce électronique,  ça pourrait être le nom d’un produit (par exemple, un « Kindle« ).

Les modificateurs sont les mots clés qui sont associés aux termes principaux que je vise. Pour le SEO, j’aime bien distinguer 4 types de modificateurs :

  1. les types – par exemple « 3G » ou « wifi » dans l’expression « kindle 3G » ou bien « kindle wifi »
  2. les intentions – par exemple: « buy, « reviews » ou « bargain », dans l’expression « buy a kindle » ou « kindle reviews » ou « kindle bargains »; et
  3. les lieux – par exemple « Amazon » dans l’expression « buy a Kindle in Canada »; et
  4. les marques – par exemple, « Amazon » dans l’expression « Amazon Kindle ».

Il y a probablement bien d’autres modificateurs en fonction des types de solutions interactives analysées. En fait, si vous êtes un chercheur de mots clés, j’aimerais bien que vous preniez le temps de laisser un commentaire pour me faire part des modificateurs que vous utilisez pour classifier vos termes des recherches analysés.

Toujours est-il que je cherchais les modificateurs que mes clients utilisent pour chercher des produits spécifiques sur mon site.

Les révélations du « weighted sort »

J’en étais à utiliser la magnifique fonction du tri pondéré (weighted sort) en segmentant avec le taux de rebond pour valider si je n’avais pas oublié certaines opportunités que je ne devais pas laisser filer.

D’une part, je voulais comprendre quels étaient les modificateurs populaires pour mes produits qui généraient de faibles taux de rebonds. Cette donnée me permettrait ensuite de mesurer mon rang sur les moteurs de recherche comme Google ou bien Bing et de mettre en place des stratégies nécessaires afin d’améliorer le référencement de ces termes. La logique étant que puisque ces mots clés fonctionnent bien sur mon site, si j’améliore leur positionnement sur les moteurs de recherche, je pourrai probablement améliorer le rendement de ma solution d’affaires électroniques.

Exemples d'opportunités pour des modificateurs avec faibles taux de rebond

Exemples d'opportunités pour des modificateurs avec faibles taux de rebond

D’autre part, je voulais comprendre si j’avais aussi des modificateurs populaires qui généraient de forts taux de rebond. C’est que si certains termes sont populaires pour trouver mon site, mais que les gens rebondissent irrémédiablement lorsqu’ils le visitent, c’est peut-être que je dois en améliorer le contenu afin que ceux-ci trouvent une réponse à leur recherche. Ainsi, un rebond se transformera peut-être en une conversion…

À quoi bon me soucier du SEO pour ces termes quand c’est clairement l’information qui fait défaut?

Exemples de contenus qu'il faut optimiser

Exemples de contenus qu'il faut optimiser

L’impossible de Google

Et voilà que je rencontre mon impossible… Vous l’avez remarqué?

Bogue de Google Analytics

Bogue de Google Analytics

Comment est-ce possible d’obtenir un taux de rebond de 100%, un temps moyen de 0 seconde et un nombre moyen de pages par visites de 25.75? Hummmm.

L’hypothèse principale pour expliquer ce bogue était d’accuser Google Inc. et son Instant Preview. C’est qu’il y avait eu plusieurs discussions à propos des pages vues générées par Instant et qui faussaient à la hausse les statistiques de consultation des sites en provenance des visites avec recherche.

Segmentation méthodique

Même si le problème de Google Instant est déjà résolu, je me dis que c’est probablement ce qui est arrivé. Pour valider cette hypothèse, je filtre le terme de recherche énigmatique avec la dimension des « Services Provider » afin de trouver la marque de Google. Déception. Non seulement l’origine de ces visites n’est pas Google Inc., mais lorsque ces mots clés sont sous-segmentés en fonction du Service Provider, les 24,74 pages par visites deviennent 1 page par visite… Houlala.

Est-ce que Google Inc. est à la source de ce bogue?

Comment 24,75 visites peuvent-elles devenir 4 visites?

Flairant la théorie de la conspiration, je me dis que c’est Vidéotron et la grève du Journal de Montréal qui doit être derrière tout ça. J’analyse toutes les visites avec mots clés en provenance de « videotron ltee », un taux de rebond de 100%, plus d’une page par visite et un temps moyen de 00:00:00 par visite.

Exemple de segmentation avancée dans Google Analytics

Exemple de segmentation avancée dans Google Analytics

Ah ah! Je découvre 43 visites, avec un taux de rebond de 100%, un temps moyen passé sur le site de 00:00:00 et une consultation en moyenne de 3,84 pages par visite… WTF?

Pour comprendre si Vidéotron est véritablement la source du glitch je décide de répéter l’exercice en incluant tous les autres câblodistributeurs. Nouvelle déception! Télus est de la partie, tout comme sympatico, hse, mrc des laurentides, omer desseres, etc. En fait, il y a en moyenne 216 visites, avec un taux de rebond de 100%, un temps moyen passé sur le site de 00:00:00 et une consultation en moyenne de 4,21 pages par visite!

Même si l’activité de quelques-unes de ces consultations semble être l’oeuvre des robots, une grande majorité de celles-ci est définitivement de sources humaines. Peu importe. Que le visiteur soit un robot ou un humain, il ne peut pas consulter plus de 0 page s’il passe 0 seconde sur le site. Tout comme il ne peut pas y avoir un rebond de 100 % si plus d’une page est consultée dans une visite.

Retour à la case départ

Afin de m’assurer que la cause n’est pas Google Instant, je retourne dans le temps pour consulter les statistiques avant même que Google lance son système de prévisualisation instantanée. Toujours ce même constat. Il y a des visites en provenance des mots clés avec plusieurs pages visitées par visites malgré un taux de rebond de 100% et un temps passé sur le site de 0 seconde. Je décide aussi de vérifier si la source de ces visites bizarres est toujours le moteur de recherche de Google. Même si la source de toutes ces visites est presque toujours le moteur de recherche de Google (1206), quelques-unes proviennent aussi de Yahoo (26) et Bing(6). Il ne semble donc pas que ce soit la faute de Google.

Que se passe-t-il donc? Mystère et boule de gomme.

Veuillez soumettre vos hypothèses

Si je pose la question et que je veux trouver la réponse, c’est que c’est ce genre de donnée qui remet toujours en cause la crédibilité des statistiques de consultation d’un site aux yeux des hauts dirigeants d’une entreprise. Et qui justifie le fait que certains HiPPOs préfèrent s’en remettre à leur intuition plutôt qu’à la mesure afin de mettre en place leurs stratégies.

Vous avez déjà constaté ce genre de visites énigmatiques dans vos rapports de Google Analytics? (ajouter un script automatique) Qu’est-ce que vous pensez qui explique ce phénomène? J’aimerais sincèrement que vous éclairiez ma lanterne.

L’illustration impossible love de Marc Brunet provient du blogue d’Arifee.

  • http://kiwiworkshop.com KiwiWorker

    En fouillant un peu sur le net, il en ressort principalement 2 explications.

    La première étant les bots.
    La seconde si les visiteurs ne cliquent ou ne formulent aucune action, ce qui semble perturber les calculs de GA. Mais dans ce cas là, je ne vois pas comment justifier les 43 pages visitées.

    Perso j’ai pensé soit à une moulinette qui tente de trouver une faille, ou bien au bloqueur de script sur navigateur. Imaginons qu’un visiteur débloque son bloqueur, mais qu’à chaque page il se remet en marche, cela ne fausserait-il pas GA ? Il ne serait plus en mesure de calculer le temps de visite mais que les entrées.

    • http://www.kinaze.org kinaze

      @KiwiWorker Merci d’avoir pris le temps de commenter! Le problème est que l’origine de ces données semble autant provenir des robots que des humains. Cependant, je vais tester ton hypothèse en activant un bloqueur de script et en cherchant avec des mots clés pour arriver sur mon site. Plus de nouvelles bientôt!

      • http://twitter.com/JulienCoquet Julien Coquet

        A priori, le temps passé est cohérent avec le rebond. Cela dit, la question à $2 c’est si les rechargements de page sont comptés dans le calcul des PV/V

        • http://www.kinaze.org kinaze

          C’est une bonne question à 2$ ça! Vrai que taux de rebond et et temps de visite à zéro = cohérent. Mais si une page avec un taux de rebond de 100% est rechargée 24 fois est-ce que le nombre de pages vues sera de 24 alors que le taux de rebond demeure à 0 et le temps passé sur cette page est de 0? Hmmm… Je vais tester!

  • http://www.kinaze.org kinaze

    Maintenant, est-ce que ce n’est pas plutôt le fait que le code de suivi de GA n’est pas complètement « loadé » avant qu’une personne ou un robot passe à une autre page qui explique le fait qu’il y a plusieurs pages vues par ce type de visites. Cette hypothèse semble improbable puisque pour que le nombre de pages vues augmente, il faut bien que le code de suivi soit « loadé ».

  • Arkian

    J’ai peut-être une solution. J’ai un problème qui ressemble à celui-ci.

    Il m’arrive certains jours qu’une ville de France soit vraiment au dessus de la moyenne concernant le nombre de visites. Si je segmente seulement cette ville, je m’aperçois que tous ces visiteurs font un taux de rebond de 100%. Mais surtout qu’ils viennent à 99% du temps directement sur les pages concernées : la fameuse source (direct) de Google Analytics.

    Voilà mon hypothèse : toutes ces visites sont l’objet d’une seule et même personne. Il faut savoir que certains visiteurs n’acceptent pas les cookies et modifient en permanence leur adresse IP. Avec ça Google n’a aucun moyen de savoir qu’un visiteur a visité plusieurs pages (sauf par recoupement).

    Et les visites à 0 secondes s’expliquent par le fait que Google compte absolument tous les rebonds à 0 secondes. (il doit sûrement utiliser le temps de la 2ème page pour calculer le temps resté sur la première).

    • http://www.kinaze.org kinaze

      Merci Arkian pour ce commentaire enrichissant. Je vais ajouter ton hypothèse dans les tests que je vais faire et je te reviens là-dessus!

      Au plaisir!