Moyenne, variance et déviation standard | kinaze.org

Moyenne, variance et écart-type

by kinaze on 27 mars 2012

Des outils d’analyse comme Google Analytics ou SiteCatalyst permettent de rapporter toutes sortes de moyennes et de taux. Il peut cependant être utile d’explorer ce qui se cache derrière ces moyennes à l’aide de la déviation standard (l’écart-type).

Le problème de la moyenne

Prenons 3 séries de chiffres représentant le nombre de conversions pour un processus d’achat en ligne dans la dernière semaine:

  1.  666, 666,666, 666, 666, 666, 666
  2. 507, 693, 750, 644, 576, 680, 812
  3. 302, 1194, 500, 107, 1542, 599, 418

Si on calcule la moyenne pour chaque série, on obtient 666. 3 fois 666.  Mais est-ce que le 666 de la série 1 signifie la même chose que le « 666″ de la série 2 ou de la série 3?

La déviation à la rescousse

La déviation est le fait de dévier, de s’écarter.

Le problème est que pour nos 3 séries de chiffres précédentes la somme de toutes les écarts par rapport à la moyenne est égale à 0. C’est d’ailleurs, selon nos amis les statisticiens, une des propriétés constituantes de la moyenne.

  1.  0 + 0 + 0 + 0 + 0 + 0 = 0
  2. -159 + 27 + 84 -22 -90 + 14 +146= 0
  3. -364 +528 -166 -559 + 876 -67 – 248 = 0

La variance à la rescousse

La variance est très utile pour éviter d’avoir une déviation qui est nulle. Elle sert à mesurer le niveau de dispersion d’une série de nombres par rapport à la moyenne. Elle consiste en la moyenne de la somme du carré des déviations d’un groupe de nombres déterminés. Sa formule est très jolie :

Formule de la variance

Formule de la variance

Dans le cas des écarts qui nous intéressent, on obtient:

  1. (0+0+0+0+0+0)/6 = 0
  2. (25281 + 729 + 7056 + 484 + 8100 + 196 + 21316)/7 = 9023,14286
  3. (132496+278784+27556+312481+767376+4489+61504)/7 = 226383,714

VAR.P. houlala

Heureusement, la fonction statistique VAR.P de Excel nous permet de calculer la variance en deux temps trois mouvements.

Calculer la variance dans Excel

Calculer la variance dans Excel

L’écart-type à la rescousse

Tout ça est bien beau, mais l’unité de mesure de la variance est différente de l’unité de mesure de notre série de nombres initiale.  Si par exemple, nos conversions sont en dollars, nous nous retrouverons avec une variance en dollars au carré.

L’écart-type (déviation standard) permet de contourner ce problème. Elle consiste tout simplement en la racine carrée de la variance.

  1. racine carré (0) = 0
  2. racine carrée (9023,14286) = 94,9902251
  3. racine carrées (226383,714) = 475,797976

STDEV.P mon kiki

Heureusement, encore une fois, la fonction statistique STDEVP d’Excel nous permet de calculer la déviation standard presque automatiquement.

Calculer la variation standard dans Excel

Calculer la variation standard dans Excel

Dispertion des données

Une moyenne c’est intéressant, peut-être même réconfortant. Mais le niveau de dispersion des données – l’écart-type –  par rapport à la moyenne peut être très déstabilisant, au point de devenir monstrueux, anormal.

Exemples de déviations standards

Exemples de dispersions par rapport à la moyenne

Plus l’écart est élevée, plus la dispersion des données est élevé et plus un processus mesuré est instable.

Exemple de processus stable

Exemple de processus instable

Plus l’écart est faible, moins la dispersion des données est élevé et plus un processus mesuré est stable.

Exemple de processus stable

Exemple de processus stable

Au final, plus un processus mesuré est stable et plus il y a de probabilités d’obtenir des résultats près de la moyenne dans le futur. Et de faire des prédictions fiables.

Reste maintenant à mieux comprendre :

  1. comment se distribuent les données dispersées autour de la moyenne;
  2. ce qui se passe quand un résultat est plus grand ou plus petit que l’écart positif ou négatif entre la moyenne et l’écart-type.

La photo provient de http://www.deviation-standard.com/

{ 5 comments }

Mesure, optimisation et méthodologie : kinaze.org

Mesure, optimisation et méthodologie

by kinaze on 8 mars 2012

Back from the crypt. Je partagerai dans les prochaines semaines l’évolution du projet de mesure et d’optimisation de megrez.ca, un nouveau site de kinaze.org, fruit d’une alliance stratégique avec une agence d’immigration de l’Ouest Canadien et de l’ami madmax (ApplytoCanada). La méthodologie de gestion de projet que j’utiliserai sera celle du PDCA (planifier – Développer – Contrôler – Améliorer) qui me permettra de travailler par phases itératives.

Dans ce premier billet, je déterminerai les fondements de la planification du programme de mesure visé. En espérant que mon processus pourra vous inspirer, n’hésitez pas à soumettre vos questions ou commentaires.

Objectif d’affaires

Qualifier des prospects afin d’acquérir de nouveaux clients pour les programmes d’immigration permanente ou temporaire du Canada. En d’autres mots : générer de bons leads.

Canaux visés

  • Site Web de l’entreprise
  • Canal téléphonique de l’entreprise
  • Courriel de relance de l’entreprise

Le canal mobile est hors de portée pour l’instant, tout comme les sources de données externes qui pourront éventuellement être explorées à l’aide d’applications du big data afin de trouver et de cibler des prospects préqualifiés.

Macro conversions

  1. Générer des appels.
  2. Acquérir de nouveaux clients.

L’acquisition de clients se fait via l’appel des prospects qualifiés qui passeront du canal Internet de l’entreprise à son centre d’appel. Il faudra donc arrimer les données des base de données hors ligne avec celles des bases de données en ligne d’outil de mesure et d’optimisation comme Google Analytics, Website optimizer, Test & Target, SiteCatalyst, Webmaster tools, SEOmoz pro, ifbyphone, etc.

À noter : le(s) numéro(s) de téléphone de l’entreprise sera seulement affiché aux prospects qualifiés afin d’éviter le travail inutile des ressources du Centre d’appel.

Micro conversions

  1. Qualifier des prospects via la complétion du formulaire de qualification d’un des programmes d’immigration.
  2. Engager les prospects qualifiés à communiquer avec l’entreprise:
    • via la prise de demande d’information;
    • via la relance courriel.

À noter : La qualité des prospects sera déterminée en fonction d’un système de pointage basé sur les réponses aux questions des formulaires. Certaines réponses pourront générer des fins de processus.

Il existe plusieurs autres micro conversions et métriques que nous pourrions suivre, mais pour l’instant nous avons assez de matériel pour mesurer la performance de notre objectif d’affaires principal.

Produits (programmes d’immigration)

Voici les principaux types d’immigration visés ainsi que leur valeur monétaire approximative. Ces montants seront très utiles pour établir combien il vaut la peine de dépenser pour acquérir un prospect et quels sont les canaux de marketing les plus profitables pour transformer ces prospects en clients.

  • Immigration permanente
    • Travailleurs (travailleurs qualifiés et professionnels), 2000$
    • Business (Investisseurs, entrepreneurs et travailleurs autonomes), 10 000$
    • Famille (Parrainage d’un membre de la famille), 1500$
  • Immigration temporaire
    • Permis de travail, 2500$

Sources d’achalandage

  • SEO
  • Campagnes
    • PPC
    • Relances courriels
  • Recommandation des clients
  • Autres

Toutes les sources de trafic que nous ne pourrons pas identifier comme un effort de marketing distinct seront confinées à la catégorie « Autres » (the others)

Maintenant que nous avons défini les éléments clés de notre solution, nous pourrons déterminer les métriques et les indicateurs clés de performance (KPI) qui apparaîtront dans les rapports de suivi des performances. Ce sera l’objet du prochain billet.

 

{ 0 comments }

Hummm. It can be that simple than is going to hell.

janvier 21, 2012

TweetRead Me

Read the full article →

Qu’est-ce que le Big Data (bigdata) ?

août 9, 2011
Thumbnail image for Qu’est-ce que le Big Data (bigdata) ?

TweetJ’ai brièvement présenté quelques études de cas à propos du #bigdata dans mes derniers articles. Avant de réutiliser ces cas pour présenter un schéma de l’évolution des sources de données analysées en entreprise, je pense qu’il serait à propos de donner une définition du Big Data. Il est à noter que j’aurais bien aimé présenter deux autres [...]

Read the full article →

Les données privées du réseau Facebook

juin 15, 2011
Thumbnail image for Les données privées du réseau Facebook

Tweet« I want everybody here to be careful about what you post on Facebook, because in the YouTube age whatever you do, it will be pulled up again later somewhere in your life. » Barack Obama, président des États-Unis (AssociatedPress, 2009) Ce texte est le dernier d’une série de 7 études de cas, pour un dossier spécial [...]

Read the full article →

Le processus d’optimisation continue de Google

mai 27, 2011
Thumbnail image for Le processus d’optimisation continue de Google

Tweet“The sexy job in the next ten years will be statisticians… The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it” Hal Varian, Google’s Chief Economist (McKinsey Quarterly, 2009) Ce texte fait partie d’une série de 7 études de cas, pour [...]

Read the full article →

La restructuration des données pour les nuls

mai 17, 2011
Thumbnail image for La restructuration des données pour les nuls

Tweet“BigSheets takes away the complexity of hadoop and puts the power of big data in the hands of the line of business users” David Barnes; technical evangelist, IBM (IBMetinfo, 2010) Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data. En surface, les exercices d’analyse du [...]

Read the full article →

Les données secondaires de Deloitte

mai 9, 2011
Thumbnail image for Les données secondaires de Deloitte

Tweet“Your Facebook activity may say as much about you as an analysis of your bodily fluids”. Deloitte (Hett, 2011) Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data. Traditionnellement, le processus pour déterminer l’éligibilité des candidats lors de l’inscription à une police d’assurance est assez dispendieux. [...]

Read the full article →

Optimiser la loyauté des clients avec leur panier d’épicerie

mai 3, 2011
Thumbnail image for Optimiser la loyauté des clients avec leur panier d’épicerie

Tweet« What scares me about this is that you know more about my customers after three months than I know after 30 years. » Lord MacLaurin, Tesco former CEO (Hayward, 2009) Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data. Les budgets marketing de plusieurs organisations sont [...]

Read the full article →

Gestion stratégique des données chez Wal-Mart

avril 28, 2011
Thumbnail image for Gestion stratégique des données chez Wal-Mart

Tweet“We have an infrastructure that allows us to react” H. Lee Scott, Jr., CEO, Wal-Mart (PNSR, 2008) Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data. Lorsque l’on parle de données – et de quantités phénoménales de données –, il est difficile de ne pas [...]

Read the full article →