La restructuration des données pour les nuls

“BigSheets takes away the complexity of hadoop and puts the power of big data in the hands of the line of business users” David Barnes; technical evangelist, IBM (IBMetinfo, 2010)

Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data.

En surface, les exercices d’analyse du Big Data sont faciles à comprendre, mais lorsque l’on regarde tout ça en profondeur, on constate rapidement qu’il est fort complexe de mettre en place des méthodes pour analyser de grandes quantités de données. D’une part, l’aspect technique des outils disponibles relègue malheureusement trop souvent dans l’ombre l’enjeu stratégique au fondement de cette pratique. D’autre part, la réalité mathématique qui sous-tend le Big Data n’est pas nécessairement la force des spécialistes de marketing. On a qu’à essayer de lire quelques travaux de Pedros Domingos pour comprendre les limites de l’accès au Big Data.

Big data et big complexité

Voici, par exemple, un extrait du sommaire de “Markov logic Networks” (2006) qu’il a rédigé avec Matthew Richardson:

“we propose a simple approach to combining first-order logic and probabilistic graphical models in a single representation. A Markov logic network (MLN) is a firstorder knowledge base with a weight attached to each formula (or clause). Together with aset of constants representing objects in the domain, it specifies a ground Markov networkcontaining one feature for each possible grounding of a first-order formula in the KB, with the corresponding weight…” (Domingo & Richardson, 2006).

Le plus drôle dans cet extrait est que l’approche proposée par les chercheurs est supposément simple. Pas évident pour les néophytes! C’est à propos de la simplification de cette complexité que plusieurs entreprises travaillent afin de démocratiser l’utilisation du Big Data pour le rendre plus accessible au grand public. À cet égard, le projet BigSheets d’IBM est un cas sur lequel il vaut la peine de se pencher.

Simplification de la restructuration des données

En résumé, BigSheets est un outil qui peut scanner des petaoctets de données disponibles sur un réseau afin de les restructurer et d’en extraire des informations stratégiques. Les aspects les plus originaux de l’approche de BigSheets sont :

  1. Traditionnellement, les entreprises utilisent des données qui sont déjà structurées dans des bases de données afin d’en extraire des informations stratégiques. BigSheets peut scanner des données non standardisées et en extraire des informations selon des filtres paramétrables.
  2. BigSheets permet non seulement d’organiser des données non structurées, mais de le faire avec des données qui ne sont pas nécessairement disponibles dans un réseau interne de l’entreprise (sur Internet, par exemple, dans les réseaux sociaux ou sur un serveur de jeux en ligne).
  3. Avec BigSheets, l’utilisation des données du Big Data n’est plus seulement réservée à une élite de chercheurs en entreprise ou dans un milieu universitaire. Même les petites et moyennes entreprises peuvent maintenant extraire des informations à partir de la complexité. Il ne reste plus qu’à comprendre ce qu’il vaut la peine d’être analysé (ce qui n’est pas peu dire!).

David Barnes d’IBM démontre quelques façons d’utiliser BigSheet sur le canal IBM ETinfo, sur YouTube. ReadWriteWeb reprend cette démonstration dans un article intitulé “Twitter by the Petabyte: Using Big Data to Define Market Sentiment”, afin d’en extraire les segments les plus importants. Deux exemples d’organisation de données qui relèvent du domaine public et qui sont non structurées sont mis à l’avant-plan :

  • l’analyse des sentiments sur Twitter à l’égard du iPhone, d’Android et de BlackBerry;
  • le recoupement de données non structurées sur le site Web du Parlement britannique.

Les sentiments de Twitter

La beauté du réseau de Twitter est qu’il est une mine d’informations gratuites pour les entreprises qui prennent le temps de l’analyser. Grâce à des outils comme BigSheets, des études de marché, des exercices de veille concurrentielle ou même la compréhension des sentiments des consommateurs à l’égard d’une marque peuvent y être réalisés à moindre coût. Mais comment comprendre les sentiments des consommateurs à propos d’une marque ? C’est assez simple, il suffit de suivre les tweets qui signalent une marque et à croiser cette donnée avec d’autres signaux, tels qu’une intention d’achat ou bien une critique négative.

David Barnes démontre à quel point il est facile de croiser ces données avec BigSheets pour obtenir un nuage de mots-clés qui dévoilent le poids d’un produit ou d’une marque comme l’iPhone, le système d’exploitation Android ou le Blackberry. En quelques secondes, il paramètre une analyse qui lui permettra d’extraire ce type d’information et de représenter visuellement le degré de sentimentalité positif avec un nuage de mots clés (Williams, 2010).

Twitter by the Petabyte: Using Big Data to define market sentiment.

Source: Williams, A. (30 octobre 2010). Twitter by the Petabyte: Using Big Data to define market sentiment. ReadWriteCloud. http://rww.to/hHFrT1

Révéler ces informations que je ne saurais voir

Pour aller encore plus loin dans ce dévoilement de données, un autre cas est donné en exemple. Cette fois-ci, il est proposé de balayer toutes les données non structurées du site Web du parlement Britannique afin d’en extraire toutes les lois qui sont votées au parlement et de les associer avec les politiciens qui votent pour ces lois. Ainsi, on peut facilement révéler au grand jour qu’elle est la portée de l’activité des politiciens :

  • Jusqu’à quel point, par exemple, se soucient-ils du bien social, en votant sur plusieurs types de projets de lois qui touchent divers aspects des besoins d’une société?
  • Jusqu’à quel point, se soucient-ils plutôt de l’intérêt d’un secteur spécifique de l’économie (d’une entreprise?), en ne votant que ponctuellement pour les lois qui y sont associées?

Coûts des analyses et ressources pour analyser

En démocratisant l’analyse et la structuration de données secondaires, des outils comme BigSheets sont définitivement une bonne chose pour les petites et moyennes entreprises. En effet,

« access to large data sets is no longer the preserve of insurance companies and giant retailers. With cheap technology that makes it easier than ever to capture and store this data, a wide range of organisations can now tap into the power of ‘big data’ » (Nesta, Big Data resources, 2010).

Toutes sortes de questions éthiques surgissent cependant sur les limites de l’acceptable et de l’inacceptable quant à ces pratiques d’analyses, et ce, tant au niveau des multinationales que des petites entreprises familiales. De plus, comme le fait si bien remarquer un lecteur de MineThatData, même si tous ces nouveaux outils sont de moins en moins chers et de plus en plus nombreux, ce qui est important n’est pas l’outil mais bien les compétences des ressources humaines qui les utilisent.

“There is no doubt that data is exploding and the tools to harness the value of that data are also exploding. Good news, the cost of tools are coming down. Bad news, we don’t need more tools we need an operational capacity to leverage the value of tools and data we already have. It’s not about more tools, but about the people that can leverage the tools and data to make positive changes within a company” (Hillstrom, 2011).

Il n’est pas clair d’ou provient la photo de l’extraction de l’huile de racin.