« Big Data » : un Janus du 21ème siècle ?

6 février 2018
Dossier

Page 3 sur 10: « Big Data » : une définition floue

Page 3 sur 10

« Big Data » : une définition floue

Largement employé de nos jours, le terme de « Big Data » est loin d’être simple à définir (d’ailleurs, il n’existe pas de définition consensuelle et officielle) : cet anglicisme veut regrouper la notion de « grosses données » (ou de « mégadonnées »). Le principe qui en découle est que la quantité de données produites est tellement importante qu’il n’est plus possible pour un individu isolé de les comprendre, de les synthétiser et de les appréhender simplement. Ce large « set » de données nécessite donc l’application de modèles statistiques robustes afin de dépasser ces limites. Mais de quelles informations parle-t-on ? Là aussi, la réponse est floue puisqu’on parle de toutes les informations, enfin toutes celles qui sont numérisées, celles qui sont disponibles dans les « réseaux », notamment sur le plus grand des réseaux, « la toile » (Internet) mais aussi les données générées par les outils électroniques qui partagent notre quotidien. Ces informations sont non seulement les données chiffrées « classiques » en valeurs numériques (le prix, le nombre d’articles que vous avez achetés, par exemple) mais aussi des données moins « classiques » comme des données textuelles (celles qu’on peut trouver sur des blogs ou les réseaux sociaux, par exemple) ou des données de (géo)localisation, les « métadonnées » (ces données « invisibles » qui accompagnent une autre donnée), etc… Le principe est que toute information est une « donnée » pour le monde du « Big data ». Mieux encore, à l’ère des objets connectés (les montres, les réfrigérateurs, les stations météorologiques, les capteurs de poids, de pression artérielle ou autre…), de nouveaux types de données, en temps réel, sont générés. A titre d’exemple, aujourd’hui – cette information paraît difficilement vérifiable ni même infirmable – on considère que 80 % des données produites dans le monde seraient « détenues » par les GAFA : vous savez, les 4 plus grandes capitalisations boursières mondiales du domaine de l’informatique, Google©, Amazon©, Facebook© et Apple©. Ces données (que vous produisez) sont celles que vous utilisez tous les jours : vos « likes » sur Facebook©, vos achats sur Amazon©, même vos recherches sur Google©, etc… Tout cela, c’est des données… Et elles produisent tellement de bénéfices financiers que certains politiques proposent une rémunération de ceux qui les génèrent.

Les informaticiens et autres systématiciens ont alors été amenés à créer de nouvelles terminologies : non seulement pour définir des nombres auxquels nous n’avions pas (ou très peu) été confrontés – du téraoctet (10¹² octets), on est passé au péta- (10¹⁵ octets), exa- (10¹⁸ octets) et au zettaoctets (10²¹ octets) – mais aussi pour définir la génération de ces données (le « data mining ») voire même les analyses qui en dérivent (les « Big analytics »). Toute cette terminologie est assez neuve puisque le terme lui-même de « Big data » aurait été employé pour la première fois à la fin des années 1990. Elle est aussi en constante évolution au fur et à mesure des besoins, les nuances étant parfois tellement floues qu’on frôle la métonymie, souvent sans même le savoir… Elle choisit d’ailleurs volontiers la langue de Shakespeare (celle de la toile) pour montrer son côté international. Bref, à défaut d’avoir des définitions claires et nettes, ces termes sont extrêmement utilisés mais probablement pas uniquement par effet de mode, aussi parce qu’ils s’installent dans nos vies. Il vaut donc mieux se les approprier pour mieux les apprivoiser : on peut considérer le langage du « Big Data » comme une nouvelle langue, et nous allons vous aider à ce qu’elle ne soit plus si étrangère…

N°52