« Big Data » : un Janus du 21ème siècle ?

6 Février 2018
Dossier

Jean-Philippe BERTOCCHIO, Olivier AUBERT, Guillaume SERET, et le comité scientifique du CLUB DES JEUNES NEPHROLOGUES

Alors que va avoir lieu à Paris en mars, le salon du « Big Data » et que s’ouvrent les Etats Généraux de la bioéthique en 2018, Trans-Forme a demandé au Club des Jeunes Néphrologues un éclairage et son point de vue sur ce qu’est le « Big Data » : est-ce une bulle prête à s’effondrer ? est-ce l’avenir de nos sociétés ? Le terme de « Big data » comme beaucoup d’autres est largement utilisé de nos jours dans la communauté scientifique (mais aussi dans d’autres domaines) sans que sa définition soit réellement connue et consensuelle. Les concepts qui en dérivent sont complexes et nécessitent donc quelques explications. Partons alors dans le monde du « data mining », du « deep learning » et de l’« IA ».

Un premier chiffre : 1 700 000

C’est le nombre de fichiers avec lesquels Edward Snowden est parti de la NSA en 2013 : rien que le chiffre en lui-même est impressionnant. Comment imaginer que l’une des plus importantes agences gouvernementales du monde, une des plus sécurisées et une des plus secrètes, ait pu laisser « filer » autant de documents à partir d’une simple clé USB ? De là, est partie toute une histoire médiatico-politique qui a impliqué le monde entier, bouleversant en quelques jours les relations internationales mondiales : l’analyste informatique a diffusé des données hautement confidentielles concernant les actes d’espionnage auxquels la NSA se prête partout dans le monde, le plus souvent de manière totalement illégale. L’ère de la mondialisation, c’est l’ère de l’information : l’information que l’on échange, sciemment, volontairement ou pas… une information que l’on cherche à avoir, une information que l’on monnaie. Cette information touche tout le monde, que l’on soit décideur politique ou simple citoyen réduit au statut de consommateur, que ce soit dans notre travail, dans notre vie privée, mais aussi dans notre santé.

« Big Data » : une définition floue

Largement employé de nos jours, le terme de « Big Data » est loin d’être simple à définir (d’ailleurs, il n’existe pas de définition consensuelle et officielle) : cet anglicisme veut regrouper la notion de « grosses données » (ou de « mégadonnées »). Le principe qui en découle est que la quantité de données produites est tellement importante qu’il n’est plus possible pour un individu isolé de les comprendre, de les synthétiser et de les appréhender simplement. Ce large « set » de données nécessite donc l’application de modèles statistiques robustes afin de dépasser ces limites. Mais de quelles informations parle-t-on ? Là aussi, la réponse est floue puisqu’on parle de toutes les informations, enfin toutes celles qui sont numérisées, celles qui sont disponibles dans les « réseaux », notamment sur le plus grand des réseaux, « la toile » (Internet) mais aussi les données générées par les outils électroniques qui partagent notre quotidien. Ces informations sont non seulement les données chiffrées « classiques » en valeurs numériques (le prix, le nombre d’articles que vous avez achetés, par exemple) mais aussi des données moins « classiques » comme des données textuelles (celles qu’on peut trouver sur des blogs ou les réseaux sociaux, par exemple) ou des données de (géo)localisation, les « métadonnées » (ces données « invisibles » qui accompagnent une autre donnée), etc… Le principe est que toute information est une « donnée » pour le monde du « Big data ». Mieux encore, à l’ère des objets connectés (les montres, les réfrigérateurs, les stations météorologiques, les capteurs de poids, de pression artérielle ou autre…), de nouveaux types de données, en temps réel, sont générés. A titre d’exemple, aujourd’hui – cette information paraît difficilement vérifiable ni même infirmable – on considère que 80 % des données produites dans le monde seraient « détenues » par les GAFA : vous savez, les 4 plus grandes capitalisations boursières mondiales du domaine de l’informatique, Google©, Amazon©, Facebook© et Apple©. Ces données (que vous produisez) sont celles que vous utilisez tous les jours : vos « likes » sur Facebook©, vos achats sur Amazon©, même vos recherches sur Google©, etc… Tout cela, c’est des données… Et elles produisent tellement de bénéfices financiers que certains politiques proposent une rémunération de ceux qui les génèrent.

Les informaticiens et autres systématiciens ont alors été amenés à créer de nouvelles terminologies : non seulement pour définir des nombres auxquels nous n’avions pas (ou très peu) été confrontés – du téraoctet (10¹² octets), on est passé au péta- (10¹⁵ octets), exa- (10¹⁸ octets) et au zettaoctets (10²¹ octets) – mais aussi pour définir la génération de ces données (le « data mining ») voire même les analyses qui en dérivent (les « Big analytics »). Toute cette terminologie est assez neuve puisque le terme lui-même de « Big data » aurait été employé pour la première fois à la fin des années 1990. Elle est aussi en constante évolution au fur et à mesure des besoins, les nuances étant parfois tellement floues qu’on frôle la métonymie, souvent sans même le savoir… Elle choisit d’ailleurs volontiers la langue de Shakespeare (celle de la toile) pour montrer son côté international. Bref, à défaut d’avoir des définitions claires et nettes, ces termes sont extrêmement utilisés mais probablement pas uniquement par effet de mode, aussi parce qu’ils s’installent dans nos vies. Il vaut donc mieux se les approprier pour mieux les apprivoiser : on peut considérer le langage du « Big Data » comme une nouvelle langue, et nous allons vous aider à ce qu’elle ne soit plus si étrangère…

Un corolaire indispensable : l’analyse

Toutes ces données en elles-mêmes ne seraient rien si elles ne devaient (et pouvaient) être analysées. Au-delà de la quantité impressionnante de ces données brutes, la révolution apportée par les « Big data » a très probablement porté plus encore sur les méthodes de leur analyse. En effet, nous sommes passés d’un système dans lequel les données étaient peu nombreuses mais très stéréotypées (nécessitant donc des méthodes d’analyse et de traitement simples) à un système dans lequel la nature même des données est mal maîtrisée. A titre d’exemple, antérieurement, le fichier client d’un commerçant générait des données « simples » en termes de nombre d’articles, de prix de ces articles, de date d’achat de l’article, etc… Les logiciels généraient alors des analyses avec des calculs « simples » de moyennes, de fréquence d’achat, de durée de vie d’un produit en rayon, etc… A l’ère des « Big Data », les données que le commerçant peut enregistrer concernent aussi la typologie du client, son trajet à l’intérieur du magasin, voire même le temps qu’il fait dehors ou la musique qui est diffusée dans les rayons (c’est ce qu’on appelle le « profilage »). Les logiciels peuvent analyser (et en temps réel) l’ensemble de ces informations et adapter l’environnement commercial (la musique, le nombre d’hôtesses de caisse, etc…). Ils peuvent prédire finement le succès commercial des différents articles en fonction de nombreux paramètres (météo, jour de la semaine, actualité…) et les anticiper ; ce qui permet une meilleure gestion des stocks et des commandes. Pour arriver à ces résultats, il a fallu donc changer de paradigme en termes d’analyses et inventer de nouveaux modes d’analyse : ce sont les « Big Analytics » (ou « broyage de données » ou « analyses complexes »). Ces analyses complexes répondent à la « règle des 3 V » : elles traitent d’un très grand nombre de données (un grand volume) qui sont très variées (une grande variété), à une très grande vitesse (tant pour la génération des données que pour leur transfert et leur analyse). Certains ajoutent 2 V puisque ces analyses permettent aussi une plus grande valeur ajoutée, en assurant une plus grande véracité de l’information traitée.

Au-delà des concepts « marketing » que ces définitions révèlent, elles soulèvent surtout une réalité : l’ère du « Big Data » est celle d’une volonté d’avoir toujours plus (de données, de vitesse, de valeur…). Ces données étaient déjà quasiment innombrables, avec leur analyse, de nouvelles données sont encore générées : on approche alors de l’explosion entropique au cours de laquelle tellement de nouvelles informations sont créées qu’on atteint la saturation du système (certains parlent alors d’« infobésité »). Pour prévenir cette situation, les logiciels d’analyse de données doivent aller plus loin et eux-mêmes évoluer avec les résultats qu’ils génèrent et analysent : on parle alors de « machine learning » (ou apprentissage automatique au cours duquel la machine apprend elle-même au fur et à mesure) ou d’« intelligence artificielle » : dites « IA » pour être dans le coup. Lorsqu’elle est capable d’apprendre à des niveaux extrêmement complexes, on parle alors de « deep learning » : cependant, la nuance à partir de quand on est dans le « deep learning » du « machine learning » versus le « shallow learning » du « machine learning » n’est pas toujours très claire…

Le lieu de l’analyse est aussi important : tout peut être centralisé (sur un seul serveur) ou décentralisé (sur le lieu de génération de l’information). En clair, soit vous stockez toutes les données sur un serveur à distance sans les trier initialement lorsqu’elles sont générées (vous le ferez ensuite au moment de l’analyse quand vous le déciderez), puis vous les analysez (ou pas…) ; soit vous choisissez que l’analyse (avec le tri des données) soit faite en amont, quasiment sur le lieu de la génération des données. La deuxième solution correspond aux « smart data » (les données dites intelligentes) : elles ont l’avantage de ne pas stocker d’informations « inutiles », uniquement celles qui sont nécessaires à l’analyse, mais elles nécessitent cependant de savoir quelle est la question posée initialement et à laquelle doivent répondre les analyses, ce qui est quand même rarement le cas dans le monde du « Big Data ».

Mais pourquoi faire ?

On pourrait imaginer qu’il y ait derrière tout cela une vision philanthropique mais on y croit peu. En fait, les domaines d’application sont quasiment infinis, eux aussi. Evidemment, c’est principalement le secteur commercial qui est le plus demandeur : et là, on entre dans le monde du « data marketing ». Imaginez que vous soyez capable d’identifier précisément le bon client pour la bonne publicité, que vous soyez capable de lui délivrer l’information sur votre produit au moment opportun (le moment où il est prêt à acheter) sans polluer l’ensemble des clients qui n’ont pas besoin de votre produit (et qui de toute manière ne l’achèteront pas), et bien c’est exactement cela le « data marketing ». Il y a un exemple de société (française, pour une fois !) qui est un leader dans le domaine : 1000mercis. Vous ne la connaissez probablement pas mais c’est elle qui vous connaît et qui, historiquement, a développé le système du « mailing » (l’envoi de courrier électronique publicitaire) ciblé : en gros, vous avez des préférences sur internet (que vous pouvez formaliser dans des « listes d’envies », par exemple) qui sont associées à votre boite mail ; cette société a développé des algorithmes qui permettent de cibler mieux vos besoins, vos envies en fonction du temps. Mieux encore, le concept a évolué vers la possibilité d’afficher des informations ciblées vous concernant dans les bannières publicitaires (ces trucs qui clignotent sur les bords de votre écran lorsque vous naviguez sur la toile) des sites internet que vous fréquentez : l’information à laquelle vous allez être le plus réceptif sera affichée en temps réel, au moment où vous y êtes le plus sensible. Mieux encore, cet espace publicitaire est revendu en temps réel aux enchères au plus offrant (les commerciaux des fabricants) : c’est le principe du « real time bidding » ; c’est la recherche de la rentabilité maximale pour les annonceurs. Prenons autre exemple d’utilisation du « data marketing »… Vous êtes client fidèle de votre magasin local d’électroménager : c’est-à-dire que vous avez accepté de faire une commande une fois avec votre « 06 » (ndlr, votre numéro de téléphone portable) ou, pire, vous avez la carte fidélité. Vous n’y allez que ponctuellement mais il se trouve qu’en ce moment vous regardez des modèles de vidéoprojecteurs sur internet parce que vous envisagez dans un avenir (pas si proche) de vous équiper. Lorsque vous passerez à proximité (physique, dans la rue) de votre magasin fétiche, alors même que vous aurez oublié votre souhait d’achat, vous recevrez un SMS vous annonçant une promotion en cours…sur les vidéoprojecteurs ! Effrayant, sans doute, efficace, certainement…

Le « Big Data », ce n’est pas que du « data marketing ». C’est aussi la possibilité de générer des analyses pour nos décideurs politiques. Par exemple, les très classiques sondages d’opinion (réalisés dans le but d’avoir une estimation des votes à venir) appartiennent encore aux techniques d’analyses « simples », à ce qu’on faisait « avant » (bon, OK, on continue encore un peu mais parce qu’ils parlent plus au grand public que les algorithmes). A l’heure actuelle, déjà, les candidats comptent sur les « Big Data » pour leur stratégie : ils analysent ainsi la carte électorale, incluent des pondérations en fonction des précédents votes, etc… Hillary Clinton, pour la campagne présidentielle américaine, aurait même investi près des 2/3 de son budget dans l’analyse de ces données ; on voit où ça l’a menée, alors qu’il suffisait d’un Donald Trump sachant manier Twitter© à la perfection (vous savez, ce réseau social émettant à l’époque de courts messages de 140 caractères, 280 aujourd’hui, sur lequel le Président américain adore donner son avis sur tout et sur rien).

On touche ici, en fait, à une des « limites » des analyses du « Big Data » : ce que veulent ceux qui les utilisent, ce n’est pas simplement une analyse, mais c’est surtout savoir prédire un comportement (d’achat, de vote, etc…) : c’est le fameux « profilage » qui le leur permet. La très prestigieuse revue scientifique PNAS vient de publier une étude de la – aussi – très prestigieuse université de Stanford : les chercheurs ont montré qu’ils étaient capables, à partir de la voiture garée devant chez vous (reconnue à partir d’images de Google Street View® : vous savez, ce programme qui permet une visite virtuelle des rues lorsque vous cherchez une adresse sur Google©…), de connaître votre niveau de revenu, votre origine ethnique, votre niveau de diplôme et…pour qui vous voteriez…

La prédiction semble donc une motivation extrêmement importante dans l’univers des « Big Data ». C’est pour ça qu’un des champs dans lequel il est le plus utilisé est la météorologie : énormément de données sont générées au fur et à mesure du temps (c’est le cas de le dire…), elles permettent de prédire le temps qu’il fera à t+1 voire à t+2. Mieux encore, si la prédiction se confirme, le modèle se renforce, si elle s’infirme…il se renforce aussi : on est réellement dans le « machine learning ». Cela dit, si en météorologie, l’échec du modèle de prédiction est toléré, il devient moins acceptable pour un candidat à l’élection présidentielle de la première puissance économique mondiale. Tout dépend de l’enjeu et des données initiales que vous intégrez dans le modèle…

#IA en médecine

En médecine, ce type de prédiction a évidemment attiré énormément d’attentions. Arriver à faire le bon diagnostic le plus vite possible avec le minimum d’informations (uniquement celles qui sont pertinentes) peut être considéré comme le « Graal ». Aux Etats-Unis, une société (IBM©) a développé un outil d’« IA » capable de répondre à ce cahier des charges : ils l’ont appelé Watson® (pas du nom du célèbre docteur mais de celui d’un dirigeant historique d’IBM©). C’est surtout un logiciel d’interface qu’on appelle un « chatbot » : il permet de traduire des questions que vous lui posez en langage courant en un algorithme informatique. Pour y répondre, il utilise l’« IA » : c’est un peu comme le Siri® d’Apple©. Il n’est pas développé qu’en médecine, il est utilisé dans de nombreux domaines d’application (évidemment, le « data marketing » mais aussi la gestion des ressources d’eau pour l’irrigation des vignes, etc…). Cela dit, la santé a été, aux Etats-Unis, sa première commercialisation : à partir des données des articles scientifiques (mis à jour régulièrement) et grâce à quelques données issues du patient, il peut établir un diagnostic et proposer le meilleur traitement. Mieux, il apprend au fur et à mesure, lorsqu’on lui indique si le diagnostic et/ou le traitement ont été les bons. Mieux encore, l’« IA » est capable de faire mieux que les médecins : au Danemark, le logiciel d’« IA » appelé Corti® est capable de mieux reconnaître au téléphone (lors d’un appel au SAMU) s’il s’agit d’un infarctus du myocarde que le médecin régulateur ; à partir de l’ensemble des sons communiqués en temps réel testés sur plus de 170 000 appels, alors que le médecin régulateur n’identifiaient que 73% des infarctus, Corti® en identifiait 95%...

Le « Big Data » est aussi utilisé dans le suivi des patients avec une maladie chronique. Par exemple, l’application Hy-result a été développée par des spécialistes de l’hypertension artérielle. A l’aide de brassards d’automesure connectés ou non connectés (les patients entrent alors eux-mêmes leurs données dans l’application), le logiciel d’analyse est capable de générer un retour spécifique permettant de remotiver le patient et/ou de générer des consultations dédiées pour corriger la prise en charge. Pour aller dans ce sens, depuis le 19 janvier 2017, l’ensemble des données sociales et médicales (biologie, imagerie, données cliniques, traitement, etc…) générées par les millions de patients accueillis chaque année au sein des hôpitaux de l’Assistance Publique des Hôpitaux de Paris (APHP) sont « stockées » au sein d’un « entrepôt de données » dont le but (affiché) est de les partager avec les chercheurs pour faire avancer la science mais aussi…pour réaliser un « pilotage de l’activité hospitalière ». Pour aller encore plus loin dans le suivi de l’observance du traitement, 2017 a vu l’arrivée sur le marché (américain, pas encore français) du premier médicament connecté : commercialisé dans les troubles psychiatriques, Abilify MyCite© permet de savoir si le traitement a été pris ou pas et de transmettre ces informations aux médecins et/ou aux proches du patient.

« Big data » et médecine de prédiction en transplantation

Bien que l’apprentissage automatique (ou « machine learning ») soit dominé par le secteur industriel (comme Netflix® dont les algorithmes permettent, en fonction du profil, de proposer des films adaptés à l’utilisateur), la médecine de demain ne peut pas rester une simple observatrice. Pour atteindre ce but, le domaine de la transplantation (rénale, en particulier et de la médecine, en général) se doit d’aller vers une pratique intégrant l’ensemble des données des patients : non seulement les informations cliniques, biologiques, immunologiques et histologiques, mais aussi de nouveaux biomarqueurs et des technologies révolutionnaires que ce soit en immunologie ou issues de l’expression de gènes spécifiques, tout cela au sein de « smart data » multidimensionnelles.

En effet, malgré les avancées considérables concernant les résultats à court terme de la transplantation rénale, peu d'améliorations ont été faites au cours des 15 dernières années sur la survie à long terme non seulement des patients transplantés mais aussi de la fonction des organes transplantés. Les deux principales limitations sont la grande hétérogénéité des patients et l'absence de systèmes pronostiques robustes pouvant permettre de fournir une prédiction individuelle de la perte de fonction de l’organe transplanté. Prédire avec précision quels patients présentent un risque élevé de perte de fonction permettrait une transition vers une médecine plus personnalisée/individualisée.

L’amélioration de la capacité prédictive de la survie à long terme n’a pas seulement pour objectif l’amélioration des soins cliniques quotidiens ou des décisions thérapeutiques, mais aussi la réalisation d'essais cliniques, qui manquent généralement de puissance en raison des nombres faibles d'évènements survenant la première année de transplantation : la plupart des études cliniques réalisées dans le domaine de la transplantation d’organes qui choisissent comme critère d’analyse la survie de l’organe transplanté analysent surtout la fonction de l’organe dans sa première année de transplantation. Malgré ce besoin médical pressant, il n'existe actuellement aucun outil validé pour prédire la survie à long terme des organes transplantés après la transplantation rénale. Les paramètres de la transplantation pris individuellement (comme le débit de filtration glomérulaire, la protéinurie, l'histologie ou les anticorps dirigés contre le donneur) n'ont pas un pouvoir prédictif suffisant. Les efforts réalisés jusqu’à présent pour développer des modèles pronostiques fondés sur des combinaisons de paramètres ont été limités par le nombre trop faible de patients inclus, l'absence de validation appropriée, les détails phénotypiques limités des registres (c’est-à-dire les informations liées au patient transplanté), l'absence de surveillance systématique de la réponse immunitaire et l'incapacité d'inclure des facteurs pronostiques clés qui affectent la survie des organes transplantés.

En effet, un simple prédicteur ne peut procurer une estimation adéquate et précise du pronostic du patient compte tenu de la variabilité entre les patients et des causes des maladies. Le modèle pronostique doit donc prendre en compte plusieurs facteurs pronostiques conjointement pour permettre une prédiction individuelle précise. Ainsi des modèles pronostiques multivariés (qui prennent en compte l’ensemble de ces données) sont réalisés afin d’obtenir des outils permettant d’estimer des probabilités que l’évènement associé à différentes combinaisons de prédicteurs survienne. Cela a pour objectif de fournir aux médecins qui suivent ces patients des informations pronostiques précises sur la base de multiples prédicteurs et de minimiser les biais liés à l’hétérogénéité de pronostic de chaque patient alors même qu’ils sont atteints par une même pathologie. Ces modèles ont également pour intérêt de confronter des facteurs pronostiques entre eux et évaluer la part prédictive additionnelle d’un facteur pronostique par rapport aux autres. En effet, si un nouveau biomarqueur, par exemple, est associé à un évènement, encore faut-il démontrer sa valeur additive pour son emploi dans la pratique courante par rapport aux critères qui sont déjà disponibles.

La principale limitation est donc le nombre croissant de nouveaux facteurs de risques incluant les biomarqueurs sanguins, urinaires mais également l’étude de l’expression des gènes au sein de l’organe transplanté apportant pour chaque patient des dizaines de milliers de nouvelles informations. Cela rend donc les modèles de classification et de pronostic usuels nettement sub-optimaux et impose l’utilisation des modèles statistiques de « machine learning » applicables aux données multidimensionnelles des « smart data ». Leurs avantages sont d’une part leur capacité à identifier des facteurs de risques importants parmi des patients ayant des facteurs de risques marginaux et, d’autre part, d’inclure continuellement de nouveaux facteurs de risques avec un faible risque d’erreur. Les plus utilisés sont actuellement l’« artificial neural network » (réseaux de neurones artificiels), le « Random Forest » (arbres décisionnels) et les archétypes. Un réseau de neurones artificiels est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques et qui, par la suite, s'est rapproché des méthodes statistiques. Ce modèle est majoritairement utilisé pour la classification et la prédiction individuelle avec une grande tolérance pour le bruit de fond et sa capacité à classer des « patterns » (c’est-à-dire des grands ensembles de comportement) non visibles sans eux. Les analyses de « Random Forest » permettent la classification, la régression et d'autres tâches, qui fonctionnent en construisant une multitude d'arbres décisionnels en indiquant le mode des classes (classification) ou la prédiction moyenne (régression). L'algorithme du « Random Forest » est de nos jours l'un des meilleurs algorithmes de classification disponibles. Les archétypes expriment quant à eux l'unicité de chaque échantillon en termes de relation avec chaque archétype, permettant une évaluation précise et probabiliste. De plus, l'utilisation de ces analyses, en combinaison avec des méthodes telles que l'analyse en composantes principales, permet de visualiser les caractéristiques uniques de chaque échantillon par rapport à tous les autres échantillons d'un ensemble de référence dans des figures bidimensionnelles ou tridimensionnelles. La création de scores, issus de ces algorithmes de « machine learning » permettra ainsi de fournir aux médecins de transplantation un outil innovant et facilement accessible pour la prédiction précoce du risque individuel de rejet, de perte de fonction du greffon ou bien de décès en utilisant la multitude de facteurs de risques disponibles sans sélection préalable. Cela permettra alors d’approcher une médecine personnalisée ou de précision et d’améliorer les résultats à long terme de la transplantation.

Des données, toujours des données mais aucun risque ?

L’ensemble de ces avancées technologiques et de ces changements de paradigme ne sont pas sans poser quelques problèmes. Le premier est principalement conceptuel : comment peut-on être certains que les analyses et les résultats produits sont vrais ? Ici, on soulève la question de la véracité de l’information : à la fois, celle qui est la source avant l’analyse, et à la fois, celle qui est la résultante de l’analyse. En science, pour approcher de la « vérité », il faut régulièrement avoir recours à des « recoupements » : si plusieurs sources, par plusieurs méthodes différentes, permettent d’aboutir à la même conclusion, alors il est fort probable qu’elle soit vraie. S’assurer de la véracité de l’information à la source est primordiale ; cependant, il s’agit probablement d’un des gros avantages des « Big Data » : les analystes peuvent recouper les données et ne conserver que celles qui se corroborent. Après analyse, en revanche, le risque de déductions indues est important et dépend essentiellement de la qualité de l’algorithme utilisé. Pour cela, il vaut encore mieux ne pas avoir de monopole et être capable d’utiliser plusieurs algorithmes différents et les comparer entre eux.

Un autre écueil des « Big Data » a déjà été abordé : l’explosion exponentielle de l’information conduisant à l’« infobésité ». Comme le disait le philosophe et sociologue de la pensée complexe, Edgard Morin : « La notion d'information est nécessairement associée à la notion de redondance et de bruit ». En pratique, le risque est de générer tellement de données que nous ne pourrions plus ni les analyser, ni les comprendre et finir par en être saturés. Pour cela, certains logiciels permettent de structurer l’information en affichant leurs sources : Wikipedia® est l’exemple même du logiciel néguentropique par excellence ; il permet de structurer les données, donc de diminuer le « désordre » généré par toutes ces informations. Il faut encore et toujours s’assurer que les sources soient citées et qu’il soit possible de les corroborer avec d’autres sources externes. En effet, le risque est assez grand de se retrouver face à des informations douteuses et/ou non vérifiées qui soient capables d’être diffusées de façon extrêmement massive (on parle de « viralité ») alors même qu’elles sont fausses (on parle alors de « fake news », dont les réseaux sociaux sont les principaux vecteurs). L’ensemble des données générées par le « Big Data » peut faire craindre l’émergence de systèmes ubiquistes : vous savez, ces « Big Brother » que George Orwell avait décrit dans son excellent et visionnaire roman d’anticipation 1984. En maitrisant toutes les informations qui émanent de vous, une organisation pourrait alors anticiper tous vos besoins, voire même générer chez vous ceux qui permettraient, à terme, une uniformisation des goûts des individus. Ces « organisations » pourraient alors même être amenées à diffuser, au moment opportun, l’information la plus efficace pour orienter vos choix. Cette information doit paraître alors véridique (sans forcément être vraie, mais être difficilement contestable ou vérifiable) pour que vous puissiez quelque part y adhérer, voire la diffuser et participer à la dissémination de cette « fake news » : sans forcément induire chez vous un comportement (d’achat ou de vote, par exemple), vous concourrez ainsi à la « notoriété » de cette information dans votre cercle de connaissances. Si, par exemple, vous étiez aux Etats-Unis pendant l’élection présidentielle en 2016 et que vous aviez consulté régulièrement votre réseau social préféré (Facebook©), vous auriez alors été susceptible de recevoir et partager une « fake news » russe. L’histoire pourrait être simplement cocasse si la plupart des commentateurs internationaux ne pensaient pas que cette inférence étrangère ait pu, quelque part, faire basculer le vote final…

Les réseaux sociaux ne sont pas les seuls à risque d’intrusion : 2017 a vu l’explosion des failles de sécurités des objets connectés : si on imagine assez mal l’intérêt de pirater votre aspirateur connecté (qu’à cela ne tienne, si un hackeur veut passer l’aspirateur à la maison, qu’il se fasse plaisir !), ça devient plus problématique pour le réfrigérateur, sensé se remplir tout seul (vous apprécieriez assez peu vous faire imposer les marques « sponsors » de ce hackeur). Plus grave encore, votre pacemaker connecté risque de vous poser un peu plus de sueurs froides…

Des réponses

Pour assurer une sécurisation du stockage et l’échange des données, il existe bien la Blockchain® qui est déjà utilisée dans le domaine des transactions financières : vous savez, c’est avec ce système qu’une nouvelle monnaie (on l’appelle une « crypto-monnaie ») a vu le jour, le Bitcoin®. Même si ça n’est pas encore utilisé en santé, il s’agit très probablement d’un des axes de développement pour un grand nombre de transactions à l’avenir. Il n’y a pas de centralisation du cryptage des données mais ça reste un transfert d’informations « totalement » sécurisé. En ce qui concerne la navigation sur internet et la sécurisation de vos données personnelles, plusieurs solutions existent, comme par exemple les serveurs VPN (« Virtual Private Network » dont la plupart sont payants) qui cryptent vos données et masquent l’adresse IP de votre ordinateur (ce numéro identifiant de chaque objet de navigation et donc d’individu sur internet), permettant une navigation anonyme. Certains moteurs de recherche (comme le français Qwant®) s’engagent à ne pas collecter de données ni « tracer » les utilisateurs afin de protéger leur vie privée, le navigateur Opera® intègre quant à lui un service VPN gratuit.

D’une façon règlementaire, devant l’ensemble des problèmes de sécurité liés aux « Big Data », l’Union Européen a voulu s’assurer que l’espace européen serait une zone au sein de laquelle les individus seraient les mieux protégés des risques de dérive : à ce titre, la France mettra en vigueur, en mai 2018, la réglementation européenne sur le RGPD (Régime Général sur la Protection des Données). Cette réglementation va notamment encadrer l’ensemble des bases de données qui peuvent être générées par les entreprises (publiques ou privées) : elles devront recueillir votre accord pour collecter ces données et vous proposer de transmettre de façon sécurisées l’ensemble de vos données personnelles à une autre entreprise si vous le souhaitez (on parle de « portabilité », comme pour votre 06 d’un opérateur de téléphonie mobile à un autre) et devront assurer des processus internes garantissant la sécurité de vos informations. Par ailleurs, le gouvernement a diligenté une mission (dirigée par le député et mathématicien, médaillé Fields, Cédric Villani) pour proposer des axes afin de repositionner la France au cœur de l’« IA » dans le monde.

Conclusion

Le « Big Data » et l’« IA » s’immiscent dans nos vies et portent d’immenses potentiels probablement bénéfiques (compte tenu des avancées de la science qui s’y associent) mais aussi assurément commerciaux (compte tenu du développement de ce secteur). Sans être alarmistes, il faut toutefois garder les yeux ouverts face aux déviances possibles que sont l’atteinte à la vie privée et la manipulation « personnalisée ». Les systèmes de prédiction fondés sur ces bases de données géantes sont capables d’améliorer notre quotidien mais amènent aussi le risque, parfois grand, d’uniformiser nos actions et de déshumaniser nos relations sociales (commerciales, au travail, en santé, voire même au sein de notre famille et entre amis).

Dans le domaine de la médecine, on ne peut opposer ces nouveaux outils d’analyses multidimensionnels à l’homme. Ces modèles n’ont pas vocation à remplacer le diagnostic fait et le traitement choisi par le clinicien mais d’être son compagnon au quotidien afin d’aller vers une médecine plus personnalisée… Pour cela, il faut que les individus remettent l’Homme au centre de ces processus et suivent probablement la maxime scolastique reprise par Gargantua pour son fils (Pantagruel) : « Science sans conscience, n’est que ruine de l’âme » et les recommandations de Nicolas Bouzou : « Plus la technologie augmentera, plus il y aura de la place pour l’humain, à condition que l’homme cultive sa différence ».

N°52