DataLake

Depuis plusieurs mois, les dark data font parler d’elles dans la communauté numérique. Mi-mai dernier, la presse spécialisée relayait l’information selon laquelle Apple avait déboursé 200 millions de dollars pour racheter une jeune entreprise spécialisée dans la recherche et la catégorisation des dark data. De quoi s’agit-il et quels en sont les réels enjeux ? Tentons de faire la lumière sur ces « données obscures ».

Les données non identifiées comme utiles deviennent des dark data

Notons d’abord que les dark data ne doivent pas être confondues avec le dark web, qui désigne une petite partie du web non indexé (ou deep web), uniquement accessible via des logiciels spécifiques et réputé pour héberger des sites illégaux. Les dark data¸ ou données non structurées et non analysées, représenteraient près de 90% des données en circulation. Mails, documents papiers, photos, vidéos ou portions d’information disparates – les dark data sont tous types d’information que les organisations gênèrent, collectent, traitent, mais ne réutilisent généralement pas. Par exemple, de nombreuses personnes utilisent leurs téléphones personnels et leurs tablettes à des fins professionnelles, ou stockent sur des plateformes publiques non sécurisées des données issues de l’entreprise. Si ces comportements ne révèlent pas de mauvaise intention mais plutôt un souci d’efficacité, ils indiquent aussi une méconnaissance des conséquences possibles. Car ces données deviennent des dark data justement parce que leurs utilisateurs ne les identifient pas comme potentiellement utiles. Autre exemple : les caméras de surveillance dans les parkings de supermarché, dont les images, si elles étaient systématiquement analysées, révéleraient sans doute de nombreuses informations sur les flux de circulation, les heures d’affluence, ou encore le type de population fréquentant la zone en fonction de l’heure de la journée…

L’entreprise ne peut pas – et n’a pas vocation à – exploiter toutes les données qu’elle génére

Il existe bien trop de données en circulation pour que tout puisse être exploité. Quand on pense qu’une pile de 100 000 DVD de 4,7 giga octets chacun peut être remplie de nouvelles données en à peine 16 secondes, on se rend compte des limites de l’exercice.

En 2020, l’univers numérique sera constitué de plus de 40 zetta octets (1 021 octets) de données, dont plus d’un tiers pouvant être considérées comme de valeur. Identifier, stocker et analyser les dark data de façon ciblée, en utilisant les technologies en pleine expansion que sont la reconnaissance de formes, l’analyse cognitive, la vision par ordinateur, le machine learning, mais aussi adopter les bonnes pratiques qui sécurisent ces informations, constituera bientôt le prolongement d’une dynamique déjà largement adoptée en entreprise, concernant la gestion du patrimoine informationnel et le partage de données.

En attendant que les ordinateurs offrent des puissances de calcul suffisamment importantes à la portée de tous, il vaudra toujours mieux ne pas trop fantasmer et garder la tête froide, en se demandant toujours : « de quoi ai-je besoin ? Vais-je le trouver dans les dark data ? », avant de commencer à exploiter les données de tous bords. Certes les dark data sont une richesse informationnelle à connaître et à ne pas sous-estimer. Mais entre l’illusion de la maîtrise totale de son environnement informationnel et les limites technologiques et humaines imposées par la réalité, le pragmatisme et la réflexion restent les meilleurs atouts des décideurs.

Bruno ETIENNE

Président de KB Crawl SAS

Voir l’article sur archimag.com