JVM

Data Warehouse, Data Lake, comment tirer profit du Big Data ?

  • 16 septembre 2019

La quantité de données numériques créée chaque jour dans le monde est indicible. Le concept du Big Data répond aux besoins de stockage et d’utilisation en masse de ces données qu’il n’est pas possible de réaliser avec des outils de gestion de l’information classiques. Pour interpréter ces données nous verrons dans cet article l’utilisation d’un Data Warehouse et d’un data lake.

Dans cet article, Nitya Data Ingénieur chez NeoLynk, revient sur les raisons qui poussent les sociétés à utiliser le Big Data, les manières dont elles l’utilisent et à quoi il sert.

L’intérêt du Big Data pour les entreprises !

Les entreprises s’intéressent à comment utiliser le Big Data pour prendre plus rapidement et facilement une décision. Tous les jours une multitude de données elles-mêmes reliées à d’autres sont stockées pour être réutilisées.

À quoi sert le Big Data ?

L’utilisation du Big Data permet notamment de :

  • Connaître les besoins du consommateur
  • Obtenir des données opportunes, sûres et accessibles à tous les niveaux
  • Connaître les comportements des clients
  • Proposer des offres personnalisées
  • Relever les nouvelles tendances
  • Prendre les bonnes décisions
  • Proposer des offres personnalisées
  • Augmenter la réactivité, la productivité, le profit

En 2020, on estime que chaque personne créera à elle-seule 5 Mo de données par seconde.

Cette infographie montre ce qu’il se passe sur Internet en 1 minute dans le monde en 2019. Toute cette masse de données créée chaque minute alimente le Big Data mondial.

On utilise le Big Data dans les domaines suivants :

  • Médecine
  • Détection de fraude en temps réel dans le secteur bancaire
  • Gouvernement
  • Industrie des médias et du divertissement
  • Météorologie
  • Industrie automobile

À titre d’exemple, le Big Data est utilisé pour faciliter la circulation des usagers des transports en commun. Lorsqu’il y a beaucoup de neige. Les Parisiens prennent davantage les transports et la RATP se demande à quelle fréquence il faut augmenter le passage des trains.

Le Data Warehouse : une pièce maîtresse pour centraliser des données traitées et transformées !

Si nous prenons le cas des entreprises qui vendent des produits sur internet, elles recueillent les données de leurs clients et les stockent dans un Data Warehouse. C’est une base de données géante qui peut coûter très cher et qui collecte toutes les données relatives aux transactions réalisées par les clients.

Ce Data Warehouse permet de connaître qui achète quoi et sur quel canal de vente. Par exemple, si un client achète quelque chose sur Internet, les sociétés conservent son historique d’achat. D’autres sociétés peuvent garder les données liées à la vente : combien de produits se sont vendus, à quel prix, la marge réalisée, etc…

Dans les entreprises, les données arrivent depuis les services marketing, ventes…, ou depuis l’extérieur. Ces données qui alimentent le Data Warehouse peuvent être non structurées. Elles vont devoir être préparées, nettoyées pour avoir une structure commune et être envoyées dans le Data Warehouse.

data-warehouse-le-fonctionnement

Ces données stockées en grand nombre vont ensuite être disponibles à la demande. Les personnes qui font de l’analytics ou de la stratégie peuvent avoir besoin de certaines données pour travailler, établir des recommandations. Elles vont alors faire une requête auprès de l’ingénieur database pour qu’il leur fournisse telles données. Celui-ci va leur répondre qu’il a besoin de temps (parfois plusieurs jours) pour faire remonter les données et les transférer. Il existe plusieurs frameworks open source comme Hadoop et Spark qui facilitent le processus de traitement d’une requête. Grâce à eux, le temps d’attente pour faire remonter des données du Data Warehouse est diminué.

Les entreprises avec une architecture Data Warehouse classique n’ont pas toujours besoin d’utiliser des écosystèmes dédiés au Big Data. Si les données entrent dans leurs bases de données classiques, ces sociétés peuvent aller chercher les informations avec des requêtes SQL.

Le Data Lake, une pièce maîtresse pour centraliser des données de différentes natures.

Dans un Data Lake sont réunies des données de différentes natures (structurées, non-structurées, semi-structurées), accessibles à tout le monde : les Développeurs, les Data Scientist, les Business Analysts. Pour réunir les données depuis plusieurs sources de données, on utilise un framework comme Hadoop. Celui-ci va permettre de faire une recherche dans toute la base de données afin d’avoir les valeurs de données rapidement.

Il est important de préciser que toutes les données arrivent en temps réel dans le Data Lake. Si on prend l’exemple d’une maison connectée qui se fait cambrioler, la réception des données en temps réel permet d’envoyer directement une notification au propriétaire.

Data-lake-fonctionnement

Comment gérer la complexité du Big Data ?

Avant d’être intégrées dans le Data Warehouse ou le Data Lake, les données sont traitées en masse en prenant compte une triple problématiques dite “règle des 3 V”.

  • Volume des données : une quantité considérable de données à traiter.
  • Variété des données : les données proviennent de multiples endroits avec des formats différents : log, smartphones, réseaux sociaux, signaux GPS, les transactions d’achats en ligne et bien d’autres encore.
  • Vélocité des données : c’est la fréquence de création, de collecte et de partage des données. Il y a des données qui arrivent une par une et d’autres qui arrivent en continue comme les plateforme de streaming.

Cette règle des V peut être étendue :

  • La valeur des données : Profit qu’on peut tirer de l’usage du Big Data.
  • La véracité des données : Info ou intox ? Par exemple, certaines personnes partagent de fausses informations sur Facebook. Si l’information est fausse, cela va impacter beaucoup de personnes. Même si on se rend compte 3 jours après que l’info était fausse, cela aura déjà impacté plusieurs personnes. Aujourd’hui il n’y a pas de modèle pour détecter si l’info est vraie ou non, aucun système ne peut empêcher ça.

Outils Open Source

Pour vous y retrouver dans tous les outils open source on a pensé que ce tableau pouvait vous être utile :

bid-data-outils-open-source