Big Data, état de l’art

L’accroissement continuel des données numériques dans les organisations a conduit à l’émergence du Big Data. Ce concept recouvre les questions de stockage et de conservation de vastes quantités de données mais aussi celles liées au gisement potentiel de valeur que représentent ces masses de données. Ce séminaire présente les problèmes spécifiques du Big Data et les solutions techniques potentielles, de la gestion des données aux différents types de traitement.

Découvrir les principaux concepts du Big Data
Identifier les enjeux économiques
Évaluer les avantages et les inconvénients du Big Data
Comprendre les principaux problèmes et les solutions potentielles
Identifier les principales méthodes et champs d’application du Big Data

Introduction

Les origines du Big Data : un monde de données numériques, l’e-santé, chronologie.
Une définition par les quatre V : la provenance des données.
Une rupture : changements de quantité, de qualité, d’habitudes.
La valeur de la donnée : un changement d’importance.
La donnée en tant que matière première.
Le quatrième paradigme de la découverte scientifique.

Big Data : traitements depuis l’acquisition jusqu’au résultat

L’enchaînement des opérations. L’acquisition.
Le recueil des données : crawling, scraping.
La gestion de flux événementiels (Complex Event Processing, CEP).
L’indexation du flux entrant.
L’intégration avec les anciennes données.
La qualité des données : un cinquième V ?
Les différents types de traitement : recherche, apprentissage (Machine Learning, transactionnel, data mining).
D’autres modèles d’enchaînement : Amazon, e-Santé.
Un ou plusieurs gisements de données ? De Hadoop à l’in-memory.
De l’analyse de tonalité à la découverte de connaissances.

Relations entre Cloud et Big Data

Le modèle d’architecture des Clouds publics et privés.
Les services XaaS.
Les objectifs et avantages des architectures Cloud.
Les infrastructures.
Les égalités et les différences entre Cloud et Big Data.
Les Clouds de stockage.
Classification, sécurité et confidentialité des données.
La structure comme critère de classification : non structurée, structurée, semi-structurée.
Classification selon le cycle de vie : données temporaires ou permanentes, archives actives.
Difficultés en matière de sécurité : augmentation des volumétries, la distribution.
Les solutions potentielles.

Introduction à l’Open Data

La philosophie des données ouvertes et les objectifs.
La libération des données publiques.
Les difficultés de la mise en œuvre.
Les caractéristiques essentielles des données ouvertes.
Les domaines d’application. Les bénéfices escomptés.

Matériel pour les architectures de stockage

Les serveurs, disques, réseaux et l’usage des disques SSD, l’importance de l’infrastructure réseau.
Les architectures Cloud et les architectures plus traditionnelles.
Les avantages et les difficultés.
Le TCO. La consommation électrique : serveurs (IPNM), disques (MAID).
Le stockage objet : principe et avantages.
Le stockage objet par rapport aux stockages traditionnels NAS et SAN.
L’architecture logicielle.
Niveaux d’implantation de la gestion du stockage.
Le “Software Defined Storage”.
Architecture centralisée (Hadoop File System).
L’architecture Peer-to-Peer et l’architecture mixte.
Les interfaces et connecteurs : S3, CDMI, FUSE, etc.
Avenir des autres stockages (NAS, SAN) par rapport au stockage objet.

Protection des données

La conservation dans le temps face aux accroissements de volumétrie.
La sauvegarde, en ligne ou locale ?
L’archive traditionnelle et l’archive active.
Les liens avec la gestion de hiérarchie de stockage : avenir des bandes magnétiques.
La réplication multisites.
La dégradation des supports de stockage.

Méthodes de traitement et champs d’application

Classification des méthodes d’analyse selon le volume des données et la puissance des traitements.
Hadoop : le modèle de traitement Map Reduce.
L’écosystème Hadoop : Hive, Pig. Les difficultés d’Hadoop.
OpenStack et le gestionnaire de données Ceph.
Le Complex Event Processing : un exemple ? Storm.
Du BI au Big Data.
Le décisionnel et le transactionnel renouvelés : les bases de données NoSQL.Typologie et exemples.
L’ingestion de données et l’indexation. Deux exemples : Splunk et Logstash.
Les crawlers Open Source.
Recherche et analyse : Elasticsearch.
L’apprentissage : Mahout. In-memory.
Visualisation : temps réel ou non, sur le Cloud (Bime), comparaison QlikView, Tibco Spotfire, Tableau.
Une architecture générale du data mining via le Big Data.

Cas d’usage à travers des exemples et conclusion

L’anticipation : besoins des utilisateurs dans les entreprises, maintenance des équipements.
La sécurité des personnes, détection de fraudes (postale, taxes), le réseau.
La recommandation. Analyses marketing et analyses d’impact.
Analyses de parcours. Distribution de contenu vidéo.
Le Big Data pour l’industrie automobile ? Pour l’industrie pétrolière ?
Faut-il se lancer dans un projet Big Data ?
Quel avenir pour les données ?
Gouvernance du stockage des données : rôle et recommandations, le Data Scientist, les compétences d’un projet Big Data.

Cette formation ne nécessite pas de prérequis.

Formateur

Les formateurs de CROSSTHINK sont des experts de leur domaine, disposant d’une expérience terrain qu’ils enrichissent continuellement. Leurs connaissances techniques et pédagogiques sont rigoureusement validées en amont en interne.

Moyens Pédagogiques

Présentation du formateur et du programme.
Présentation et écoute de chacun de stagiaires.
Apports didactiques pour apporter des connaissances communes.
Mises en situation de réflexion sur le thème du stage et des cas concrets.
Méthodologie d’apprentissage interactive et participative.
Exercices et études de cas concrets.
Temps d’échanges.
Accompagnement pédagogique individualisé.

Suivi de l’évaluation des résultats de la formation

Accueil des stagiaires dans une salle dédiée à la formation / A distance
Feuilles de présence.
Documents supports de formation projetés.
Mise à disposition du stagiaire des documents et supports de formation.
Tout au long et/ou à l’issue de la formation : Evaluation des acquis des stagiaires via des exercices, des QCM, des QUIZZ, des mises en situation et/ou des cas pratiques.
Enquête de satisfaction.
Attestation de fin de formation.

Accessibilité aux personnes handicapées

En cas de situation d’handicap, merci de nous contacter afin d’étudier l’adaptation des moyens de formation.

En bref

Durée : 2 jours

Tarif : 990€

Formations à distance

Contactez-nous
contact@crossthink.fr

contact@crossthink.fr

Téléchargez en PDF

Download

PROCHAINES DATES

Nous consulter

Accessible aux personnes en situation de handicap

Demande de renseignement

Je souhaite Je souhaite M'inscrire à une session Organiser une session sur mesure Obtenir des informations ou un devis

Nom

Prénom

Adresse e-mail

Téléphone

Etes-vous en situation de handicap ? Etes-vous en situation de handicap ? Oui Non

Message

En soumettant ce formulaire, j'accepte que les informations saisies soient exploitées dans le cadre de ma demande de contact et de la relation commerciale qui peut en découler.