Dernière mise à jour le 16/07/2024

Les architectures et infrastructures pour le Bigdata

Informations générales

Type de formation : Formation continue
Domaine : Décisionnel, collaboratif
Filière : Stratégie décisionnelle
Rubrique : Modèlisation & conception
Formation éligible au CPF : Non
Formation Action collective : Non

Objectifs & compétences

A l’issue de la formation, le stagiaire sera capable d’initier la conception d’une architecture et d’une infrastructure
Big Data, en disposant d’une vue d’ensemble des différentes solutions dédiées au traitement des données de masse

Public visé

Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data, …

Pré-requis

Avoir une bonne culture générale des systèmes d'information et plus particulièrement, avoir des connaissances de base des modèles relationnels, des statistiques et des langages de programmation.

Programme

Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
    • L'essentiel du BigData : calcul distribué, données non structurées. Besoins fonctionnels et caractéristiques techniques des projets.
    • La valorisation des données. Le positionnement respectif des technologies de cloud,
    • BigData et noSQL, et les liens, implications.
    • Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning.
    • L'écosystème du BigData : les acteurs, les produits, état de l'art. Cycle de vie des projets BigData.
        • Atelier : Amazon Rekognition, Polly, EMR.
 
Savoir analyser les difficultés propres à un projet Big Data
    • Rôle de la DSI dans la démarche BigData. Gouvernance des données : importance de la qualité des données,fiabilité, durée de validité, sécurité des données
    • Emergence de nouveaux métiers : Data-scientists, Data labs, Hadoop scientists, CDO, ...
    • Intégration avec les outils statistiques présents et les outils BigData futurs.
 
 
Déterminer la nature des données manipulées
    • Les différents modes et formats de stockage.
    • Les types de bases de données : clé/valeur, document, colonne, graphe. Besoin de distribution. Définition de
    • la notion d'élasticité. Principe du stockage réparti.
    • Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
        • Atelier : démonstrations avec une base MongoDB et une base Cassandra sur des données de différents types
 
Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
    • Les risques et points à sécuriser dans un système distribué.
    • Aspects législatifs et éthiques : sur le stockage, la conservation de données, ..., sur les traitements, la commercialisation des données, des résultats
        • Atelier : mise en évidence des problèmes liés à la réplication inter-régions et concernant les aspects juridiques des données : droit d'exploitation, propriété intellectuelle, ...
    • Etude des failles de sécurité sur une infrastructure Hadoop.
Exploiter les architectures Big Data
    • Les objectifs de la supervision, les techniques disponibles. La supervision d'une ferme BigData.
    • Objets supervisés. Les services et ressources. Protocoles d'accès. Exporteurs distribués de données.
    • Définition des ressources à surveiller. Journaux et métriques.
    • Application aux fermes BigData : Hadoop, Cassandra, HBase, MongoDB
    • Besoin de base de données avec agents distribués, de stockage temporel (timeseriesDB)
    • Produits : Prometheus, Graphite, ElasticSearch.
    • Présentation, architectures.
    • Les sur-couches : Kibana, Grafana.
 
        • Atelier : mise en oeuvre de prometheus pour la supervision d'une ferme
        • Cassandra sur une infrastructure distribuée multi-noeuds.
Mettre en place des socles techniques complets pour des projets Big Data.
    • Etude des différents composants d'une infrastructure BigData :
    • Stockage distribué : réplication, sharding, gossip, hachage,
    • Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage
    • Systèmes de fichiers distribués : GFS, HDFS, Ceph. Les bases de données : Redis, Cassandra, DynamoDB,
    • Accumulo, HBase, MongoDB, BigTable, Neo4j, ...
    • Calcul et restitution :Apport des outils de calculs statistiques
    • Langages adaptés aux statistiques, liens avec les outils BigData.
    • Outils de calcul et visualisation :R, SAS, Spark, Tableau, QlikView, ...
    • Caractéristiques et points forts des différentes solutions.
        • Atelier : mise en oeuvre du sharding avec une base de données MongoDB sur une infrastructure distribuée
 

Modalités

Modalités : en présentiel, distanciel ou mixte – Horaires de 9H à 12H30 et de 14H à 17H30 soit 7H – Intra et Inter entreprise
Pédagogie : essentiellement participative et ludique, centrée sur l’expérience, l’immersion et la mise en pratique. Alternance d’apports théoriques et d’outils pratiques.
Ressources techniques et pédagogiques : Support de formation au format PDF ou PPT Ordinateur, vidéoprojecteur, Tableau blanc, Visioconférence : Cisco Webex / Teams / Zoom
Pendant la formation : mises en situation, autodiagnostics, travail individuel ou en sous-groupe sur des cas réels
 
 

Méthodes

Fin de formation : entretien individuel
Satisfaction des participants : questionnaire de satisfaction réalisé en fin de formation
Assiduité : certificat de réalisation (validation des acquis)
Code de formation : RMCN304

Tarifs

Prix public : 1610
Tarif & financement :
Nous vous accompagnons pour trouver la meilleure solution de financement parmi les suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.
  • CPF -MonCompteFormation
Contactez nous pour plus d’information

Lieux & Horaires

Campus : Ensemble des sites

Durée : 14 heures
Délai d'accès :
8 jours avant le début de la formation
 

Distanciel possible : Oui

Prochaines sessions

Cliquez sur la date choisie pour vous inscrire :

  • Inscription au 26 / 09 / 2024
    : Ensemble des sites
    : Distanciel possible
    : 14 heures
    : 2 jours
Handi-accueillante Accessible aux personnes en situations de handicap. Pour toutes demandes, contactez notre référente, Mme Rizlene Zumaglini Mail : rzumaglini@aston-ecole.com

à voir aussi dans le même domaine...

Formation continue

Stratégie décisionnelle

D-AMT

Modélisation en étoile, conception et mise en œuvre

Conduire des interviews pour recueillir les besoins d'analyse auprès des métiers Définir les critères de qualité d'un Data Warehouse A partir d'un cahier des charges d'analyse, identifier les dimensions et les faits à placer dans le modèle Concevoir et décrire un macro-modèle en étoile Optimiser le modèle en étoile en vue de la prise en compte de la volumétrie et des problématiques de reporting Décrire une architecture de chargement des données dans le modèle en étoile décrit

21 heures de formations sur 3 Jours
En savoir plus

Formation continue

Stratégie décisionnelle

D-EDM

Systèmes d’information décisionnels – Concepts et architectures

Décisionnel, Data Warehouse, DW, DWH, Système d'Information Décisionnel, SID, Modèle en étoile, Data Marts, ETL, Reporting, Pilotage, Performance, Processus

Mesurer les enjeux et impacts d'un projet décisionnel Savoir concevoir et modéliser un entrepôt de données Découvrir le rôle des différents outils de l'informatique décisionnelle Connaître les pièges à éviter lors de la mise en oeuvre

14 heures de formations sur 2 Jours
En savoir plus

Formation continue

Stratégie décisionnelle

D-ETL

ETL : réussir son projet d’intégration

Mesurer les enjeux de l'intégration des données Identifier les fonctionnalités d'alimentation nécessaires à l'intégration des données Évaluer la capacité des outils ETL à répondre aux besoins d'intégration S'approprier la démarche de spécification d'un flux d'intégration des données  

7 heures de formations sur 1 Jours
En savoir plus

Formation continue

Stratégie décisionnelle

D-MET

Modéliser un système d’information décisionnel

Modèle en étoile, Modélisation en étoile, Décisionnel, Data Warehouse, DW, DWH, Système d'Information Décisionnel, SID, Data Marts, ETL, Reporting, Pilotage, Performance, Processus

Savoir créer une architecture de données adaptée aux besoins décisionnels et Business Intelligence des utilisateurs Être en mesure de choisir et d'harmoniser des étoiles relationnelles et cubes OLAP

14 heures de formations sur 2 Jours
En savoir plus

Formation continue

Stratégie décisionnelle

RDBN409

Talend Open Studio Data Integration : Initiation + Approfondissement

A l’issue de la formation, le stagiaire sera capable :

        • Comprendre le processus d'intégration de données
        • Maîtriser l'outil Talend Open Studio et la bibliothèque de composants
 

35 heures de formations sur 5 Jours
En savoir plus

Formation continue

Stratégie décisionnelle

RDBN410

Big Data – Concevoir et piloter un projet

A l’issue de la formation, le stagiaire sera capable : Identifier les avantages et contraintes technologiques, réglementaires, et organisationnelles d'un projet Big Data Rédiger la charte d'un projet Big Data Planifier un projet Big Data et choisir une méthodologie (Agile / traditionnelle / hybride) Identifier les ressources du projet, et choisir une plateforme (On-Premise, Cloud, ou hybride, SaaS vs PaaS vs FaaS) Exécuter un projet Big Data du développement au déploiement / monitoring Adopter une démarche d'amélioration continue.  

14 heures de formations sur 2 Jours
En savoir plus