Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation Cursus Data Scientist
Cursus MétierNouveauté

Formation Cursus Data Scientist

Cursus Métier

Les entreprises collectent aujourd’hui de tels volumes d’informations que leur exploitation avec des méthodes traditionnelles est devenue impossible. Pourtant, ces informations sont des mines d’or ! Mais encore faut-il savoir les traiter, les analyser et en tirer la substantifique moelle. C’est précisément la mission qui incombe au Data Scientist qui en imaginant de nouveaux modèles et en utilisant de nouveaux outils va donner du sens aux données et en extraire de la valeur pour aider l'entreprise à prendre des décisions. A la fois spécialiste des données, des chiffres, des statistiques, des outils informatiques et grand connaisseur du secteur pour lequel il analyse des données, le Data Scientist est aussi un créatif qui doit savoir faire preuve d’imagination et un communiquant capable de restituer de façon claire et convaincante le résultat de ses analyses.
Objectifs de ce cursus métier Cursus Data Scientist
  • Disposer d’une vision claire du Big Data, de ses enjeux, de son écosystème et des principales technologies et solutions qui y sont associées
  • Maitriser le cycle de vie de la donnée et savoir garantir la qualité des données
  • Etre en mesure d’aligner les usages métiers avec le cycle de vie de la donnée
  • Savoir utiliser R pour analyser des données et restituer des résultats à l’aide de graphiques
  • Comprendre comment utiliser des algorithmes d'auto-apprentissage adaptés à une solution d'analyse
  • Disposer des compétences techniques nécessaires à réalisation d’analyses Big Data
  • Maitriser la boite à outils technologique que constitue Hadoop et son écosystème et savoir comment PIG, HIVE, MapR,...
  • Savoir concevoir des modèles de documents et des graphiques répondant aux attentes de l’entreprise, en fonction du sujet analysé
Pré-requis
  • La connaissance du langage SQL est nécessaire pour suivre ce cursus. Il est conseillé d’avoir suivi la formation «Interroger des bases de données avec le langage SQL» (LA300) ou de disposer des connaissances équivalentes.
  • Disposer de connaissances en statistiques ou avoir suivi la formation « Introduction à l'analyse statistique » (BI090).
  • Disposez-vous des compétences nécessaires pour suivre cette formation ? Testez-vous !
Programme détaillé

Big Data – Enjeux et perspectives (2j)

  • Objectif : Découvrir à travers de nombreux cas d’usage les concepts, technologies et perspectives du Big Data et disposer d’une première expérience pratique des outils spécifiques au Big Data
  • Définition du Big Data : Modèles d’affaires, architecture, environnement juridique, compétences, emplois
  • Cas d’usage : comment des grandes et des petites entreprises utilisent le Big Data
  • Présentation des principales solutions logicielles qui compose un système Big Data
  • Les éléments d’architecture d’un système Big Data : schéma d’architecture, traitement de la donnée, stockage des données, construction d’une architecture
  • Les freins et les challenges : échecs et réussites des projets, freins financiers et techniques, qualité des données, cadre juridique et éthique des projets Big Data
  • Les impacts organisationnels : organisation des équipes, nouveaux rôles/métiers, besoin en compétences
  • Le projet Big Data : méthodologie et démarche, calcul du ROI, étapes d’un projet réussi

Big Data - Gouvernance, qualité et traitement des données (3j)

  • Objectif : Disposer des connaissances et compétences nécessaires pour identifier et collecter des données et s’assurer de leur qualité et de leur alignement sur les besoins et usages métiers de l’entreprise
  • Introduction : la donnée en tant que matière première, alignement de la qualité de la donnée avec les usages métiers, sources de données, systèmes d’information opérationnel et décisionnel, Big Data et smart Data
  • Enjeux, définition et problématiques liés à la qualité de la donnée Big Data, le 4ème V, la véracité : définitions, cycle de vie de la donnée, qualité des données, gouvernance de la donnée
  • Cycle de vie et qualité de la donnée : création, collecte, stockage, exploitation, archivage, nettoyage, gestion de la qualité
  • Alignement des usages métiers et gouvernance de la données Big Data : identification des usages, Urbanisation de la donnée, gestion de la qualité de la donnée
  • Urbanisation, mise sous contrôle des référentiels et qualité de la donnée
  • Assurer la qualité de la donnée : Outils et méthodes de gestion des référentiels et de la qualité des données
  • Le traitement de données : Considérations techniques, calcul et architecture distribués
  • Conclusion et plan d’actions

Les fondamentaux de l'analyse statistique avec R (3j)

  • Objectif : Disposer des connaissances nécessaires pour utiliser le logiciel libre de traitement des données « R » qui permet de réaliser des analyses statistiques et de les restituer sous forme graphique
  • Introduction : présentation de R
  • Installation de R ou Microsoft R Open sur MS Windows ou Scientific Linux
  • Utilisation : console de commande, dossier de travail, espace de travail, historique des commandes, script
  • Manipulation de packages : installation, désinstallation, mise à jour
  • Types de données : manipulations de scalaires, de nombres complexes, de variables, de vecteurs, de matrices, de textes, de dates et de durées
  • Import et export de données : données Excel, Access, csv, xm, json, MySQL, Oracle, fichiers SAS
  • Manipulation de données : utilisation du SQL, data frames, tris, filtres, fusions, doublons
  • Analyse de données : synthèses, valeurs absentes, variables pseudo-aléatoires, statistiques descriptives, intégration numérique et algébrique

Analyse statistique avancée avec R (3j)

  • Objectif : Etre en mesure d’exploiter les fonctionnalités avancées de R et être ainsi à même d’analyser tous types de données dans un projet Big Data
  • Introduction : analyses avancées avec R
  • Travailler avec des échantillons
  • Réaliser des tests d'ajustement : tests d’Anderson-Darling et de Shapiro-Wilk
  • Estimation et intervalles de confiance
  • Analyses statistiques avancées : test t-Student, test de Poisson, test binomial exact, proportions, transformations de Box-Cox et de Johnson
  • Analyse de la variance et de la covariance : ANOVA à facteur(s) fixe(s), test de Student, test de Tukey HSD, test de Levene et Bartlett, ACP, AFE

Data Mining et Machine Learning (2j)

  • Objectif : Maîtriser le Data Mining et le Machine Learning pour explorer de très importants volumes de données et construire des modèles répondant aux problèmes très variés des entreprises
  • Introduction : Data Mining vs Big Data, vs Machine Learning vs Deep Learning, apprentissage supervisé vs non supervisé et méta-apprentissage
  • Ingénierie de la décision : analyse procédurale hiérarchique, problème d’association stable, chaîne de Markove discrète, jeu d’entraînement et de test
  • Sélection d’instances : échantillonnages balancés et stratifié
  • Data Mining (fouille de données) : analyse en composantes principales, analyse d'affinité, agglomération hiérarchique et dendrogrammes, positionnement multidimensionnel, K-means, SVM
  • Machine Learning : régression logistique binaire, GLM, One-R, regroupements, arbres aléatoires, K-NN, détections automatiques d’interactions, analyses discriminantes, réseaux de neurones
  • Text Mining : analyse statistique de corpus, détection de langues, de genres, table de contingence de mots, analyse de sentiments, LSA
  • Big Data : gestion de gros volumes de données

Big Data : mise en oeuvre d'une solution complète d'analyse des données (4j)

  • Objectif : Savoir mettre en oeuvre une solution complète de Big Data en environnement Hadoop et disposer des compétences nécessaires au traitement et à l’analyse des données
  • Collecter les données : sources, outils, données semi-structurées et non-structurées
  • Stocker les données : formes de stockage, technologies, données non structurées, écosystème Hadoop, infrastructure matérielle et logicielle, MapReduce, PIG, HIVE
  • Analyser les données : requêtes, analyse de données non structurées, analyse statistique et prédictive, tendances, programmes d’automatisation des analyses, Machine Learning, Deep Learning
  • Transformer les données en décisions : besoins utilisateurs, traduction en requêtes, vérification de la qualité des données, indice de confiance

Big Data - Analyse, Data Visualization et Data StoryTelling pour la restitution de données (3j)

  • Objectif : Etre en mesure de concevoir des modèles de documents adaptés aux besoins métiers de l’entreprise et savoir mettre en oeuvre différentes techniques de visualisation graphique, de mise en récit et de présentation permettant de valoriser les données
  • Data Visualisation ou la découverte de la grammaire graphique : des chiffres aux graphiques, les 3 dimensions, Tableau Software, de l'idée d'un graphique à sa formalisation dans un outil
  • Data Storytelling : présentation, exemples, techniques de la mise en récit des données, Storytelling des idées et des données
  • Comment construire son histoire : pitch, scénario, schéma narratif, méthodologies, 10 règles pour écrire une bonne présentation
  • Les bonnes pratiques de la mise en récit de données : scénarisation de la présentation, 10 règles pour garder en mémoire sa présentation
Les plus de ce cursus métier Cursus Data Scientist
  • Chaque participant établit son propre planning de formation. En fonction de la date de début choisie parmi celles proposées ci-dessous, nos Conseillers Formation proposent différentes dates pour chacun des modules du cursus. Pour des raisons d’efficacité pédagogique, il est fortement recommandé de suivre les modules dans l’ordre présenté sur ce programme.
  • L’alternance de formations et de périodes de mise en pratique en entreprise favorise l’acquisition rapide et durable de nouveaux savoirs.
  • Animé par un expert spécialiste du sujet traité, chacun des 7 modules aborde un aspect spécifique de la thématique de formation.
  • A travers de nombreuses mises en situation, les participants mettront en pratique les aspects théoriques abordés au cours des différentes étapes du cursus.

Informations

  • Durée : 20 Jours (140h)
  • Tarif : 8 890 € HT
  • Réf. : CM060
  • Option(s)
    • Repas Paris : 460 € HT


Dates des sessions
Session garantie Formation à distance Session accessible à distance Visio
Bon à savoir...



= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.