Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation IBM InfoSphere Advanced DataStage v11.5 - Parallel Framework
Technique

Formation IBM InfoSphere Advanced DataStage v11.5 - Parallel Framework

Optimiser les vitesses de traitement de l’information

Dans un environnement toujours plus concurrentiel, disposer rapidement d’informations fiables pour prendre les bonnes décisions au bon moment est devenu un enjeu crucial. Mais au regard des flux toujours plus abondants d’informations hétérogènes ("Big Data"), il devient indispensable pour cela de disposer d’outils extrêmement performants. Avec InfoSphere DataStage, IBM propose une solution permettant de réaliser en parallèle des travaux d’import et de transformation de données et ainsi d’alimenter des DataWarehouse en des temps records. Les développeurs DataStage participant à cette formation apprendront à mettre en oeuvre des solutions plus performantes en tirant profit de cette "force" de l’ETL d’IBM.
Objectifs de cette formation IBM InfoSphere Advanced DataStage v11.5 - Parallel Framework
  • Comprendre l'architecture de traitement parallèle ainsi que les environnements de développement et d'exécution
  • Connaître les processus de compilation et d'exécution des travaux
  • Être capable d’optimiser la phase de tri et de mise en mémoire tampon dans le cas de travaux en parallèle
  • Comprendre comment utiliser les types de données liés au cadre parallèle
  • Savoir créer des composants de travaux réutilisables
  • Acquérir les connaissances nécessaires pour générer des étapes personnalisées intégrant des fonctions de transformation
  • Être en mesure de traiter des données XML dans les travaux DataStage
  • Savoir concevoir une tâche qui traite une base de données de schéma en étoile à l'aide de dimensions à évolution lente de Types 1 et 2
Public
  • Développeurs expérimentés sur DataStage
Pré-requis
Programme détaillé

Introduction à l'architecture du Parallel Framework

  • Présentation de l'architecture
  • Présentation du pipeline et des partitions
  • Rôle du fichier de configuration
  • Conception d'une tache de création de tests de données

Compilation et exécution

  • Les principales parties du fichier de configuration
  • Le process de compilation
  • L'OSH généré par le process de compilation
  • Rôle et principales parties du Score

Partitionnement et collecte de données

  • Le fonctionnement du partitionnement dans le framework
  • Affichage des partitions dans le Score
  • Sélection des algorithmes de partitionnement
  • Générer des séquences de nombres (clés de substitution), dans un environnement parallèle partitionné

Tris de données

  • Trier les données
  • Trouver des tris dans le Score
  • Réduire le nombre de tris
  • Optimiser l'emploi des jointures
  • Utiliser Trier les étapes pour déterminer la dernière rangée dans un groupe
  • Décrire la clé de tri et la clé logique de partitionnement

Gestion des buffers en exécution parallèle

  • Fonctionnement des buffers
  • Optimisation des buffers

Types de données

  • Virtual Data Sets
  • Les schémas
  • Conversion de types
  • Gestion des données externes
  • Gestion de la valeur nulle
  • Travailler avec des données complexes

Composants réutilisables

  • Créer un schéma de fichier
  • Lecture séquentielle d'un fichier à l'aide d'un schéma
  • Utiliser Runtime Column Propagation (RCP)
  • Créer et utiliser des containers

Optimisation équilibrée

  • Activer la fonctionnalité d'optimisation
  • Description des processus d'optimisation
  • Passage en revue des différentes options d'optimisation
  • Optimisation des traitement Hadoop HDFS
  • Limitations
Les plus de cette formation IBM InfoSphere Advanced DataStage v11.5 - Parallel Framework
  • Une formation complète basée sur l'alternance de phases théoriques et de travaux pratiques qui favorise une mise en pratique immédiate des acquis à l'issue de la session.
  • Les consultants spécialistes de DataStage apportent leurs conseils et leur expérience.
  • La qualité d'une formation officielle IBM (remarque : support de cours en anglais).
Certification

Cette formation prépare au test suivant :

  • C2090-303
et entre en jeu dans le cursus de certification :
  • IBM Certified Solution Developer - InfoSphere DataStage

Informations

  • Durée : 3 Jours (21h)
  • Réf. : BI203
  • Réf. éditeur : KM404G


Bon à savoir...
IBM InfoSphere Advanced DataStage v11.5 - Parallel Framework

Introduction à l'architecture du Parallel Framework

Compilation et exécution

Partitionnement et collecte de données

Tris de données

Gestion des buffers en exécution parallèle

Types de données

Composants réutilisables

Optimisation équilibrée

= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.