New
 
Fantom Tag

Formation - IA multimodale – Conception et déploiement de solutions combinant texte, image et données

Concevoir des architectures multimodales, orchestrer des modèles et exploiter des cas d’usage concrets en intelligence artificielle

  • Présentiel ou classe à distance
  • Perfectionnement
PRESENTIEL OU CLASSE A DISTANCE
Durée
3 jours (21 heures)

Prix
2 490,00 €  HT

Référence
IA113
Dans vos locaux ou à distance
Durée
3 jours (21 heures)

Forfait intra - En savoir plus
7 590,00€ HT
Prix pour un groupe de 12 personnes max

Référence
IA113
Formation à la demande
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !
À l’ère des systèmes intelligents, la capacité à exploiter simultanément plusieurs types de données (texte, image, audio, vidéo) devient un levier stratégique pour les organisations. La formation dédiée à la conception de systèmes d’IA multimodale permet de maîtriser les technologies de pointe telles que les LLM (Large Language Models), Vision-Language Models, Audio et Video AI, ainsi que leur intégration dans des architectures complexes et évolutives.
Elle apporte une expertise approfondie pour concevoir des pipelines multimodaux robustes, déployer des architectures de RAG multimodal et orchestrer des agents intelligents, capables d’interagir avec des données hétérogènes. Les participants développent également une vision critique des limites techniques des enjeux énergétiques et des problématiques de gouvernance, essentielles dans des environnements industriels en France, en Europe et à l’international. Cette formation s’adresse aux profils techniques souhaitant se positionner sur les sujets avancés d’IA générative, IA multimodale et systèmes intelligents de nouvelle génération, aujourd’hui au coeur des innovations en data, IA et cloud.
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Data Scientists, Développeurs, Tech Leads, Architectes IA

Prérequis

Programme

Le programme

1 - Introduction : vers des systèmes intelligents multimodaux

  • Définition et enjeux de l’IA multimodale en entreprise
  • Rôle des différentes modalités (texte, image, audio, vidéo) dans les systèmes intelligents
  • Unification des données : tokens, embeddings et représentation vectorielle
  • Contraintes clés : latence, coût d’inférence, qualité et observabilité
  • Atelier

    Prise en main d’un environnement multimodal (inférence, notebooks, traçabilité)

2 - LLMs : le texte comme moteur cognitif

  • Rôle central des modèles de langage (LLM) dans les architectures multimodales
  • Architectures LLM et principes d’instruction (prompt engineering avancé)
  • Gestion du contexte, raisonnement et génération contrôlée
  • Limites : hallucinations, coût d’inférence, non-déterminisme
  • Atelier

    Déploiement et exploitation d’un LLM sur infrastructure GPU

3 - Vision-Language Models : exploiter l’image et la donnée visuelle

  • Encodage des images et représentation visuelle
  • Modèles vision-langage et mécanismes d’attention croisée
  • Cas d’usage : OCR avancé, analyse documentaire, vision industrielle
  • Limites : raisonnement spatial, robustesse et fiabilité
  • Atelier

    Création d’un pipeline multimodal image–texte

    Conception d’un agent multimodal orchestré par graphe

4 - Perspectives d'évolutions de l’IA multimodale

  • Modèles natifs multimodaux vs assemblages unimodaux
  • Enjeux de souveraineté, maîtrise technologique et impact environnemental
  • Problématiques d’ingestion et d’exposition des données multimodales
  • Tendances : apprentissage auto-supervisé, JEPA, représentations latentes

5 - Audio-Language Models : exploiter la donnée audio

  • Représentation et tokenisation de l’audio
  • Reconnaissance vocale, synthèse et compréhension audio
  • Intégration dans des systèmes multimodaux
  • Contraintes temps réel et qualité du signal
  • Atelier

    Analyse et exploitation de données audio avec un modèle IA

6 - Video-Language Models : comprendre les flux vidéo

  • Spécificités des données vidéo et traitement spatio-temporel
  • Mécanismes d’attention temporelle
  • Cas d’usage : détection d’événements, analyse de scènes complexes
  • Contraintes de calcul, stockage et inférence
  • Atelier

    Interrogation et analyse de contenus vidéo

7 - RAG multimodal : exploiter la connaissance augmentée

  • Rappels des principes du Retrieval-Augmented Generation (RAG)
  • Extension aux données multimodales
  • Recherche hybride : texte, image, audio
  • Gestion du bruit, désalignement et coûts vectoriels
  • Atelier

    Mise en oeuvre d'un RAG multicanal complet

8 - IA agentique multimodale : orchestration des systèmes intelligents

  • Transition vers des systèmes agentiques multimodaux
  • Agents IA : perception, mémoire, outils et autonomie
  • Orchestration par graphes et gestion d’état
  • Contraintes industrielles : sécurité, contrôle et observabilité

Evaluation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Objectifs

Les objectifs de la formation

  • Comprendre les fondements techniques des modèles multimodaux (LLM, vision, audio, vidéo) et leurs mécanismes d’alignement
  • Identifier, sélectionner et déployer les modèles d’IA multimodale adaptés aux cas d’usage métier et aux contraintes techniques
  • Concevoir des pipelines multimodaux performants, robustes et scalables
  • Mettre en oeuvre une architecture RAG multimodale intégrant différentes sources de données (texte, image, audio, vidéo)
  • Développer et orchestrer des agents IA multimodaux intelligents dans des environnements complexes
  • Analyser les limites, risques et impacts (coût, performance, énergie) des solutions d’IA multimodale
Évaluation

Évaluation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Points forts

Les points forts de la formation

  • Une approche complète de l’IA multimodale
  • Des ateliers pratiques orientés cas réels
  • Une expertise sur les enjeux industriels et stratégiques

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Sessions

Mis à jour le 22/04/2026
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
  • 2 490,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
Formation - IA multimodale – Conception et déploiement de solutions combinant texte, image et données