PRESENTIEL OU CLASSE A DISTANCE

Durée

3 jours (21 heures)

Prix

2 490,00 € HT

Référence

IA113

Consulter les dates et villes

Choisir une session

Dans vos locaux ou à distance

Durée

3 jours (21 heures)

Forfait intra - En savoir plus

7 590,00€ HT

Prix pour un groupe de 12 personnes max

Référence

IA113

Démarrer votre projet

Formation à la demande

Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !

Nous contacter

Télécharger le PDF

Ajouter à ma sélection

Nous contacter

À l’ère des systèmes intelligents, la capacité à exploiter simultanément plusieurs types de données (texte, image, audio, vidéo) devient un levier stratégique pour les organisations. La formation dédiée à la conception de systèmes d’IA multimodale permet de maîtriser les technologies de pointe telles que les LLM (Large Language Models), Vision-Language Models, Audio et Video AI, ainsi que leur intégration dans des architectures complexes et évolutives.
Elle apporte une expertise approfondie pour concevoir des pipelines multimodaux robustes, déployer des architectures de RAG multimodal et orchestrer des agents intelligents, capables d’interagir avec des données hétérogènes. Les participants développent également une vision critique des limites techniques des enjeux énergétiques et des problématiques de gouvernance, essentielles dans des environnements industriels en France, en Europe et à l’international. Cette formation s’adresse aux profils techniques souhaitant se positionner sur les sujets avancés d’IA générative, IA multimodale et systèmes intelligents de nouvelle génération, aujourd’hui au coeur des innovations en data, IA et cloud.

Pour qui ?

A qui s'adresse cette formation ?

Pour qui

Data Scientists, Développeurs, Tech Leads, Architectes IA

Prérequis

Maîtrise de Python
Connaissances de base en Machine Learning et Deep Learning
Compréhension générale des architectures de modèles de langage
Disposez-vous des connaissances nécessaires pour suivre cette formation ? Testez-vous !

Programme

Le programme

1 - Introduction : vers des systèmes intelligents multimodaux

Définition et enjeux de l’IA multimodale en entreprise
Rôle des différentes modalités (texte, image, audio, vidéo) dans les systèmes intelligents
Unification des données : tokens, embeddings et représentation vectorielle
Contraintes clés : latence, coût d’inférence, qualité et observabilité

Atelier

Prise en main d’un environnement multimodal (inférence, notebooks, traçabilité)

2 - LLMs : le texte comme moteur cognitif

Rôle central des modèles de langage (LLM) dans les architectures multimodales
Architectures LLM et principes d’instruction (prompt engineering avancé)
Gestion du contexte, raisonnement et génération contrôlée
Limites : hallucinations, coût d’inférence, non-déterminisme

Atelier

Déploiement et exploitation d’un LLM sur infrastructure GPU

3 - Vision-Language Models : exploiter l’image et la donnée visuelle

Encodage des images et représentation visuelle
Modèles vision-langage et mécanismes d’attention croisée
Cas d’usage : OCR avancé, analyse documentaire, vision industrielle
Limites : raisonnement spatial, robustesse et fiabilité

Atelier

Création d’un pipeline multimodal image–texte

Conception d’un agent multimodal orchestré par graphe

4 - Perspectives d'évolutions de l’IA multimodale

Modèles natifs multimodaux vs assemblages unimodaux
Enjeux de souveraineté, maîtrise technologique et impact environnemental
Problématiques d’ingestion et d’exposition des données multimodales
Tendances : apprentissage auto-supervisé, JEPA, représentations latentes

5 - Audio-Language Models : exploiter la donnée audio

Représentation et tokenisation de l’audio
Reconnaissance vocale, synthèse et compréhension audio
Intégration dans des systèmes multimodaux
Contraintes temps réel et qualité du signal

Atelier

Analyse et exploitation de données audio avec un modèle IA

6 - Video-Language Models : comprendre les flux vidéo

Spécificités des données vidéo et traitement spatio-temporel
Mécanismes d’attention temporelle
Cas d’usage : détection d’événements, analyse de scènes complexes
Contraintes de calcul, stockage et inférence

Atelier

Interrogation et analyse de contenus vidéo

7 - RAG multimodal : exploiter la connaissance augmentée

Rappels des principes du Retrieval-Augmented Generation (RAG)
Extension aux données multimodales
Recherche hybride : texte, image, audio
Gestion du bruit, désalignement et coûts vectoriels

Atelier

Mise en oeuvre d'un RAG multicanal complet

8 - IA agentique multimodale : orchestration des systèmes intelligents

Transition vers des systèmes agentiques multimodaux
Agents IA : perception, mémoire, outils et autonomie
Orchestration par graphes et gestion d’état
Contraintes industrielles : sécurité, contrôle et observabilité

Evaluation

Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

Objectifs

Les objectifs de la formation

Comprendre les fondements techniques des modèles multimodaux (LLM, vision, audio, vidéo) et leurs mécanismes d’alignement
Identifier, sélectionner et déployer les modèles d’IA multimodale adaptés aux cas d’usage métier et aux contraintes techniques
Concevoir des pipelines multimodaux performants, robustes et scalables
Mettre en oeuvre une architecture RAG multimodale intégrant différentes sources de données (texte, image, audio, vidéo)
Développer et orchestrer des agents IA multimodaux intelligents dans des environnements complexes
Analyser les limites, risques et impacts (coût, performance, énergie) des solutions d’IA multimodale

Évaluation

Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

Points forts

Les points forts de la formation

Une approche complète de l’IA multimodale
Des ateliers pratiques orientés cas réels
Une expertise sur les enjeux industriels et stratégiques

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Sessions

Mis à jour le 21/07/2026

2 490,00 € HT
Places disponibles
S'inscrire
2 490,00 € HT
Places disponibles
S'inscrire
2 490,00 € HT
Places disponibles
S'inscrire
Paris
Tour Atlantique / 1 place de la Pyramide La Defense 9
92800 Puteaux

Formation - IA multimodale – Conception et déploiement de solutions combinant texte, image et données

Forfait Intra

Le forfait Intra comprend :

La formation dans vos locaux pour un groupe de 12 personnes maximum
L'ensemble des activités pédagogiques prévues dans la fiche de présentation de la formation
La documentation au format numérique
L'évaluation et l'émargement dématérialisés

Formation - IA multimodale – Conception et déploiement de solutions combinant texte, image et données

Concevoir des architectures multimodales, orchestrer des modèles et exploiter des cas d’usage concrets en intelligence artificielle

A qui s'adresse cette formation ?

Pour qui

Prérequis

Le programme

1 - Introduction : vers des systèmes intelligents multimodaux

2 - LLMs : le texte comme moteur cognitif

3 - Vision-Language Models : exploiter l’image et la donnée visuelle

4 - Perspectives d'évolutions de l’IA multimodale

5 - Audio-Language Models : exploiter la donnée audio

6 - Video-Language Models : comprendre les flux vidéo

7 - RAG multimodal : exploiter la connaissance augmentée

8 - IA agentique multimodale : orchestration des systèmes intelligents

Evaluation

Les objectifs de la formation

Évaluation

Les points forts de la formation

Qualité des formations

Sessions

Forfait Intra

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis