PRESENTIEL OU CLASSE A DISTANCE

Durée

2 jours (14 heures)

Prix

2 050,00 € HT

Référence

IA114

Consulter les dates et villes

Choisir une session

Dans vos locaux ou à distance

Durée

2 jours (14 heures)

Forfait intra - En savoir plus

6 090,00€ HT

Prix pour un groupe de 12 personnes max

Référence

IA114

Démarrer votre projet

Formation à la demande

Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !

Nous contacter

Télécharger le PDF

Ajouter à ma sélection

Nous contacter

Le déploiement souverain de modèles de langage (LLMs) constitue aujourd’hui un enjeu stratégique majeur pour les entreprises souhaitant exploiter l’intelligence artificielle tout en maîtrisant leurs données. Les technologies comme vLLM, LoRA et l’inférence locale permettent de construire des solutions performantes, sécurisées et indépendantes des plateformes cloud externes. Cette approche favorise la confidentialité, la souveraineté des données et la réduction des coûts d’exploitation, tout en garantissant des performances élevées pour les applications IA.

Se former à ces technologies permet d’acquérir des compétences clés pour concevoir, optimiser et sécuriser des architectures IA modernes. Cette formation offre une approche concrète et opérationnelle pour industrialiser des modèles IA en local, maîtriser le fine-tuning et mettre en oeuvre des stratégies de sécurité end-to-end. Elle répond aux besoins des organisations souhaitant développer des solutions IA robustes, conformes et adaptées aux enjeux actuels de souveraineté numérique.

Pour qui ?

A qui s'adresse cette formation ?

Pour qui

Développeurs backend, Tech Leads, Ingénieurs IA

Prérequis

Maîtriser le développement Python backend, incluant les bonnes pratiques de versioning avec Git
Disposer de bases solides en intelligence artificielle et modèles de langage (LLM), ainsi que des architectures fondamentales
Être à l’aise avec les environnements Linux, la ligne de commande et les outils de conteneurisation (Docker) pour le déploiement d’applications
Disposez-vous des connaissances nécessaires pour suivre cette formation ? Testez-vous !

Programme

Le programme

1 - Fondations de l’inférence locale et de la quantization des LLMs

Écosystème des modèles open source (LLM Open Weights) : panorama des modèles Mistral, Llama, Qwen, formats de poids et licences pour un usage en entreprise
Contraintes matérielles (VRAM) : calcul de l’empreinte mémoire des modèles de langage (nombre de paramètres, précision et latence)
Techniques de quantization : optimisation mémoire avec les formats GGUF, AWQ et GPTQ, arbitrage entre performance, vitesse et taille
Moteurs d’inférence locale : utilisation de frameworks comme Ollama et Llama.cpp pour le prototypage rapide

Atelier

Déployer un modèle LLM en local (ex : Mistral 7B) avec différents niveaux de quantization

Exposer le modèle via une API compatible OpenAI

Comparer les performances (latence, qualité des réponses) via des scripts de test

Versionner le code pour assurer la reproductibilité des benchmarks

2 - Spécialisation des modèles avec le fine-tuning (PEFT / LoRA)

Limites du RAG vs Fine-tuning : choisir entre injection de contexte (RAG) et adaptation des poids du modèle
Fine-tuning efficace (PEFT) : utilisation de LoRA et QLoRA pour entraîner des modèles sur GPU
Préparation des datasets : structuration des données en Instruction Tuning (User/Assistant), nettoyage et tokenisation
Optimisation des hyperparamètres : learning rate, batch size, epochs et gestion de l’overfitting

Atelier

Préparer un dataset métier (ex : Text-to-SQL ou génération de code spécifique)

Configurer et lancer un entraînement avec QLoRA (Unsloth, Hugging Face TRL)

Fusionner les poids du modèle (merge)

Tester et valider les nouvelles capacités du modèle fine-tuné

3 - Inférence haute performance et mise en production des LLMs

Moteurs d’inférence production : transition vers vLLM ou TGI (Text Generation Inference)
Optimisation des performances : continuous batching et gestion avancée du PagedAttention (KV Cache)
Scalabilité : parallélisation multi-GPU (Tensor Parallelism, Pipeline Parallelism)
Interopérabilité : création d’API compatibles OpenAI pour intégration dans des architectures LangChain, LangGraph, MCP

Atelier

Déployer un modèle fine-tuné sur un serveur vLLM optimisé

Configurer le continuous batching pour gérer la charge

Intégrer le serveur dans une architecture LangChain (API locale)

Versionner le code d’intégration pour garantir la reproductibilité

4 - Sécurisation end-to-end et gouvernance des LLMs

Sécurisation des entrées/sorties : protection contre les attaques Prompt Injection et Jailbreak
Mise en place de LLM Firewalls : intégration de solutions comme Llama Guard, NeMo Guardrails, LiteLLM
Protection des données : anonymisation des données sensibles (PII) avant traitement
Gestion des accès : mise en oeuvre de politiques RBAC pour contrôler l’usage des modèles
Architecture sécurisée : isolation réseau, Zero Trust et environnements souverains (air-gapped)

Atelier

Mettre en place un proxy de sécurité (LiteLLM + NeMo Guardrails)

Configurer des règles de détection d’attaques par prompt injection

Anonymiser dynamiquement les données sensibles (IBAN, données personnelles)

Tester la robustesse du système face aux attaques

Evaluation

Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

Objectifs

Les objectifs de la formation

Comprendre les enjeux du déploiement souverain de modèles de langage (LLMs) et de la gestion sécurisée des données
Maîtriser les techniques d’inférence locale et de quantization pour optimiser les performances et réduire les coûts
Mettre en oeuvre des méthodes de fine-tuning avec LoRA / QLoRA pour adapter un modèle IA à des besoins métiers spécifiques
Déployer une architecture d’inférence haute performance avec vLLM ou TGI adaptée à un usage en production
Concevoir et sécuriser des solutions d’IA avec une approche end-to-end (sécurité, gouvernance, contrôle des accès)

Évaluation

Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.

Points forts

Les points forts de la formation

Une pédagogie active alternant apports théoriques et travaux pratiques sur le déploiement de LLMs en local (vLLM, LoRA, quantization)
Des cas concrets issus de l’entreprise pour maîtriser l’IA souveraine, l’inférence locale et la sécurisation des modèles
L’intégration des bonnes pratiques de sécurité IA : protection contre les attaques, gestion des accès et gouvernance des données
L’expertise d’un formateur spécialiste en IA et architectures LLM, avec retour d’expérience terrain

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Sessions

Mis à jour le 06/06/2026

2 050,00 € HT
Places disponibles
S'inscrire
2 050,00 € HT
Places disponibles
S'inscrire
2 050,00 € HT
Places disponibles
S'inscrire
Paris
Tour Atlantique / 1 place de la Pyramide La Defense 9
92800 Puteaux
2 050,00 € HT
Places disponibles
S'inscrire
2 050,00 € HT
Places disponibles
S'inscrire
Paris
Tour Atlantique / 1 place de la Pyramide La Defense 9
92800 Puteaux

Formation - Déploiement local de LLMs – Fine-tuning, inférence haute performance et sécurité

Forfait Intra

Le forfait Intra comprend :

La formation dans vos locaux pour un groupe de 12 personnes maximum
L'ensemble des activités pédagogiques prévues dans la fiche de présentation de la formation
La documentation au format numérique
L'évaluation et l'émargement dématérialisés

Formation - Déploiement local de LLMs – Fine-tuning, inférence haute performance et sécurité

Mettre en oeuvre une infrastructure d’inférence performante et maîtriser l’adaptation des modèles tout en garantissant la protection des données

A qui s'adresse cette formation ?

Pour qui

Prérequis

Le programme

1 - Fondations de l’inférence locale et de la quantization des LLMs

2 - Spécialisation des modèles avec le fine-tuning (PEFT / LoRA)

3 - Inférence haute performance et mise en production des LLMs

4 - Sécurisation end-to-end et gouvernance des LLMs

Evaluation

Les objectifs de la formation

Évaluation

Les points forts de la formation

Qualité des formations

Sessions

Forfait Intra

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis