New
 
Fantom Tag

Formation - Déploiement local de LLMs – Fine-tuning, inférence haute performance et sécurité

Mettre en oeuvre une infrastructure d’inférence performante et maîtriser l’adaptation des modèles tout en garantissant la protection des données

  • Présentiel ou classe à distance
  • Perfectionnement
PRESENTIEL OU CLASSE A DISTANCE
Durée
2 jours (14 heures)

Prix
2 050,00 €  HT

Référence
IA114
Dans vos locaux ou à distance
Durée
2 jours (14 heures)

Forfait intra - En savoir plus
6 090,00€ HT
Prix pour un groupe de 12 personnes max

Référence
IA114
Formation à la demande
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !
Le déploiement souverain de modèles de langage (LLMs) constitue aujourd’hui un enjeu stratégique majeur pour les entreprises souhaitant exploiter l’intelligence artificielle tout en maîtrisant leurs données. Les technologies comme vLLM, LoRA et l’inférence locale permettent de construire des solutions performantes, sécurisées et indépendantes des plateformes cloud externes. Cette approche favorise la confidentialité, la souveraineté des données et la réduction des coûts d’exploitation, tout en garantissant des performances élevées pour les applications IA.

Se former à ces technologies permet d’acquérir des compétences clés pour concevoir, optimiser et sécuriser des architectures IA modernes. Cette formation offre une approche concrète et opérationnelle pour industrialiser des modèles IA en local, maîtriser le fine-tuning et mettre en oeuvre des stratégies de sécurité end-to-end. Elle répond aux besoins des organisations souhaitant développer des solutions IA robustes, conformes et adaptées aux enjeux actuels de souveraineté numérique.
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Développeurs backend, Tech Leads, Ingénieurs IA

Prérequis

  • Maîtriser le développement Python backend, incluant les bonnes pratiques de versioning avec Git
  • Disposer de bases solides en intelligence artificielle et modèles de langage (LLM), ainsi que des architectures fondamentales
  • Être à l’aise avec les environnements Linux, la ligne de commande et les outils de conteneurisation (Docker) pour le déploiement d’applications
  • Disposez-vous des connaissances nécessaires pour suivre cette formation ? Testez-vous !
Programme

Le programme

1 - Fondations de l’inférence locale et de la quantization des LLMs

  • Écosystème des modèles open source (LLM Open Weights) : panorama des modèles Mistral, Llama, Qwen, formats de poids et licences pour un usage en entreprise
  • Contraintes matérielles (VRAM) : calcul de l’empreinte mémoire des modèles de langage (nombre de paramètres, précision et latence)
  • Techniques de quantization : optimisation mémoire avec les formats GGUF, AWQ et GPTQ, arbitrage entre performance, vitesse et taille
  • Moteurs d’inférence locale : utilisation de frameworks comme Ollama et Llama.cpp pour le prototypage rapide
  • Atelier

    Déployer un modèle LLM en local (ex : Mistral 7B) avec différents niveaux de quantization

    Exposer le modèle via une API compatible OpenAI

    Comparer les performances (latence, qualité des réponses) via des scripts de test

    Versionner le code pour assurer la reproductibilité des benchmarks

2 - Spécialisation des modèles avec le fine-tuning (PEFT / LoRA)

  • Limites du RAG vs Fine-tuning : choisir entre injection de contexte (RAG) et adaptation des poids du modèle
  • Fine-tuning efficace (PEFT) : utilisation de LoRA et QLoRA pour entraîner des modèles sur GPU
  • Préparation des datasets : structuration des données en Instruction Tuning (User/Assistant), nettoyage et tokenisation
  • Optimisation des hyperparamètres : learning rate, batch size, epochs et gestion de l’overfitting
  • Atelier

    Préparer un dataset métier (ex : Text-to-SQL ou génération de code spécifique)

    Configurer et lancer un entraînement avec QLoRA (Unsloth, Hugging Face TRL)

    Fusionner les poids du modèle (merge)

    Tester et valider les nouvelles capacités du modèle fine-tuné

3 - Inférence haute performance et mise en production des LLMs

  • Moteurs d’inférence production : transition vers vLLM ou TGI (Text Generation Inference)
  • Optimisation des performances : continuous batching et gestion avancée du PagedAttention (KV Cache)
  • Scalabilité : parallélisation multi-GPU (Tensor Parallelism, Pipeline Parallelism)
  • Interopérabilité : création d’API compatibles OpenAI pour intégration dans des architectures LangChain, LangGraph, MCP
  • Atelier

    Déployer un modèle fine-tuné sur un serveur vLLM optimisé

    Configurer le continuous batching pour gérer la charge

    Intégrer le serveur dans une architecture LangChain (API locale)

    Versionner le code d’intégration pour garantir la reproductibilité

4 - Sécurisation end-to-end et gouvernance des LLMs

  • Sécurisation des entrées/sorties : protection contre les attaques Prompt Injection et Jailbreak
  • Mise en place de LLM Firewalls : intégration de solutions comme Llama Guard, NeMo Guardrails, LiteLLM
  • Protection des données : anonymisation des données sensibles (PII) avant traitement
  • Gestion des accès : mise en oeuvre de politiques RBAC pour contrôler l’usage des modèles
  • Architecture sécurisée : isolation réseau, Zero Trust et environnements souverains (air-gapped)
  • Atelier

    Mettre en place un proxy de sécurité (LiteLLM + NeMo Guardrails)

    Configurer des règles de détection d’attaques par prompt injection

    Anonymiser dynamiquement les données sensibles (IBAN, données personnelles)

    Tester la robustesse du système face aux attaques

Evaluation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Objectifs

Les objectifs de la formation

  • Comprendre les enjeux du déploiement souverain de modèles de langage (LLMs) et de la gestion sécurisée des données
  • Maîtriser les techniques d’inférence locale et de quantization pour optimiser les performances et réduire les coûts
  • Mettre en oeuvre des méthodes de fine-tuning avec LoRA / QLoRA pour adapter un modèle IA à des besoins métiers spécifiques
  • Déployer une architecture d’inférence haute performance avec vLLM ou TGI adaptée à un usage en production
  • Concevoir et sécuriser des solutions d’IA avec une approche end-to-end (sécurité, gouvernance, contrôle des accès)
Évaluation

Évaluation

  • Pendant la formation, le formateur évalue la progression pédagogique des participants via des QCM, des mises en situation et des travaux pratiques. Les participants passent un test de positionnement avant et après la formation pour valider leurs compétences acquises.
Points forts

Les points forts de la formation

  • Une pédagogie active alternant apports théoriques et travaux pratiques sur le déploiement de LLMs en local (vLLM, LoRA, quantization)
  • Des cas concrets issus de l’entreprise pour maîtriser l’IA souveraine, l’inférence locale et la sécurisation des modèles
  • L’intégration des bonnes pratiques de sécurité IA : protection contre les attaques, gestion des accès et gouvernance des données
  • L’expertise d’un formateur spécialiste en IA et architectures LLM, avec retour d’expérience terrain

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Sessions

Mis à jour le 22/04/2026
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
  • 2 050,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Defense 9
    92800 Puteaux
Formation - Déploiement local de LLMs – Fine-tuning, inférence haute performance et sécurité