KubeCon 2025 : Kubernetes devient le pilier de l'IA en entreprise

Introduction

Le KubeCon + CloudNativeCon North America 2025, qui s'est tenu fin octobre à Salt Lake City, a marqué un tournant décisif dans l'évolution de l'écosystème Kubernetes. Loin d'être une simple mise à jour technique, cet événement majeur rassemblant plus de 12 000 développeurs, architectes cloud et décideurs IT a révélé une transformation fondamentale : Kubernetes n'est plus seulement un orchestrateur de conteneurs, mais devient la plateforme centrale pour le déploiement et la gestion des workloads d'intelligence artificielle en entreprise.

Cette convergence entre Kubernetes et l'IA répond à un besoin urgent du marché. Alors que 61 % des organisations considèrent la conteneurisation comme centrale dans leur stratégie de modernisation applicative, seuls 27 % déclarent que leurs plateformes Kubernetes fonctionnent avec une gouvernance, une sécurité et une observabilité complètes en production. Les annonces du KubeCon 2025 s'attaquent directement à cet écart entre adoption théorique et maturité opérationnelle, avec un focus particulier sur l'observabilité, le DevSecOps et la sécurité des runtimes de conteneurs.

Kubernetes comme fondation du Cloud-Native AI

L'émergence du Cloud-Native AI

Le concept de "Cloud-Native AI" désigne l'approche consistant à construire, déployer et gérer des workloads d'intelligence artificielle et de machine learning en utilisant les principes et technologies cloud-native. Kubernetes émerge comme le composant central de cette architecture, servant de substrat d'orchestration pour des charges de travail IA extrêmement diverses : entraînement de modèles massifs nécessitant des GPU multiples, serving d'inférence à haute disponibilité, pipelines MLOps automatisés, et gestion du cycle de vie des modèles.

Le KubeCon 2025 a mis en lumière comment la Cloud Native Computing Foundation (CNCF), l'organisation derrière Kubernetes, positionne stratégiquement l'orchestrateur comme ressource clé pour implémenter l'IA en entreprise. Cette approche contraste avec les solutions propriétaires des cloud providers (SageMaker d'AWS, AzureML de Microsoft, VertexAI de Google) en offrant une abstraction portable fonctionnant identiquement sur n'importe quelle infrastructure : cloud public, on-premise, ou edge computing.

Les avantages de cette approche cloud-native pour l'IA sont multiples. La scalabilité automatique permet d'adapter dynamiquement les ressources aux besoins d'entraînement ou d'inférence. L'isolation par namespace garantit que plusieurs équipes de data science peuvent coexister sur la même infrastructure sans interférence. La déclaration de ressources via YAML permet de versionner et reproduire exactement les environnements d'exécution. Enfin, l'écosystème d'opérateurs Kubernetes (Kubeflow, MLflow, Seldon) automatise les tâches opérationnelles complexes du machine learning.

Les cas d'usage concrets présentés au KubeCon

Plusieurs entreprises ont présenté leurs architectures IA basées sur Kubernetes au KubeCon 2025. Une institution financière européenne a partagé comment elle utilise Kubernetes pour orchestrer l'entraînement nocturne de modèles de détection de fraude sur des clusters GPU éphémères, réduisant les coûts cloud de 60 % comparativement à une infrastructure persistante. Un retailer américain a démontré une plateforme de recommandation temps réel servant des millions de requêtes par jour via des pods Kubernetes auto-scalés selon la charge.

Les défis techniques sont néanmoins considérables. Les workloads IA diffèrent fondamentalement des applications stateless traditionnelles : ils sont stateful (nécessitent un accès aux données et modèles), gourmands en ressources (GPU coûteux), et longs (l'entraînement peut durer des jours). Kubernetes doit s'adapter à ces contraintes via des composants spécialisés : Volcano pour le scheduling de batch jobs, Knative pour le serving serverless, Kubeflow pour les pipelines ML complets.

Red Hat OpenShift 4.20 : l'IA intégrée à la plateforme

Lightspeed, l'assistant IA pour les opérateurs Kubernetes

L'une des annonces marquantes du KubeCon 2025 concerne Red Hat OpenShift 4.20, qui intègre désormais Lightspeed directement dans la console web. Lightspeed est un assistant conversationnel basé sur l'IA générative, conçu spécifiquement pour aider les développeurs et opérateurs à troubleshooter et investiguer les ressources de leur cluster Kubernetes.

Concrètement, un opérateur confronté à un pod crashant peut interroger Lightspeed en langage naturel : "Pourquoi mon déploiement frontend-app ne démarre pas ?". L'assistant analyse automatiquement les logs, les événements Kubernetes, les configurations, et fournit un diagnostic contextualisé avec des recommandations d'actions correctives. Cette capacité transforme radicalement l'expérience opérationnelle, particulièrement pour les équipes en cours de montée en compétence sur Kubernetes.

L'intégration de Lightspeed illustre une tendance plus large : l'IA n'est plus seulement une workload à déployer sur Kubernetes, mais devient partie intégrante de la gestion de la plateforme elle-même. Cette boucle vertueuse où Kubernetes héberge l'IA qui à son tour optimise Kubernetes promet des gains de productivité considérables pour les équipes DevOps.

Les autres améliorations d'OpenShift 4.20

Au-delà de Lightspeed, OpenShift 4.20 apporte des améliorations significatives en matière de sécurité et de performance. Le support natif de Sigstore pour la signature et vérification d'images de conteneurs renforce la sécurité de la supply chain logicielle. Les optimisations du control plane réduisent de 30 % la latence de création de nouveaux pods, essentiel pour les scénarios d'auto-scaling agressifs nécessaires aux workloads IA.

La gestion multicluster est également simplifiée avec Advanced Cluster Management amélioré, permettant de déployer et monitorer des applications identiques sur des dizaines de clusters Kubernetes géographiquement distribués. Cette capacité est cruciale pour les organisations adoptant des stratégies multi-cloud ou hybrid-cloud, souhaitant éviter le vendor lock-in tout en bénéficiant des services managés des cloud providers.

Observabilité et DevSecOps : priorités opérationnelles

Le focus sur l'observabilité avancée

L'observabilité est devenue un thème central au KubeCon 2025. Les architectures microservices et cloud-native génèrent une complexité opérationnelle considérable : des dizaines de services communiquant via des APIs, des logs distribués sur des centaines de pods, des métriques multidimensionnelles difficiles à corréler. L'observabilité, allant au-delà du simple monitoring, vise à comprendre l'état interne d'un système complexe en observant ses outputs externes.

Les trois piliers de l'observabilité (métriques, logs, traces) convergent via des standards ouverts. OpenTelemetry s'impose comme la norme d'instrumentation, remplaçant progressivement les solutions propriétaires. Les applications modernes intègrent nativement le SDK OpenTelemetry, exportant automatiquement leurs métriques, logs structurés et traces distribuées vers des backends d'analyse comme Prometheus, Loki et Tempo.

Le KubeCon 2025 a présenté des avancées notables en continuous profiling, permettant d'analyser en production les performances CPU et mémoire au niveau fonction. Cette visibilité granulaire identifie les bottlenecks de performance invisibles aux outils traditionnels, optimisant le coût des ressources cloud. Des entreprises rapportent des réductions de 40 % de l'empreinte CPU après optimisation guidée par le continuous profiling.

DevSecOps et sécurité des runtimes de conteneurs

La sécurité des conteneurs et de leurs runtimes était un autre focus majeur du KubeCon 2025. Les vulnérabilités dans les images de conteneurs constituent un vecteur d'attaque majeur. Les solutions de scanning d'images (Trivy, Grype, Snyk) détectent les CVE connues, mais leur efficacité dépend d'un pipeline CI/CD rigoureux refusant les images vulnérables.

La sécurité runtime va plus loin en détectant les comportements anormaux pendant l'exécution. Falco, projet CNCF de référence, surveille les appels système des conteneurs et alerte sur les activités suspectes : exécution de shells inattendus, modifications de fichiers sensibles, connexions réseau anormales. Cette approche comportementale détecte même les attaques zero-day exploitant des vulnérabilités inconnues.

Les politiques réseau Kubernetes (NetworkPolicies) et les service mesh comme Istio ou Linkerd implémentent le principe du moindre privilège au niveau réseau. Par défaut, les pods ne peuvent communiquer qu'avec les services explicitement autorisés, limitant drastiquement le mouvement latéral des attaquants. Ces pratiques DevSecOps, intégrant la sécurité dès la conception, deviennent la norme en 2025.

Platform Engineering : du concept à la réalité

Qu'est-ce que le Platform Engineering ?

Le Platform Engineering est devenu une priorité stratégique en 2025, comme l'a souligné l'InfoQ Cloud and DevOps Trends Report 2025. Cette discipline consiste à construire des plateformes internes d'outils et de workflows automatisés, améliorant l'expérience développeur et l'efficacité des équipes. L'objectif est de démocratiser l'accès aux technologies cloud-native complexes via des abstractions adaptées au contexte de l'organisation.

Concrètement, une équipe Platform Engineering construit un portail self-service permettant aux développeurs de provisionner des environnements complets (base de données, cache, files de messages, monitoring) en quelques clics, sans nécessiter de tickets vers les équipes infra. Ces plateformes internes, souvent appelées Internal Developer Platforms (IDPs), encapsulent les bonnes pratiques de sécurité, observabilité et résilience, garantissant que tous les projets bénéficient automatiquement d'une base solide.

Les technologies clés du Platform Engineering incluent les opérateurs Kubernetes custom, Terraform pour l'infrastructure as code, Argo CD pour le déploiement continu, et des portails développeur comme Backstage de Spotify. L'investissement dans ces plateformes est substantiel mais rapidement rentabilisé : les études montrent une réduction de 50 à 70 % du time-to-market pour les nouvelles applications.

Les défis de l'adoption du Platform Engineering

Le KubeCon 2025 a néanmoins mis en lumière les défis persistants du Platform Engineering. Le rapport InfoQ note que malgré la priorité stratégique accordée par les directions, le succès est souvent limité par la fragmentation organisationnelle des outils. Différentes équipes utilisent des pipelines CI/CD différents, des méthodes de provisionnement d'infrastructure divergentes, et des standards de documentation hétérogènes.

Cette fragmentation crée des frictions considérables. Les plateformes internes tentant d'unifier ces pratiques se heurtent à des résistances culturelles : les équipes perçoivent la standardisation comme une perte d'autonomie et de flexibilité. Le succès du Platform Engineering nécessite donc autant un changement culturel qu'une évolution technique, avec un engagement fort du leadership pour imposer des standards communs.

Les organisations les plus matures adoptent une approche progressive : commencer par une équipe pilote adoptant la plateforme, démontrer la valeur via des métriques concrètes (vélocité, qualité, satisfaction développeur), puis étendre progressivement à l'organisation. Cette approche bottom-up, complétée par un sponsorship top-down, maximise les chances de succès.

Kubernetes en 2025 : maturité et stabilité

L'API Kubernetes stable : fondation du multi-cloud

L'une des raisons majeures du succès de Kubernetes est la stabilité remarquable de son API. Les ressources core (Pod, Deployment, Service, etc.) n'ont quasiment pas changé depuis plusieurs années, permettant aux outils et applications de s'appuyer sur une fondation solide. Cette stabilité contraste avec l'innovation rapide dans l'écosystème périphérique (opérateurs, service mesh, observabilité).

Cette dichotomie est intentionnelle. La CNCF maintient Kubernetes comme un noyau minimal stable, tandis que l'innovation se fait via des Custom Resource Definitions (CRDs) et des opérateurs. Cette approche permet à Kubernetes de rester simple à son core tout en supportant des cas d'usage arbitrairement complexes via des extensions. Le résultat est une plateforme à la fois stable pour la production et flexible pour l'innovation.

La stabilité de l'API Kubernetes supporte la réalité pratique des stratégies hybrid-cloud et multi-cloud. Une application packagée en charts Helm ou en manifests Kustomize peut être déployée identiquement sur EKS d'AWS, AKS d'Azure, GKE de Google, ou un cluster on-premise. Cette portabilité réduit drastiquement le vendor lock-in et donne aux organisations un pouvoir de négociation vis-à-vis des cloud providers.

Les défis de gouvernance en production

Malgré cette maturité technique, le rapport InfoQ révèle que seuls 27 % des clusters Kubernetes en production disposent d'une gouvernance, sécurité et observabilité complètes. Cet écart entre adoption et maturité opérationnelle représente un risque majeur. Un cluster Kubernetes mal configuré peut devenir un vecteur d'attaque (pods privilégiés, absence de NetworkPolicies), une source de coûts incontrôlés (absence de limites de ressources), ou une boîte noire opérationnelle (logging et monitoring inadéquats).

Les organisations matures implémentent des garde-fous via des policy engines comme OPA (Open Policy Admission) ou Kyverno. Ces outils appliquent automatiquement les politiques de sécurité et de gouvernance : interdiction des images provenant de registries non approuvés, obligation de définir des resource limits, injection automatique de sidecars de sécurité. Cette approche "policy as code" rend la compliance vérifiable et auditable.

Docker et Kubernetes : complémentarité en 2025

Docker reste pertinent dans l'écosystème Kubernetes

Malgré les prédictions récurrentes annonçant le déclin de Docker face à Kubernetes, la réalité de 2025 montre une complémentarité persistante. Docker reste l'outil de prédilection pour le développement local : sa simplicité d'usage, son intégration avec Docker Compose pour les architectures multi-conteneurs, et sa compatibilité avec les workflows de développement établis le rendent incontournable.

Kubernetes, quant à lui, excelle en production pour l'orchestration de conteneurs à l'échelle, l'auto-healing, le load balancing automatique et la gestion des secrets. La transition typique voit les développeurs créer et tester leurs conteneurs localement avec Docker, puis les déployer en production sur Kubernetes. Cette division du travail exploite les forces de chaque technologie.

Les alternatives à Docker comme Podman gagnent également en adoption, particulièrement dans les environnements nécessitant une exécution rootless pour des raisons de sécurité. Podman implémente l'API Docker, permettant une migration transparente pour la plupart des cas d'usage. Cette diversité d'outils de containerisation témoigne de la maturité de l'écosystème.

Choisir entre Docker et Kubernetes pour votre équipe DevOps

Le choix entre Docker et Kubernetes dépend fondamentalement de l'échelle et de la complexité de vos déploiements. Pour une startup avec quelques services simples, Docker Compose sur une ou deux VMs peut largement suffire et offre une complexité opérationnelle considérablement réduite. L'investissement dans Kubernetes se justifie quand l'échelle nécessite des capacités d'orchestration avancées.

Les signaux indiquant qu'il est temps de migrer vers Kubernetes incluent : difficulté à gérer manuellement des dizaines de conteneurs, besoin d'auto-scaling automatique selon la charge, nécessité de déploiements zero-downtime sophistiqués, équipes multiples nécessitant isolation et self-service. À l'inverse, maintenir un cluster Kubernetes pour quelques conteneurs représente un overhead injustifié.

Conclusion

Le KubeCon + CloudNativeCon NA 2025 a confirmé la position centrale de Kubernetes dans l'infrastructure moderne. La convergence avec l'intelligence artificielle ouvre un nouveau chapitre : Kubernetes n'est plus seulement pour les applications web stateless, mais devient la plateforme standard pour les workloads IA les plus exigeants. Red Hat OpenShift 4.20 avec Lightspeed illustre comment l'IA peut à son tour améliorer la gestion de Kubernetes lui-même.

Les priorités opérationnelles identifiées (observabilité, DevSecOps, Platform Engineering) reflètent la maturité croissante de l'industrie. L'adoption massive est acquise, l'enjeu est désormais l'excellence opérationnelle : clusters sécurisés, observables, efficients en coûts. Les organisations investissant dans ces fondations se positionnent pour capitaliser sur la stabilité de l'API Kubernetes et la richesse de son écosystème.

Docker et Kubernetes continuent de coexister de manière complémentaire, chacun excellent dans son domaine. L'avenir verra probablement une abstraction croissante de la complexité Kubernetes via le Platform Engineering, rendant les bénéfices de l'orchestration accessibles sans nécessiter une expertise approfondie de chaque équipe de développement. Cette démocratisation du cloud-native transformera profondément l'industrie du logiciel dans les années à venir.

KubeCon 2025 : Kubernetes devient le pilier de l'IA en entreprise

Sommaire

Sources

À propos de Jérôme Dupont

Sommaire

Coaching FinOps & optimisation cloud

KubeCon 2025 : Kubernetes devient le pilier de l'IA en entreprise

Sommaire

Sources

À propos de Jérôme Dupont

Sommaire

Coaching FinOps & optimisation cloud

Articles similaires

Articles similaires