Concevoir pour demain : une architecture IA qui grandit avec les modèles

Les LLM ne sont pas une destination — ils sont une infrastructure

En 2023, Llama 2 était l'état de l'art des modèles open-source. En 2024, Llama 3 l'a remplacé. En 2025, Llama 4 et Gemma 4 ont changé les paramètres une fois de plus. En 2026, de nouveaux modèles Mixture-of-Experts font tourner 122 milliards de paramètres avec seulement 10 milliards actifs par requête — sur un laptop haut de gamme.

Ce rythme ne va pas ralentir. Les organisations les plus avancées en 2026 ne cherchent plus à 'choisir le meilleur modèle' — elles construisent des systèmes conçus pour intégrer n'importe quel modèle. L'intelligence n'est plus dans le modèle seul. Elle est dans l'architecture qui l'entoure. (Source : EPSA, analyse IA 2026)

La bonne nouvelle pour une PME qui déploie son Private AI maintenant : Ollama est précisément conçu pour ce paradigme. Changer de modèle se fait avec une commande. La base documentaire RAG, les utilisateurs, les politiques d'accès — tout reste intact. Seul le moteur de raisonnement change.

Les 3 couches d'évolution à anticiper

Couche 1 — Les modèles : une mise à jour, pas une migration

Votre architecture actuelle : Ollama + modèle Llama 4 ou Gemma 4 + Open WebUI. Dans 12 mois, un modèle significativement plus performant sera disponible. La migration se fait ainsi : une commande pour télécharger le nouveau modèle, une ligne de configuration pour le définir par défaut. Rien d'autre ne change.

La clé : ne jamais hard-coder le nom d'un modèle spécifique dans vos intégrations ou automatisations. Utilisez toujours une variable de configuration pointant vers 'le modèle actif'. Quand vous changez de modèle, vous changez une seule valeur — pas 40 configurations différentes.

Couche 2 — Les interfaces : de l'assistant au copilote métier

Open WebUI est votre point d'entrée aujourd'hui. Mais l'interface conversationnelle généraliste n'est pas la forme finale de l'IA en entreprise. La prochaine étape est l'interface spécialisée par métier — une interface de devis pour le service commercial, une interface de rédaction de rapports pour les techniciens, une interface d'analyse de données pour la direction.

Ces interfaces spécialisées s'appellent des 'system prompts' personnalisés dans Open WebUI — des instructions permanentes qui donnent au modèle un rôle et un contexte spécifique. Un technicien de maintenance qui ouvre l'interface 'Assistant maintenance' obtient un modèle préconfiguré pour répondre sur les équipements de l'usine, avec accès à la documentation technique interne. Aucune compétence en prompt engineering requise de sa part.

Couche 3 — Les agents : de la réponse à l'action

C'est l'évolution la plus importante à planifier, même si elle est encore à 12-24 mois pour la plupart des PME. Un agent IA ne répond pas seulement à des questions — il exécute des actions. Il interroge une base de données, remplit un formulaire, envoie un courriel, met à jour un dossier client.

En 2026, 75 % des DSI prévoient d'investir dans l'IA agentique d'ici fin 2026, selon Gartner. Pour une PME, un agent IA équivaut à un technicien disponible 24h/24 qui gère 30 à 40 % des tâches répétitives de niveau 1 — tickets de support, suivi de commandes, relances clients, rapports automatiques.

Votre architecture Private AI actuelle (Ollama + API locale) est nativement compatible avec les frameworks d'agents open-source — n8n pour les workflows, LangChain pour les chaînes de raisonnement, CrewAI pour les systèmes multi-agents. La fondation que vous posez aujourd'hui supporte ces évolutions sans reconstruction.

Les décisions structurantes à prendre correctement dès le départ

Certaines décisions d'architecture sont faciles à modifier. D'autres créent des dettes techniques coûteuses à défaire. Voici les décisions qui comptent vraiment.

Choisir des formats de documents ouverts pour le RAG. PDF, Word, Markdown — pas des formats propriétaires fermés. Votre base documentaire doit pouvoir migrer vers n'importe quel système futur.

Documenter vos system prompts. Chaque interface spécialisée que vous créez doit être documentée : objectif, accès accordés, comportements attendus. Sans documentation, la connaissance reste dans la tête de l'administrateur qui part.

Ne pas coupler le modèle à l'application. Si votre automatisation n8n appelle directement 'llama4:8b', elle cassera quand vous changerez de modèle. Pointez vers 'model:active' — une variable que vous contrôlez.

Versionner votre configuration RAG. Gardez un historique de vos collections documentaires — quels documents ont été ajoutés, par qui, quand. C'est de la gouvernance documentaire de base, mais cruciale pour l'auditabilité.

Ce que les organisations avancées font en 2026 — et ce qui sera standard en 2028

En 2026, les organisations les plus avancées dans l'usage des LLM ne déploient plus un seul modèle généraliste pour tout. Elles assemblent des systèmes hybrides : un modèle léger et rapide pour les réponses courantes, un modèle plus puissant pour l'analyse complexe, des modèles spécialisés pour des domaines précis (code, documents juridiques, données financières).

Cette spécialisation verticale — BioLLM, FinLLM, LawLLM — est déjà en cours selon les analystes de Stema Partners (2026). En 2028, une PME juridique qui utilise un modèle entraîné sur le droit québécois sera aussi normale qu'une PME qui utilise un logiciel comptable sectoriel aujourd'hui.

Votre infrastructure Ollama est prête pour ça. Ollama peut faire tourner plusieurs modèles simultanément, sélectionnés dynamiquement selon l'usage. La décision d'aujourd'hui — déployer sur une architecture ouverte et modulaire — est précisément ce qui rend possible ces évolutions sans reconstruction complète.

La progression logique — votre feuille de route sur 3 ans

Maintenant — Mois 1 à 6 : Fondation. Chatbot généraliste + RAG sur documents internes. Tous les employés. Mesures de sécurité de base (article 5B).

Court terme — Mois 6 à 18 : Interfaces spécialisées par département. System prompts configurés. Formation ciblée par rôle. Métriques d'adoption mesurées.

Moyen terme — Mois 18 à 30 : Premiers agents simples via n8n. Automatisation des tâches répétitives identifiées à l'étape 1. Intégration CRM ou ERP.

Long terme — Mois 30+ : Modèles spécialisés par domaine. Agents complexes multi-étapes. Architecture multi-modèles selon les usages. Fine-tuning sur données propriétaires.

Système de pensée

C3 — Explorer ce système

Pascal Gagnon

Directeur de compte corporatif Desjardins Entreprise · Conseiller municipal, Roberval · Analyste économique régional, Lac-Saint-Jean