RecursiveMAS
L’architecture qui fait parler les IA en silence
← Retour à la rubrique Intelligence Artificielle📖 Sommaire — RecursiveMAS et la communication latente
↓ Cliquez sur un thème pour y accéder directement ↓
🧠 L’analogie du fax quantique
Cette analogie, aussi absurde qu’elle paraisse, est exactement ce que nous faisons aujourd’hui avec les systèmes d’IA multi-agents. Nous prenons des vecteurs continus de plusieurs milliers de dimensions – l’équivalent d’une « pensée » pure – et nous les écrasons dans un alphabet discret de 128 000 tokens (le vocabulaire d’un LLM). Puis nous forçons un autre agent à reconstruire cette pensée à partir de ce signal dégradé.
Cette métaphore du fax quantique n’est pas une exagération. Elle illustre la perte d’information, la latence et le gaspillage de calcul qui caractérisent les pipelines multi-agents actuels. Chaque fois qu’un agent génère un token, il exécute une multiplication matricielle massive (vecteur caché × vocabulaire de 128 000 tokens) juste pour produire un mot que le prochain agent va ré-encoder immédiatement en vecteur. C’est un gaspillage pur.
La bonne nouvelle : des chercheurs de l’UIUC, Stanford, NVIDIA et MIT ont proposé une solution élégante. Ils appellent cela RecursiveMAS [1]. Et au lieu de faxer des mots, ils font communiquer les IA directement dans leur espace latent – un « Vulcan mind meld » pour machines.
↺ Retour au sommaire⚡ Le problème du texte dans les systèmes multi-agents
Coût computationnel astronomique
À chaque étape, l’agent doit multiplier son vecteur de pensée (par exemple 4 096 dimensions) par la matrice du vocabulaire (128 000 tokens) pour calculer la distribution de probabilité du prochain mot. C’est une opération matricielle massive qui consomme de la mémoire et du temps, pour un résultat qui sera immédiatement ré-encodé par l’agent suivant [1].
Le coût en tokens est également prohibitif. Les agents génèrent des pages entières de texte intermédiaire que l’utilisateur final ne verra jamais. C’est de l’électricité brûlée pour rien.
Le problème des gradients – Théorème 1
Mais le pire n’est pas le coût. C’est que le texte bloque l’apprentissage. Lorsque vous essayez d’entraîner un système multi-agents à collaborer, vous devez faire passer le signal d’erreur (le gradient) à travers toute la chaîne. Mais le texte est discret – vous ne pouvez pas avoir un « demi-mot ». La projection sur le vocabulaire est une opération non-différentiable. Le gradient s’annule en traversant le texte [1].
📐 Théorème 1 – Pourquoi les gradients disparaissent
Voici l’argument central. Lorsqu’un agent est bien entraîné, il prédit le token suivant avec une confiance très élevée. La distribution de probabilité en sortie du softmax est extrêmement pointue – un seul token reçoit presque toute la masse. Mathématiquement, on dit que l’entropie de la distribution est inférieure à un petit ε.
Mais une distribution pointue se comporte comme une fonction en escalier. Et la dérivée d’une fonction en escalier est nulle (sauf au point de rupture, où elle est infinie). En pratique, le gradient de la perte par rapport à l’état caché tend vers zéro. Le papier prouve que la norme du gradient est ≤ O(ε). Comme ε est très petit, le gradient est beaucoup plus petit que 1 [1].
Conséquence : si l’agent 3 fait une erreur, le signal de correction destiné à l’agent 1 n’arrive jamais. L’agent 1 ne sait pas que son plan initial a causé une cascade d’échecs. Il n’apprend pas. Le système est condamné à stagner.
↺ Retour au sommaire🏗️ RecursiveMAS – l’architecture
L’idée est simple : au lieu de encoder → générer du texte → décoder, on transfère le vecteur directement d’un agent à l’autre. C’est un « Vulcan mind meld » pour IA. Le transfert est sans perte (on conserve la distribution de probabilité complète), instantané (pas de génération de tokens) et différentiable (le gradient peut traverser).
Les quatre styles de collaboration
Le framework supporte quatre patterns de collaboration [1] :
- Séquentiel : planificateur → critique → solveur (pipeline linéaire).
- Mixture : plusieurs experts (code, science, maths) en parallèle, synthèse par un agent central.
- Distillation : un gros modèle expert guide un petit modèle apprenant via l’espace latent.
- Délibération : un agent réfléchit, un autre exécute des outils (recherche web, code).
🔗 Inner Link et Outer Link – les modules clés
Inner Link – le monologue intérieur continu
Dans un LLM standard, après chaque couche de traitement, l’état caché est projeté sur le vocabulaire pour générer un token, puis ce token est réinjecté en entrée. L’Inner Link court-circuite ce processus. Il prend l’état caché final et le reprojecte directement dans l’espace d’embedding du modèle, sans passer par le vocabulaire. L’agent peut ainsi enchaîner des « pensées » latentes en continu, sans jamais générer un seul token intermédiaire [1].
Outer Link – le traducteur inter-modèles
Les agents peuvent avoir des architectures différentes (tailles de modèle, dimensions cachées). L’Outer Link est un projecteur linéaire entraînable qui adapte le vecteur latent d’un agent à l’espace latent de l’agent suivant. C’est un traducteur universel qui permet à un petit modèle (448 dimensions) de parler directement à un gros modèle (4 096 dimensions) [1].
h_out = h_in + f(h_in). Cela préserve la majeure partie de la pensée originale et stabilise l’apprentissage.
📊 Performances – les chiffres clés
Précision
- +8,3 % de précision moyenne par rapport aux meilleurs systèmes multi-agents textuels [1] [5].
- +18,1 % sur le benchmark AIME2025 (mathématiques complexes) [5].
- +13 % sur AIME2026 [5].
Vitesse et coût
- ×1,2 à ×2,4 d’accélération de l’inférence de bout en bout [1].
- −34,6 % à −75,6 % de réduction de l’utilisation des tokens [1] [5].
- L’accélération est superlinéaire : plus on ajoute de rounds de récursion, plus le gain est grand. À 3 rounds, on atteint ×2,4. Plus de rounds = plus de gain.
Coût d’entraînement
- Les modèles de base sont gelés (on ne touche pas aux milliards de paramètres).
- Seuls les 13,12 millions de paramètres des RecursiveLinks sont entraînés [1].
- La mémoire GPU passe de 41,40 Go (full fine-tuning) à 15,29 Go.
- Le coût d’entraînement estimé est de $4,27 (contre $9,67 pour le full fine-tuning) [1].
🔄 Les quatre styles de collaboration
1. Séquentiel (Sequential)
Le plus classique : un planificateur élabore une stratégie, un critique la vérifie, un solveur l’exécute. Chaque agent passe son état latent au suivant. Idéal pour les problèmes de raisonnement en plusieurs étapes.
2. Mixture (Mixture)
Plusieurs experts spécialisés (code, science, mathématiques) analysent le problème en parallèle dans l’espace latent. Leurs vecteurs sont ensuite fusionnés par un agent synthétiseur. Ce pattern donne un gain de +6,2 % par rapport au meilleur expert seul [1].
3. Distillation (Distillation)
Un gros modèle expert (9B) guide silencieusement un petit modèle apprenant (1,5B) via l’Outer Link. Le petit modèle bénéficie d’un +8,0 % de précision, tout en restant ×1,5 plus rapide que le gros modèle seul [1].
4. Délibération (Deliberation)
Un agent réfléchit et commande à un agent exécutant d’utiliser des outils (recherche web, code). La réflexion et l’exécution s’enchaînent en silence, et seul le résultat final est affiché en texte [1].
↺ Retour au sommaire🚀 Applications pratiques – comment l’utiliser
Prérequis techniques
- Modèles open-weight : Qwen 2.5, Llama 3.2, Gemma 3 – disponibles sur Hugging Face.
- Accès aux états cachés : vous devez pouvoir intercepter les représentations internes avant la tête de langage. Cela exclut les API fermées (GPT-4, Claude).
- Matériel : un seul nœud GPU (ou un cloud privé) suffit pour des modèles jusqu’à 9B paramètres.
- Environnement : Python 3.10, PyTorch, et les dépendances du dépôt officiel [2].
Installation rapide
Téléchargement des checkpoints
Les chercheurs ont publié des checkpoints pré-entraînés pour chaque style de collaboration [2] :
- Séquentiel léger : Planner (Qwen3-1.7B), Critic (Llama3.2-1B), Solver (Qwen2.5-Math-1.5B).
- Mixture : experts en code, science, mathématiques.
- Distillation : Expert (Qwen3.5-9B), Learner (Qwen2.5-1.5B).
- Délibération : Reflector + Tool-Caller (avec intégration Tavily).
Tous les checkpoints sont disponibles sur Hugging Face [2].
Exemple d’inférence (style séquentiel)
Alternatives open-source
RecursiveMAS n’est pas seul. D’autres frameworks explorent la communication latente :
- Interlat (ACL 2026) : communication entièrement dans l’espace latent, avec compression jusqu’à ×24. [GitHub] [7]
- Vision Wormhole : utilise l’encodeur visuel des VLM comme port universel pour la communication latente. [GitHub] [8]
- Latent Collaboration (ICML 2026) : collaboration multi-agents dans l’espace latent sans paramètres partagés. [arXiv] [9]
⚠️ Limites et considérations
1. L’opacité du raisonnement
Dans un système textuel, vous pouvez lire le raisonnement intermédiaire. Avec RecursiveMAS, les pensées intermédiaires sont des vecteurs de nombres – un black box total. Impossible de déboguer visuellement ni de justifier une décision. Dans les secteurs réglementés (finance, santé, droit), cette opacité peut être rédhibitoire [1].
2. L’entraînement est exigeant
Bien que les paramètres entraînés soient peu nombreux (13 millions), l’entraînement se fait par rétropropagation à travers le temps sur plusieurs rounds de récursion. Cela nécessite de stocker les activations de tous les rounds, ce qui peut saturer la mémoire GPU au-delà de 3-4 rounds [1].
3. Dépendance aux modèles open-weight
Vous ne pouvez pas utiliser RecursiveMAS avec des API fermées (GPT-4, Claude, Gemini). Vous devez héberger vos propres modèles. Ce n’est pas un problème pour les équipes qui ont l’infrastructure, mais cela exclut les utilisateurs qui dépendent des API cloud [1].
4. La courbe d’apprentissage
Comprendre l’espace latent, les projections, les résidus et la rétropropagation à travers le temps demande un niveau technique avancé. Ce n’est pas un outil « plug-and-play » pour les débutants.
📚 Références et ressources
Articles scientifiques
- [1] Yang X, Zou J, et al. (2026) – Recursive Multi-Agent Systems. arXiv:2604.25917. UIUC, Stanford, NVIDIA, MIT. [arXiv] [Site officiel] [GitHub]
- [2] Du Z, Wang R, et al. (2026) – Interlat: Enabling Agents to Communicate Entirely in Latent Space. ACL 2026. [GitHub]
- [3] Liu X, Zhang R, et al. (2025) – The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems. arXiv:2602.15382. [arXiv] [GitHub]
- [4] Zou J, Yang X, et al. (2025) – Latent Collaboration in Multi-Agent Systems. ICML 2026. [arXiv]
Articles de presse et vulgarisation
- [5] VentureBeat (2026) – How RecursiveMAS speeds up multi-agent inference by 2.4x and reduces token usage by 75%. [Lien]
- [6] TMT Post (2026) – AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍. [Lien]
Dépôts et modèles
- RecursiveMAS sur Hugging Face : Collections et checkpoints
- RecursiveMAS GitHub : Code et documentation
- Interlat GitHub : Code et modèles
📌 Note : Tous les liens ont été vérifiés et sont actifs à la date de publication de cette page.
📘 À propos de cette page
Cette page est une synthèse approfondie du framework RecursiveMAS et des architectures de communication latente pour systèmes multi-agents. Elle est destinée à un public technique et curieux, et s’appuie sur des sources académiques et industrielles vérifiées.
