Ce que Stallone ne dit pas sur l’IA (mais qu’il aurait dit mieux que moi)

05/28/2025

Plus de plus pour aller plus loin que loin

A lire avec la voix de Stalone : « plus fort, plus puissant, plus robuste, plus précis, le meilleur de tous les temps ».

Chanson faite avec Suno

Non, je ne vous parle pas ni d’un super-héros ni de mon père. C’est juste qu’à chaque fois que je lis une news sur l’IA, dans ma tête, j’ai cet effet Stalone qui me saisit, Okay Billy !

En même temps, nous vivons une ère fantastique, bouleversante et tous les jours, j’ai le sentiment que nous ne prenons pas la pleine mesure de ce qui se passe et surtout de ce qui va se passer.

Depuis Novembre 2022 et l’avènement de ChatGPT, nous enchainons les news pour parler de la montée en puissance des modèles génératifs capables de produire du texte, des images, du son, des vidéos, des analyses de documents et j’en passe. C’est un fucking game changer : automatisation, optimisation, prise d’initiative, auto-apprentissage… L’IA s’est démocratisée, elle n’est plus réservée aux GAFAM, elle est accessible à toutes et tous.

Les modèles fondationnels, les modèles d’IA qui servent de socle comme ChatGPT, Gemini, Claude, Mistral, Deepseek & Co, travaillent à s’améliorer, à être plus performant, à éviter de plus en plus les hallucinations, à raisonner davantage, à optimiser les modèles pour consommer moins et rendre mieux. Du coup, on passe des modèles Bazooka, les LLM (Large Langage Model), à des modèles plus petits mais plus spécialisés les SLM (Small Langage Model).

Depuis plusieurs mois, les scientifiques explorent la piste prometteuse des LCM (Large Concept Model) mais c’est un autre sujet, certes passionnant, qui mérite une toute autre attention. Je ne parle pas non plus du quantique qui, clairement, est une révolution à venir plus que prometteuse.

Mon point essentiel à retenir : on fait de mieux en mieux avec de moins en moins.

Pourquoi ce terme de « fondationnel » ? Parce que ces modèles servent de fondations pour pouvoir bâtir dessus, au choix, des maisons, des cabanes, des petits immeubles, des tours. Les plus connus sont des modèles appartenant à des entreprises américaines ou chinoises, heureusement que nous avons Mistral en Europe pour sauver l’honneur !

Il existe aussi des IA open-source, c’est à dire accessible à tout le monde, que vous pouvez télécharger et faire avec ce que vous voulez. Cela demande des compétences techniques souvent mais au moins, vous faites ce que vous voulez comme vous voulez avec en gérant vous-même la confidentialité et les enjeux de sécurité sans passer par des tiers.

Le travail des fondations n’est pas terminé et on voit encore des news comme Claude 4 qui vient de sortir et VEO 3 pour la vidéo.

Il y a encore du travail sur ce qui consomme énormément en puissance de calcul comme le traitement audio et vidéo. Générer des vidéos aujourd’hui, on y arrive, c’est assez bluffant ce qui se passe mais ça reste encore très limité.

J’ajoute en outre qu’on parle désormais de standardisation et de protocole commun, tout un jargon pour expliquer le fait que nous voulons permettre aux IA de mieux fonctionner entre elles et de fluidifier les points de communication pour offrir une expérience plus accessible.

Voilà en ce qui concerne les fondations.

Les deux avancées majeures de 2024

Grâce à ces fondations, il y a deux éléments qui ont commencé à émerger tout 2024, à savoir :

Les Agents,
La multimodalité.

Père Castor Stallone, c’est quoi un agent ?

Un agent, c’est une intelligence artificielle à qui on donne une mission et qui est capable de la gérer toute seule. Il observe ce qui se passe autour de lui, réfléchit à ce qu’il doit faire, et agit sans qu’on ait besoin de lui dire quoi faire à chaque étape.

Par exemple, imagine un assistant personnel intelligent : tu lui dis “organise-moi une réunion avec Paul cette semaine”. Il va regarder ton agenda, celui de Paul, proposer des créneaux, envoyer les mails et te prévenir quand c’est fait. Tu n’as rien eu à faire de plus. Il a compris l’objectif, il a pris des décisions, et il est allé au bout de la tâche tout seul. C’est ça, un agent.

Forcément avec cette notion agentique, les possibilités sont E-N-O-R-M-E-S et c’est devenu un standard !

Parlons concret deux secondes : quand vous avez les mêmes discussions avec ChatGPT, qui commencent de la même façon « tu es un expert en marketing qui est dans telle entreprise et qui fait telle chose », plutôt que de devoir écrire à chaque fois la même chose, il suffit de faire un agent qui est un « Expert Marketing » et du coup, vous n’avez plus à introduire votre sujet, vous pouvez directement vous adresser à votre Expert Marketing.

Père Castor Stallone, c’est quoi la multimodalité ?

La multimodalité, c’est quand une intelligence artificielle peut comprendre et utiliser plusieurs types d’informations en même temps, comme du texte, des images, de la voix ou même des vidéos.

Par exemple, si tu montres une photo à une IA et que tu lui demandes à l’oral : “Qu’est-ce qu’il fait, ce monsieur ?”, une IA multimodale va regarder l’image, écouter ta question, comprendre les deux ensemble et te répondre : “Il joue de la guitare sur scène.” Elle a compris l’image et la voix, et a fait le lien entre les deux. C’est ça, la multimodalité : une IA qui capte le monde comme nous, avec plusieurs sens.

A mon goût, c’est encore assez faible honnêtement mais cela a le mérite d’exister.

Vous avez la possibilité de faire des chaînages d’IA (ou d’agents maintenant que vous savez ce que c’est) qui vont s’exécuter les unes après les autres en utilisant des plateformes comme Make ou N8N mais c’est encore une fois trop technique.

2025, enfin on s’intéresse à l’expérience IA

Si vous êtes développeur ou initié, vous êtes en capacité de faire des choses extraordinaires avec l’IA. Jusque-là, l’expérience se limite à faire du prompting et à obtenir des résultats, souvent bons, mais parfois insuffisants.

Depuis quelques mois, on voit qu’il y a une volonté de la part de l’écosystème de se développer autour d’outils sur base d’IA pour proposer des nouveautés.

Certains outils le font depuis un bon moment.

Prenons Gamma pour la génération de slides, c’est très performant et bluffant mais on voit au bout de plusieurs mois d’utilisation que finalement les slides sont toujours les mêmes avec un schéma trop répétitif et finalement limité.

Si je prends Fireflies ou Upmeet qui sont des outils qui utilisent l’IA pour traiter des audios ou se connecter à vos réunions en visio pour prendre des notes à votre place, ce sont des outils extra. Sur le même plan, vous avez des outils comme Plaud qui est un petit appareil transportable partout et qui peut enregistrer vos échanges au téléphone et/ou en présence et qui utilise de l’IA pour faire vos comptes-rendus, vos synthèses ou autre. Il n’existe pas un outil qui fait les deux : qui gère vos échanges en présentiel et par téléphone, et qui gère aussi vos visios, et qui utilise l’IA pour que vous puissiez vous y retrouver. Je ne parle même pas de la confidentialité où vos échanges transitent souvent sur des IA américaines ou chinoises.

Spoiler alert : avec notre start-up Lamalo, nous sommes en train de développer un outil qui fait tout et qui va même plus loin sur l’aspect expérience ET qui s’adapte en fonction de vos besoins de confidentialité.

Vous l’avez compris, ce que je veux vous montrer, c’est qu’un sérieux travail est fait pour apporter un service adapté et en profondeur pour adresser de nombreux sujets grâce à l’IA d’où des annonces comme : OpenAI s’achète le designer de l’iPhone pour concevoir son premier “objet IA”. A date, on parle de « générer du texte », de « générer des images » mais demain, nous dirons que nous souhaitons « comprendre et interagir avec un concept ».

Je vois des acteurs qui veulent se positionner avec de l’IA pour bousculer les acteurs établis comme Delos (une start-up française qui veut aller sur les plateformes de Microsoft 365 ou Google Workspace) ou Dust (start-up française spécialisée dans le développement d’assistants IA personnalisés pour les entreprises), je vois des start-ups voulant développer le prochain « Jarvis » en faisant des essaims d’agents spécialisés capables de s’auto-organiser pour réaliser des tâches hautement complexes en toute autonomie en opérant des choix comme l’allocation des ressources par exemple et en devenant également une aide en proposant des scénarios d’anticipation et donc de faire du prédictif.

On voit également un mouvement qui s’oriente vers la production de devices qui intègrent l’IA, ce qu’on appelle le « edge AI » : des smartphones aux voitures en passant à l’électroménager, il y a une volonté d’intégrer l’IA dans nos appareils. Cette intégration permet une hyper-personnalisation tout en respectant la vie privée car les IA sont dans un appareil qui ne communique pas à l’extérieur. Ainsi, vos appareils s’adaptent à vos habitudes et vous fait des recommandations de façon proactive.

Concrètement, vous allez avoir un travail dans les prochains mois et années

Et chez Reboot alors, Mr Stallone ?

Tout ce qui se passe, nous en parlons chez Reboot depuis 2023 et c’est fabuleux de voir comment le monde se met en branle afin de faire sortir de terre des idées qui relevaient jusque-là de la science-fiction.

On a créé une structure récemment pour lancer nos propres produits IA et nous avons travaillé à fooooooooooooond sur l’expérience. On a obtenu une subvention de la BPI pour notre projet et on a déjà, sans avoir fini de développer notre produit, des prospects qui veulent adopter notre solution. C’est pour trèèèèèès bientôt mais cette vision sur l’expérience, nous l’avons depuis 2023 en ayant développé notre propre RebootGPT qui est utilisé par toute la boîte. Là, on va carrément plus loin.

Stay tuned, ça vaut le coup !

Partager l'article:

Autres articles

Streaming de feedback dans LangGraph : améliorer l’attente utilisateur dans les systèmes IA

Dans le monde de l’intelligence artificielle générative, l’attente est une réalité. Que ce soit pour la génération d’images (15-45 secondes),

Le Model Context Protocol (MCP)

Le Model Context Protocol est un protocole, proposé par Anthropic (Claude), qui permet d’intégrer facilement des sources et outils externes