Imaginez un instant rentrer chez vous après une dure journée de labeur et trouver votre appartement impeccable, le dîner prêt à être servi. Non, vous n’avez pas engagé une armée de domestiques, mais plutôt un robot dernière génération capable d’apprendre en vous observant. C’est en tout cas le pari fou du constructeur automobile Toyota, qui développe actuellement des robots domestiques boostés à l’IA générative.
Lors d’une visite au Toyota Research Lab à Cambridge, Massachusetts, j’ai eu l’occasion de jouer les professeurs pour robots en nettoyant des haricots renversés sur une table à l’aide de bras robotisés téléopérés. Une expérience pour le moins déroutante, malgré les sensations de préhension et de poids restituées par le système. Quelques jours plus tard, Toyota m’envoyait fièrement une vidéo du robot reproduisant la même tâche de façon autonome, après avoir combiné mes démonstrations avec d’autres exemples et de longues heures d’entraînement dans un monde simulé.
La plupart des robots industriels ne savent suivre que des routines préprogrammées, ce qui les rend inaptes à gérer des tâches variables comme le ménage. Mais les progrès spectaculaires de l’IA conversationnelle cette dernière année laissent entrevoir des bonds similaires en robotique. Les algorithmes derrière les chatbots et les générateurs d’images permettent déjà aux robots d’apprendre plus efficacement.
Le robot nettoyeur que j’ai formé utilise un système d’apprentissage appelé « politique de diffusion », similaire à ceux des générateurs d’images, pour déterminer en une fraction de seconde l’action à entreprendre parmi de multiples possibilités et sources de données. Toyota cherche à combiner cette approche avec les modèles de langage à la ChatGPT, dans l’espoir de permettre aux robots d’apprendre en regardant des vidéos YouTube, transformant ainsi la plateforme en une mine d’or pour leur formation (en espérant qu’ils ne tombent pas sur les challenges dangereux qui y pullulent).
« Si vous n’avez jamais rien touché dans le monde réel, il est difficile d’acquérir cette compréhension juste en regardant des vidéos YouTube », explique Russ Tedrake, vice-président de la recherche en robotique chez Toyota. L’idée est qu’une compréhension de base du monde physique, combinée à des simulations, permette aux robots d’apprendre des actions en visionnant des clips.
Le laboratoire de Cambridge compte des dizaines de robots s’affairant à des tâches comme éplucher des légumes, utiliser des mixeurs, préparer des en-cas ou retourner des pancakes. Les modèles de langage les aident à donner un sens aux objets et à leur utilisation. Mais malgré des démos impressionnantes, les robots commettent encore beaucoup d’erreurs, oscillant entre un comportement quasi-humain et d’étranges bourdes.
Toyota n’est pas la seule entreprise à miser sur les modèles de langage pour faire progresser la robotique. Google DeepMind a dévoilé Auto-R, un logiciel qui aide les robots à déterminer les tâches réalistes et sûres qu’ils peuvent accomplir. De son côté, Stanford a présenté ALOHA, un système robotique mobile et téléopéré à bas coût, permettant d’élargir le champ des expériences d’apprentissage.
Alors certes, il est facile de se laisser éblouir par ces vidéos de robots aux petits soins. Mais l’équipe d’ALOHA a eu l’honnêteté de poster aussi un florilège de leurs échecs, montrant le robot en train de trébucher, casser et renverser des objets. Espérons qu’un autre robot apprendra à nettoyer derrière lui. En attendant le robot majordome idéal, il va falloir encore s’armer de patience et garder son balai à portée de main.