Un laboratoire chinois défie Google et OpenAI avec un nouveau modèle d’IA

Dans la course pour construire les technologies qui peuvent alimenter la prochaine vague de révolution de l’IA, un laboratoire chinois vient de renverser OpenAI et Google. OpenAI est un laboratoire de recherche américain qui a déjà quelques records à leur actif. J’aime beaucoup me renseigner sur le domaine de l’IA pour déterminer quel sera le futur de ce domaine.

Laboratoire chinois

L’Académie d’intelligence artificielle de Pékin, dénommée BAAI , a lancé la dernière version de Wudao 悟道, un modèle d’apprentissage en profondeur pré-entraîné que le laboratoire a qualifié de « premier de Chine » et « le plus grand au monde jamais créé », avec un énorme 1 075 milliards de paramètres !

Tu vas me dire qu’on peut faire raconter n’importe quoi aux chiffres il est donc utile de les comparer.

  • Wudao a 150 milliards de paramètres de plus que les Switch Transformers de Google, 
  • et est 10 fois supérieur au GPT-3 d’OpenAI, qui est largement considéré comme le meilleur modèle en termes de la génération du langage.

Contrairement aux modèles d‘apprentissage en profondeur conventionnels qui sont généralement spécifiques à une tâche, Wudao est un modèle multimodal formé pour traiter à la fois le texte et l’image, deux ensembles de problèmes radicalement différents. Lors de la conférence académique annuelle de BAAI, mardi, l’institution a présenté à Wudao des tâches telles que le traitement du langage naturel, la génération de texte, la reconnaissance d’images, la génération d’images, etc. 

Modèle multimodal

Le modèle est capable d’écrire des poèmes et des couplets dans les styles chinois traditionnels, de répondre à des questions, d’écrire des essais, de générer du texte alternatif pour les images et de générer des images correspondantes à partir d’une description en langage naturel avec un niveau de photoréalisme décent. Il est même capable d’alimenter des « idoles virtuelles », avec l’aide de XiaoIce, une société chinoise dérivée de Microsoft. Il peut donc également y avoir un support vocal, en plus du texte et de l’image. 

Le modèle multimodal est actuellement un mot à la mode au sein de la communauté du deep learning. Les chercheurs souhaitent de plus en plus repousser les limites de ce que l’on appelle l’intelligence artificielle générale, ou simplement des IA qui sont plus que des poneys incroyablement intelligents. 

Le MUM de Google

Le MUM de Google, ou Multi-task Unified Model, a été dévoilé il y a deux semaines lors de la conférence annuelle des développeurs du géant de la Silicon Valley. Il est capable de répondre à des questions complexes et de décrire des informations à partir de texte et d’image, est un exemple récent de modèles multimodaux.

laboratoire chinois model IA
Une diapositive à la conférence BAAI montrant le fonctionnement du modèle lors de la génération de poèmes chinois. Crédit image : PingWest

Très intéressant, ce modèle aux 1.75 trillion (mille milliards) de paramètres est déjà la version 2.0 de Wudao, dont la première version vient d’être lancée il y a moins de 3 mois. L’une des principales raisons pour lesquelles les chercheurs chinois ont rapidement progressé est qu’ils ont pu exploiter les clusters chinois de calcul intensif, avec l’aide de quelques-uns de ses principaux membres qui ont également travaillé sur les projets nationaux de calcul intensif. 

Une explication un peu plus technique : les chercheurs de BAAI ont développé et ouvert un système d’apprentissage en profondeur appelé FastMoE , qui a permis à Wudao d’être formé à la fois sur des superordinateurs et des GPU ordinaires avec beaucoup plus de paramètres, donnant au modèle, en théorie, plus de flexibilité que Google avec le MoE, ou Mélange d’experts. En effet, le système de Google nécessite le matériel TPU (TensorFlow) dédié de l’entreprise et un cadre de formation distribué, tandis que FastMoE de BAAI fonctionne avec au moins un cadre open source standard, à savoir PyTorch, et peut être utilisé sur du matériel standard.

Microsoft COCO

BAAI affirme que les sous-modèles de Wudao ont obtenu de meilleures performances que les modèles précédents, battant CLIP d’OpenAI et ALIGN de ​​Google sur l’indexation des images et du texte en anglais dans l’ensemble de données Microsoft COCO. 

Pour la génération d’images à partir de texte, une nouvelle tâche, BAAI affirme que le sous-modèle Cogview de Wudao a battu le DALL-E d’OpenAI, un réseau de neurones de pointe lancé en janvier de cette année avec 12 milliards de paramètres. L’institution travaille avec Damo Academy, le laboratoire de recherche sur l’IA d’Alibaba, pour utiliser CogView afin de développer des applications pouvant être utilisées pour produire des vêtements personnalisés répondant aux besoins des acheteurs.

Une brève introduction chinoise de CogView. Crédit image : BAAI

« La voie vers l’intelligence artificielle générale passe par les grands modèles et les gros ordinateurs », a déclaré le Dr Zhang Hongjiang, président de BAAI, « Ce que nous construisons est une centrale électrique pour l’avenir de l’IA, avec des mégadonnées, une mégapuissance de calcul et un mégamodèle, nous pouvons transformer les données pour alimenter les applications d’IA du futur ». (désolé pour mes erreurs de traductions, je fais ce que je peux – si tu veux me corriger c’est avec plaisir !)

Dr Zhang

Le Dr Zhang a dirigé le projet qui a finalement abouti à la fondation de BAAI. Il est actuellement Venture Partner chez Source Code Capital et a été PDG de Kingsoft, ainsi que l’un des douze cofondateurs de Microsoft Research Asia. 

Tang Jie, directeur adjoint de la BAAI pour les universitaires, montrant une liste de points de repère sur lesquels le dernier modèle de son institution, Wudao, avait obtenu de meilleures performances. Crédit image : pingwest

Il ne fait aucun doute que BAAI, fondée en 2018, se positionne comme « l’OpenAI de Chine ». BAAI et OpenAI ciblent tous deux la recherche fondamentale qui a le potentiel de permettre des performances considérablement plus élevées pour les technologies d’apprentissage en profondeur. Cela permettrait de nouvelles expériences auparavant inimaginables. Tous deux sont capables de former des modèles gigantesques, dont le grand nombre attire l’attention, et les aident à leur tour à l’embauche et au développement de divers business. 

L’un des sous-modèles de Wudao, Wensu 文溯, est même capable de prédire les structures 3D des protéines, une tâche très complexe avec une immense valeur réelle que DeepMind de Google a également entreprit dans le passé avec son système AlphaFold. DeepMind, d’autre part, est également une organisation de recherche en IA de premier plan.

Cependant, alors qu’OpenAI et DeepMind sont financés par des fonds privés, une distinction clé pour BAAI est qu’il est formé et financé avec une aide importante du ministère chinois des Sciences et de la Technologie, ainsi que du gouvernement municipal de Pékin. 

De nombreux chercheurs résidents de BAAI proviennent d’institutions de premier plan, notamment l’Université de Pékin, l’Université Tsinghua et l’Académie chinoise des sciences. Travaillant au sein des nombreux laboratoires individuels de l’institution, ils mènent des recherches dans toutes les directions pertinentes, y compris l’apprentissage en profondeur, l’apprentissage par renforcement et l’intelligence inspirée du cerveau. Au final, le but de BAAI est de résoudre des problèmes fondamentaux qui entravent la progression vers l’intelligence artificielle générale.

Le laboratoire s’associe également étroitement à une liste de qui est qui sur la scène technologique chinoise : Didi, Xiaomi, Meituan, Baidu, ByteDance, Megvii et JD.com, etc. 

Le conseil d’administration de BAAI

Comme OpenAI, BAAI est dirigé par un conseil d’administration composé de chercheurs chinois réputés dans le domaine de l’apprentissage en profondeur, notamment Song-Chun Zhu de PKU, Wang Haifeng de Baidu, Sun Jian de Megvii et Cui Baoqiu de Xiaomi, pour n’en nommer que quelques-uns. L’institution est également conseillée par Michael I. Jordan, professeur à l’UC Berkeley et figure de proue du monde de l’apprentissage automatique, ainsi que par John E. Hopcroft, lauréat du prix ACM AM Turing.

Le comité des conseillers pédagogiques de la BAAI

Outre le nouveau modèle d’apprentissage en profondeur qui a fait la une des journaux et qui a battu tous les records, l’institution de trois ans avait également produit d’autres résultats prometteurs, remportant à l’une de ses équipes un prix ACM Gordon Bell pour ses recherches sur la prédiction du microclimat, un problème qui était généralement considéré comme très lourd en calcul pour l’IA. 

100 chercheurs and more

En fait, l’institution est si fière de son équipe de plus de 100 chercheurs en IA, que Huang Tiejun, vice-président et directeur de BAAI, prétend littéralement qu’elle a créé une « École de Pékin » (北京学派) pour la recherche en IA, attirant des universitaires de à travers la Chine et dans le monde. L’institution compte une centaine de chercheurs à divers niveaux d’ancienneté et de résidence.

Grâce à la commodité de bonnes relations avec le gouvernement, cette recherche lauréate du prix Gordon Bell est déjà mise à profit pour les prochains Jeux olympiques d’hiver de 2022. Certains des autres résultats de recherche de BAAI ont également été adoptés par les gouvernements locaux pour traiter plus efficacement les affaires civiles, selon l’institution.  

Il ne fait aucun doute que BAAI est une illustration de la détermination du gouvernement chinois à diriger et finalement à remporter la course mondiale à l’IA. L’institution rassemble les diverses initiatives de recherche et de talent liées à l’IA en Chine et fait de grandes annonces au même rythme, voire à un rythme encore plus rapide, qu’OpenAI aux États-Unis ou DeepMind (affilié à Google/Alphabet) au Royaume-Uni.

Zhang Hongjiang à l’époque où il était PDG de Kingsoft. Crédit image : SCMP Photo

Plus tard, outre l’effort continu sur la recherche de base, BAAI prévoit également de travailler avec davantage de partenaires pour créer des applications démonstratives cette année. Pour l’année prochaine, il prévoit de consolider les API pertinentes en une plate-forme avec un potentiel de commercialisation, une voie qu’OpenAI a également empruntée avec son modèle GPT-3 très recherché.

“Peu importe le nombre de modèles, ce sont les plus gros et les plus performants qui finissent par être commercialisés dans l’industrie”, a déclaré Huang, expliquant pourquoi BAAI se concentre sur la construction de grands modèles. Mais le principal comprend que l’intelligence artificielle générale ne sera pas atteinte uniquement avec de grands modèles, affirmant que BAAI avait également mis en place des laboratoires individuels dédiés aux lois de la physique ainsi qu’aux sciences de la vie.

« Wudao est notre modèle d’information. Nous construisons également Tiandao 天道 comme modèle pour la physique, et Tianyan 天演 comme modèle pour les sciences de la vie », a déclaré le directeur, ajoutant que le plan final est de les fusionner tous ensemble, faisant que l’IA fonctionne non seulement à l’intérieur des ordinateurs, mais aussi à travers l’univers. 

BAAI serait en mesure de tenter cet objectif très futuriste avec l’aide continue de l’Académie chinoise des sciences, qui fait déjà des recherches sur ces sujets scientifiques fondamentaux depuis des décennies. L’idée est que si les progrès de leurs recherches avaient été entravés par le passé en raison d’un manque de puissance de calcul, BAAI est maintenant là pour sauver la situation.

Par ludolouis

Entrepreneur, blogger, marketer, écrivain, les anglos-saxons disent que je suis un « slasher ». Je suis aussi un geek compulsif qui se soigne grâce à sa dose de Twitter et Youtube matin et soir.