Voici mon blog personnel. Intelligence artificielle, marketing digital sont les sujets les plus souvent abordés.

Étiquette : algorithme

Disruption : Préparez-vous à changer de monde

Entrepreneur, blogger, marketer, écrivain, les anglos-saxons disent que je suis un « slasher ». Je suis aussi un geek compulsif qui se soigne grâce à sa dose de Twitter et Youtube matin et soir.

Sans perdre de temps : un des meilleurs livres que j’ai lu en cette année 2018. Voilà c’est dit. En effet, un style très facile à lire, du coup on mange les pages rapidement. Pour ceux qui n’ont pas l’habitude de lire c’est plaisant. Même si je comprends plutôt bien le sujet, c’est un livre qui a un vocabulaire et une syntaxe accessible à toutes et à tous.

C’est un bon bouquin pour toute personne qui veut se lancer dans son business ou qui en a marre du salariat sans comprendre pourquoi. Stéphane Mallard pose des mots aux maux sociétaux. Ce livre doit également se retrouver dans les mains de manager, de chef d’entreprise ainsi que dans les Comex. Ceux-ci auront une larme de douleur à la lecture de certains paragraphes.

« Le rôle de la douleur, des déceptions et des idées noires n’est pas de nous aigrir, de nous faire perdre nos valeurs et notre dignité, mais de nous mûrir et de nous purifier ».

Peter camenzind – Hermann Hesse

Pour faire très simple, la « disruption » est un nouveau modèle d’entreprise qui est en rupture avec ce qui se fait. Uber est la disruption de monde des taxis. Amazon est la disruption des centres commerciaux. Mais pas seulement.

La disruption est multiforme

Dans l’introduction, Stéphane dit que la disruption est multiforme.

Elle est :

  • technologique,
  • sociale,
  • sociétale,
  • économique,
  • anthropologique et
  • transgressive.

Ainsi, il nous emmène sous le prisme de la disruption sous chacune de ces formes. Renversant !

L’empathie la valeur refuge

Un niveau d’empathie élevé sera la compétence humaine faisant clairement la différence entre les entreprises/experts. Sans cette compétence, elles/ils seront sans activité à l’heure de l’IA. Nous sommes constamment (et on le sera de plus en plus) assistés par l’IA. La meilleure façon de pouvoir continuer à fournir des services haut de gamme (qui deviennent peu à peu la norme), c’est l’empathie. Par exemple, si tu es membre premium chez Amazon ou client Apple.

Use-case : Amazon

Un jour j’ai commandé des compotes pour ma fille. J’avais commandé 5 lots de 4 compotes. A la réception, je constate que 2 pots ont été écrasés. J’ai nettoyé les autres et j’ai signalé le problème. Ils ne m’ont pas questionné ni demandé de justificatif et ont recommandé l’intégralité gratuitement, le tout livré en 24h.

Pour ainsi dire, je n’avais pratiquement rien demandé. Ils ont fourni un service premium en anticipant ma demande (remboursement) et ont offert plus que ce que j’attendais (2 pots remboursés versus 20 nouveaux pots livrés le lendemain !).

Le service « premium » devient peu à peu la norme.

Nous devenons de plus en plus en exigeant car de nouveau acteur permet de fournir un service irréprochable à moindre coût. Je m’attends à un niveau équivalent pour tous les autres services, que ça soit pour prendre un abonnement pour les transports en commun comme pour avoir un rendez-vous avec le pédiatre.

I am a slasher and switcher

Je suis un slasher (et un PAF) car je fais plusieurs métiers en même temps. Mes activités professionnelles font que je ne peux pas rester les bras croisés, et j’ai plusieurs passions. Je suis un switcher non pas, parce que j’ai quitté une grande entreprise mais plus par mon aversion au salariat.

Le livre Jouer sa peau, m’a totalement convaincu que nous sommes des esclaves modernes dont l’entreprise nous dicte notre façon de penser et de se comporter. Je tiens bien trop à ma liberté et je ne conçois pas de limiter ma liberté enfermée dans une prison appelé bureau en échange d’un salaire.

Disruption ; Dilemme de l’innovateur, inversion de Pareto

Toutes personnes issues de filière marketing ou commerciale connaissent la loi de Pareto. La fameuse loi des 20-80, où en d’autres termes, « 20 % de nos clients génèrent 80% de notre chiffre d’affaires« .

Le dilemme de l’innovateur est de trouver un produit ou un service qui permet de satisfaire les 80% des clients restant ! Ce qui est tout de même incroyable qu’une entreprise aujourd’hui fasse le nécessaire pour rendre le service optimal pour une minorité. (D’ailleurs dans l’article de Taleb, il explique justement le pouvoir des minorités.)

L’obsession du service client

Pour une entreprise traditionnelle, le client est un numéro dans une base de données qui permet la hausse du chiffre d’affaires. Si un client est mécontent : « faite le taire le plus rapidement ».

Pour les disrupteurs, le client est une obsession. Ils résonnent plus ainsi : « c’est parce que nous leur apportons un service en or qu’il nous augmentera notre chiffre d’affaires ». L’approche est totalement différente. Chez Amazon, plus haut j’ai dit qu’ils m’ont remboursé sans que je me justifie. J’ai été mécontent, mon problème a été très bien résolu. Par conséquent, je suis davantage heureux d’être leur client (la preuve j’en parle !). Pour un disrupteur, un client mécontent est une opportunité de faire ravir l’entreprise !

En d’autres termes, le dilemme de l’innovateur est donc de trouver un nouveau marché avec des revenus inconnus sur une cible méconnue. Ne pas se lancer est rationnel pour l’entreprise. On le lit à plusieurs reprises, les sociétés ne prennent aucun risque. Et justement, selon Stéphane Mallard (et d’autre d’ailleurs), ce manque de risque va les conduire à leur propre perte.

Renverser la loi de pareto

Aujourd’hui les nouveaux entrants dans un domaine procèdent ainsi. Un disrupteur va donc axer son business model en partant de ces 80%. Prenons Revolut ou N26, les néo-banques ; elles proposent des services « bas de gamme » donc très peu cher (pas de frais de banque, carte gratuite), en offrant une expérience réjouissante (ouvrir un compte bancaire en 8 minutes) tout en gardant un service client élevé (Revolut répond 24/7).

Finalement, les néobanques satisfassent l’exigence des 80% des clients mais génèrent très de peu de CA. Lorsqu’elles atteindront une masse critique d’utilisateurs, elles proposeront d’autres services à fortes valeurs ajoutées.

Monkey first

Une métaphore que j’ai adoré dans ce livre, est le monkey first. Chez Google X, la branche de Google pour l’innovation, ont un adage le : « Monkey First ». En effet, si l’on donne pour exercice :

Construisez un piédestal et apprenez à un singe à jouer du Shakespeare

95% des gens commenceront à construire le piédestal. En effet, nous le ferons pour montrer au manager que nous nous sommes mis au travail, et pris la difficulté à bras le corps. Alors que la plus grande difficulté est d’apprendre au singe à parler ! Les entreprises agissent de la même manière, elles contournent leur propre (vrai) problème et difficulté par des approches plus faciles et surtout pour avoir des résultats plus visibles.

Mon point de désaccord : le marketing

Oui le marketing a bien changé. En effet, le marketing traditionnel (faire de l’affichage urbain par exemple) n’a pas le vent en poupe car les campagnes digitales sont plus précises et plus flexibles. Selon Stéphane, le marketing va disparaître. Je ne suis pas contre cette idée, mais plutôt dans la réflexion.

Regarde mon thread sur Twitter :

Pourquoi ne voyons-nous pas que les choses vont de plus en plus vite ?

Nous sommes adaptés pour suivre

Stéphane nous apporte un élément de réponse à cette question fort intéressante. Notre cerveau est programmé pour suivre notre environnement immédiat. Par conséquent nous ne voyons pas l’inertie technologique qui nous entraîne de plus en plus vite. Comme un cycliste qui a la tête dans le guidon, il est très réactif au comportement de son vélo et suit la route avec un regard vif et une concentration maximale.

Cette appréhension naturelle à voir notre environnement immédiat à un défaut. En effet, ce même cycliste a beaucoup de difficultés à voir l’issue de sa course, à visualiser le reste du parcours futur. Ainsi nous sommes aptes à utiliser toujours plus de technologie, mais nous manquons de discernement quant à notre avenir.

Neuro-augmentation pour aller toujours plus vite

Dans le dernier tiers du livre, Stéphane nous parle des pratiques de la Silicon Valley pour augmenter leur créativité, leur productivité toujours dans le but d’aller plus vite. Je ne vais pas spoiler la fin, mais c’est un passage où j’ai appris pas mal de chose, notamment l’influence du Burning Man !

Un condensé d’informations

Disruption est un livre accessible à tous et que je recommande de lire. Que tu sois étudiants, salariés, à ton compte ou membre d’un Comex, il faut l’avoir entre les mains ! Pour moi cet ouvrage fait le résumé de plusieurs livres. Du livre La Guerre de Intelligence (pour le coté IA et tech),  de Jouez sa peau pour le côté anti-entreprise (entreprises qui ne prennent pas de risque, fin du salariat etc.) et Libérez votre cerveau (pour le coté cognitif et le style qui se lit tout aussi bien).

Pour conclure, être autodidacte, faire plusieurs activités, apprendre plusieurs domaines et prendre des risques sont les qualités nécessaires pour les dix prochaines années. Je partage la même position que Stéphane concernant le devenir des entreprises traditionnelles. Elles vont toutes mourir, car la génération d’aujourd’hui est plus exigeante, nous avons le choix et perdons pas de temps pour changer. D’autant plus que nous voulons vivre des expériences incroyables et toujours dans un rythme de plus en plus important.

Trouver le livre sur Amazon

L’avènement de la conscience artificielle n’est pas liée de la singularité

Entrepreneur, blogger, marketer, écrivain, les anglos-saxons disent que je suis un « slasher ». Je suis aussi un geek compulsif qui se soigne grâce à sa dose de Twitter et Youtube matin et soir.

Pour fabriquer une IA consciente il faut trois éléments. Une machine qui réagit à son environnement, comme une lampe à détection de mouvement. Ensuite qu’elle soit capable de prendre des décisions – quand tu fais une recherche sur Google, l’IA prend la décision de te présenter ces résultats. Et enfin qu’elle soit capable de se voir elle-même en train d’agir et se poser des questions sur ses agissements. Ce sont des aspects bien commun de nos jours et contrairement à ce que l’on pourrait croire, il est plutôt facile d’en créer une. Mais alors, pourquoi nous n’en voyons pas ? Je vais te l’expliquer mais avant tout il faut faire un tour dans l’inconscient des humains.

La théorie de l’esprit

Pour comprendre la conscience humaine, il faut plonger profondément dans l’étude de la théorie de l’esprit.
La théorie de l’esprit est la tentative par un cerveau de déterminer le contenu d’un autre cerveau. Par exemple, Amandine se demande ce que pense Bruno du monde dans lequel nous vivons tous. Amandine crée des théories sur l’état actuel de l’esprit de Bruno.

Elle fait cela pour deviner ce que Bruno pourrait faire ensuite. Il est vrai d’un côté, aucun pouvoir ne pourrait être plus grand pour un animal social comme nous, les humains, d’anticiper le comportement des autres. Pendant des milliers et des milliers d’années, nous avons vécu à proximité des uns des autres. À mesure que nos comportements et nos pensées devenaient de plus en plus complexes, il devenait crucial pour chaque membre de la tribu d’avoir une idée de ce que pensaient les autres membres et des actions qu’ils pourraient accomplir. La théorie de l’esprit, c’est de l’espionnage intellectuel ! Et nous sommes plutôt doués, mais avec des limites critiques que nous aborderons plus tard.

Notre cerveau est comme un ordinateur ?

Dès lors qu’un système s’auto-observe et essai de faire de prédiction sur ce qu’il voit (de manière la plus approximative possible) est tout à fait envisageable. Alors pourquoi nous ne le faisons pas ?
On aime penser que notre cerveau est comme un ordinateur. Avec une RAM (mémoire court terme), un disque dur (mémoire long terme), un système de refroidissement et alimentation (vaisseaux sanguins) etc. Mais c’est très loin d’être le cas. Un ordinateur est construit avec toutes les pièces de son époque. Le cerveau pas du tout, certaine zone du cerveau sont beaucoup plus vieille que d’autre. De plus, la mémoire n’est pas unifiée dans une seule partie.

D’autre part, notre cerveau bouge, change, adapte les aires (cela se nomme la plasticité cérébrale). Notre cerveau ressemble plus à une ville comme Rome, toute sinueuse, où l’ancien se mélange avec le moderne. D’ailleurs toutes les zones ne communiquent pas ensemble. Un exemple frappant, si tu as eu le mal de mer. Une partie du cerveau comprend qu’il y a une différence entre les informations de l’oreille interne et de ce que tu voies. Le cerveau se met en alerte “empoisonnement tout le monde sort d’ici”, et tu vomis tout ce qui est possible pour éliminer le poison. Sauf que consciemment, tu sais que tu n’as pas ingurgité de poison…

Un humain n’est pas une machine ?

Nous venons de voir que les humains ont des comportements différents avec des similitudes. D’une part, les humains se regroupent par similitude car l’union fait la force. Dans la nature, vivre en communauté est plus facile que vivre seul. D’ailleurs le test de Ash prouve que nous préférons nous conformer au groupe; même si le groupe à faux, plutôt que d’être seul contre le groupe. Et puis nous avons des comportements constamment contradictoire ! Pourquoi voulons-nous nous habiller et aller danser ? Parce que c’est drôle ! Et nos amis seront là ! Pourquoi voulons-nous continuer à manger quand nous sommes repus ? Parce que c’est délicieux ! Et nous avons fait mille pas supplémentaires aujourd’hui !
Ces questions sur nos propres comportements n’en finissent jamais. Et les réponses sont presque toujours fausses.

L’égo fait la conscience de soi

Nos suppositions sur les motivations des autres sont beaucoup plus précises que les suppositions que nous faisons sur les nôtres. Ce champ de force est notre ego, et il nous donne une opinion exagérée de nous-mêmes. En effet, nous nous accordons un esprit plus élevé pour nos actions et une illusion de dangerosité lorsqu’un autre est meilleur que nous (ensuite vient la fascination et l’envie de s’améliorer). C’est d’ici que vient ce biais « les machines voudront nous tuer ».

Les explications incorrectes que nous présentons sur nos propres comportements visent à nous protéger. Elles sont souvent follement créatives, ou mêmes absurdes. Les réponses comme «amusant» et «délicieux» sont des réponses qui font référence à un module de bonheur, sans aucune curiosité quant aux avantages sous-jacents de ce mécanisme de récompense.

La vérité est que nous continuons à manger quand nous sommes repus parce que nous avons évolué dans un monde de pénurie calorique. Nous dansons pour attirer les copains et les copines à faire des copies de nous-mêmes (se reproduire). Parce que les modules de reproduction ont guidé ce comportement et nous sommes la descendance de ces premiers modules (c’est donc une affaire qui marche).

Alors cette machine existe-elle vraiment ?

Avec tous aspects précédents, si nous devions faire une analogie la plus précise d’une machine existante, alors je dirais : la voiture autonome connectée.

En effet, les voitures autonomes ont la capacité de voir et d’entendre pour se mouvoir sans heurter les obstacles. Elles ont donc une perception de leur environnement. Les voitures Tesla éduquent les  conducteurs pour l’utilisation de l’autopilot. La voiture conduit toute seule pendant un certain nombre de mètres et elle indique qu’il faut remettre les mains sur le volant. Plus le conducteur est réactif, plus la distance de conduite autonome sera longue. Il existe bel et bien une sorte de langage entre la machine et l’humain. Elles ont donc une perception langagière comportementaliste.

En voiture Simone

Maintenant, la conscience des autres. Si toutes les voitures étaient connectées, alors elles pourraient également communiquer entres-elles. Cette Nissan bleue va à l’épicerie parce qu’elle a faim. Et cette camionnette rouge va dans une station d’essence parce qu’elle a besoin de carburant. Cette voiture est en état d’ébriété. Celui-là ne peut pas très bien voir à cause de son phare cassé.

La bibliothèque de perceptions commence simplement avec les concepts du premier ordre, mais se transforme ensuite en idées de deuxième et troisième ordre. Est-ce que cette Ford jaune voit la Citroën grise venir vers elle ? Il s’est légèrement décalé, alors oui, c’est le cas. Est-ce que cette camionnette pense que la berline conduit trop agressivement ? Elle laisse plus de distance que les autres voitures, alors oui.
Notre machine va inventer des histoires sur ce qu’elle fait. Elle essaiera de relier ces histoires aux autres et ce sera souvent faux.

Est-ce vraiment souhaitable ? Nous avons créé des robots et des machines dans l’unique but qu’ils soient experts. Qu’ils traitent les informations sans erreur et de manière standardisée. C’est bien le paradoxe, nous fonctionnons totalement à l’opposé !

Rendre humain la machine, le piège anthropomorphique

Ce qui a vraiment fait apparaître Watson comme humain, c’est quand il a fait des gaffes. Comme une réponse finale de Jeopardy dans la catégorie « American Cities » où Watson a répondu une ville canadienne.
Il vaut la peine de noter ici que les robots nous semblent plus humains quand ils échouent.

Notre égo nous fait rire et nous fait peur

Il faut avouer que nous avons un certain plaisir quand nous regardons les vidéos des robots de Boston Dynamics. Notamment quand le robot soulève la boite et le gars tape sur la boite avec son bâton pour la faire tomber. Et maintenant quand nous voyons ce même robot faire un salto arrière (donc meilleur que nous) on se dit qu’il va nous écrabouiller… encore l’égo qui parle (relis le paragraphe, ci-dessus, de l’égo fait la conscience de soi) !

Les constructeurs automobiles sont en train de construire des véhicules qui ne seront jamais conscients. C’est parce qu’ils sont trop biens construits ! Notre projet consiste à rendre une machine ignorante de ses motivations tout en fournissant un dialogue de ces motivations. Une meilleure idée serait de construire une machine qui sait ce que font les autres voitures. Pas de devinettes.

Le savoir est la nouvelle richesse

Cela signifie accès au GPS, aux messages du smartphone, aux e-mails de l’ordinateur personnel. Mais aussi l’accès à tous les autres véhicules et toutes les données des capteurs de la ville. La Nissan dit à la Ford qu’elle va au centre commercial. Chaque voiture sait ce que chaque voiture fait. Il n’y a pas de collision.

Sur l’autoroute, des voitures aux destinations similaires se regroupent, des pare-chocs magnétiques se relient, en file indienne et réduisant de moitié l’utilisation énergétique collective de chaque voiture. Les machines fonctionnent de concert. Elles affichent tous les traits de l’omnipotence véhiculaire. Elles savent tout ce qu’elles ont besoin de savoir, et avec de nouvelles données, elles changent d’avis instantanément. Pas de parti pris. D’ailleurs, si une entreprise dit pouvoir guérir n’importe quelle maladie dans l’unique condition de te pister, même biologiquement, serais-tu prêt à l’accepter ?

L’IA sera au service de l’Homme

L’avenir le plus probable selon moi, c’est l’expansion et l’amélioration de nos propres algorithmes. Nous avons une longue histoire sur la condition humaine et de l’Homme contre l’Homme. Malgré ce que les nouvelles locales essaient de te vendre, le monde devient plus sûr tous les jours pour la grande majorité de l’humanité. Où l’éthique s’améliore. Nos sphères d’empathie sont en expansion. Sans besoin de créer une conscience artificielle.

La singularité

Pour conclure, selon moi nous vivons déjà la singularité. La machine est déjà plus performante que l’Homme dans bien des tâches. Les IA leur manque le « sens commun », c’est-à-dire la capacité à trouver une solution dans n’importe quelle situation. L’Homme a la prodigieuse capacité d’apprendre dans de nouvelle situation. Je ne sais pas faire un mur avec des briques et du ciment pourtant sur le fait accompli, j’essaierais, je vais surement me tromper et être très lent mais je suis « capable » de le faire. Est-ce grâce à ma conscience ? Pourtant je ne suis pas conscient de tout ce que je sais !

Enfin, une conscience a déjà été simulée, je te conseille de lire les recherches du professeur Alain Cardon sur la conception d’une conscience artificielle. N’en démords pas moins qu’il a détruit ses travaux dans l’attente d’un comité d’éthique mondial sur les réglementations et les usages de l’IA.

Nous pouvons également considérer notre propre cerveau comme une machine. Il est impossible de prouver le contraire. Exemple : comme un ordinateur dont on ne voit pas la masse de calcul à chaque instant, notre programme nous empêcherai de voir comment notre cerveau fonctionne !

 

Futur du Deep Learning ? Le Reinforcement Learning !

Entrepreneur, blogger, marketer, écrivain, les anglos-saxons disent que je suis un « slasher ». Je suis aussi un geek compulsif qui se soigne grâce à sa dose de Twitter et Youtube matin et soir.

Le sujet est complexe, si tu veux du pragmatique, je te conseille de lire le dernier paragraphe. Bonne lecture 🙂

Le cerveau humain vs Reinforcement Learning

Les humains sont excellents dans la résolution d’une grande variété de problèmes, en plus leur cerveau consomme peu d’énergie. L’objectif chez DeepMind est de créer des agents artificiels qui peuvent atteindre un niveau de performance similaire.

Comme un être humain, leurs agents apprennent eux-mêmes pour parvenir à des stratégies efficaces qui mènent aux plus grandes récompenses à long terme. Ce paradigme de l’apprentissage par essais et d’erreurs, est connu comme l’apprentissage par renforcement (Reinforcement Learning).

En outre, comme un être humain, ces agents construisent et apprennent de leurs connaissances directement à partir de matières brutes. Telles que la vision et sans fonctionnalités d’ingénierie codée préalablement à la main ou du domaine heuristique. Cet objectif est atteint par l’apprentissage en profondeur (Deep Learning j’en parle ici) des réseaux de neurones.

Au DeepMind, ils ont mis au point la combinaison de ces approches – le deep reinforcement learning (DRL) – pour créer les premiers agents artificiels à atteindre une performance de niveau humain dans de nombreux domaines jugés difficiles.

L’IA doit faire des erreurs pour apprendre

Les agents doivent continuellement faire des jugements de valeur de manière à sélectionner les bonnes actions des plus mauvaises. Cette connaissance est représentée par un Q-réseau qui estime la récompense totale qu’un agent peut espérer recevoir après avoir pris une action particulière.

Il y a deux ans, ils ont crée avec succès l’algorithme sur l’apprentissage par renforcement profond (Deep Reinforcement Learning). L’idée principale était d’utiliser des réseaux de neurones profonds pour représenter le Q-réseau, et de former ce Q-réseau pour prédire la récompense totale. Les précédentes tentatives pour combiner RL avec les réseaux neuronaux ont largement échoué en raison de l’apprentissage instable.

Pour répondre à ces instabilités, les Q-réseaux profonds (DQN) stocke toutes les expériences de l’agent. Puis au hasard, il pioche des échantillons et rejoue ses expériences pour fournir des données de formation diverses et décorrélés. Ils ont appliqué le DQN dans l’apprentissage des jeux sur la console Atari 2600.

A chaque pas, l’agent observe les pixels bruts sur l’écran, un signal de récompense correspondant au score de jeu, et sélectionne une direction du joystick. Dans l’article de Nature, ils ont formé des agents DQN différents pour 50 jeux différents Atari, sans aucune connaissance préalable des règles du jeu.

Comparison of the DQN agent with the best reinforcement learning methods in the literature. Comparaison of the DQN agent with the best reinforcement learning methods in the literature.

Étonnamment, DQN atteint des performances de niveau humain dans près de la moitié des 50 matchs auxquels il a été appliqué; bien au-delà de toute méthode précédente. Le code source DQN et émulateur Atari 2600 sont librement accessibles à tous ceux qui souhaitent expérimenter eux-mêmes.

Toujours plus performant

Ils ont par la suite amélioré l’algorithme DQN à bien des égards ; stabiliser davantage les apprentissage dynamique ; hiérarchiser les  expériences relus ; normalisation, agrégation et remise à l’ échelle des sorties. La combinaison de plusieurs de ces améliorations conduit à une progression de 300% du score moyen pour les jeux Atari; des performances de niveau humain ont été réalisé dans presque tous les jeux Atari.

Les ingénieurs peuvent même former un réseau neuronal unique pour en apprendre davantage sur plusieurs jeux Atari. Deep Mind a également construit un système en open source, connu sous le nom Gorila, qui utilise la plate-forme Google Cloud pour accélérer le temps de formation ; ce système a été appliqué dans la recommandation dans les systèmes de Google.

Le Reinforcement Learning asynchrone

Cependant, Q-réseaux profonds ne sont qu’un moyen de résoudre le problème de RL profonde. Ils ont récemment introduit une méthode encore plus pratique et efficace basée sur un RL asynchrone. Cette approche exploite les capacités de multit-reading de CPU standard.

L’idée est d’exécuter de nombreux exemples à leur agent en parallèle, mais en utilisant un modèle partagé. Cela fournit une alternative viable à l’expérience de rediffusion.

Leur algorithme acteur-critique asynchrone, A3C , combine un DQN avec un réseau pour la sélection des actions. Il obtient des résultats state-of-the-art, en utilisant une fraction du temps de formation des DQN et une fraction de la consommation des ressources de Gorila.

En construisant de nouvelles approches de la motivation intrinsèque et la planification dans le temps abstrait , ils ont également obtenu des résultats exceptionnels dans les jeux les plus notoirement sur les jeux difficiles Atari, tels que la vengeance de Montezuma.

Asynchronous RL effectue également bien dans ces domaines et, lorsqu’il est complété par une stratégie de contrôle hiérarchique, peut résoudre des problèmes difficiles sans aucune connaissance préalable.

Alors que les jeux Atari démontrent un large degré de diversité, ils sont limités à la 2D. Google a récemment introduit Labyrinth : une navigation 3D plus difficile avec des environnements de résolution d’énigmes. Encore une fois, l’agent observe des entrées à base de pixels dans son champ de vision, et doit comprendre la carte pour découvrir et exploiter des récompenses.

Étonnamment, l’algorithme de A3C réalise des performances au niveau humain, sur de nombreuses tâches de labyrinthe. Une autre approche basée sur la mémoire épisodique a également fait ses preuves. Labyrinth sera également publié en open source dans les prochains mois.

Des applications de tous les jours ?

Ils ont également développé un certain nombre de méthodes de RL profond pour les problèmes de contrôle en continu telles que la manipulation robotique et la locomotion (automobile). Leur algorithme Deterministic Policy Gradient Algorithmss (DPG) fournit un analogue aux DQN. Et surtout chez Google et Facebook, le RL es utilisé pour créer des nouvelles IA !

Concrètement, une voiture autonome apprend à conduire sans que nous l’avons programmé pour cela. Le réseau de neurone créer alors des « expériences » qu’il conserve et transmet aux autres voitures. Ainsi chaque voiture dans le monde possède les mêmes expériences simultanément. D’ailleurs Intel a fait conduire ses voitures autonomes sur le jeu GTA V.

Le jeu de Go est le plus difficile des jeux classiques. Malgré des décennies d’efforts, les méthodes antérieures avaient seulement atteint des performances de niveau amateur. Deep Mind a développé un algorithme de RL profond qui apprend à la fois un réseau de valeur (qui prédit le gagnant) et un réseau de politique (qui sélectionne les actions) à travers des jeux. AlphaGo, programme ses réseaux neuronaux profonds avec une recherche « state-of-the-art ».

Finalement en Octobre 2015, AlphaGo est devenu le premier programme à vaincre un joueur humain professionnel . En Mars 2016, AlphaGo défait Lee Sedol (le joueur le plus fort de la dernière décennie avec 18 titres mondiaux) par 4 jeux à 1, dans un match qui a été regardé par environ 200 millions de téléspectateurs.

Par ailleurs, ils ont également développé un jeu theorique par approches RL profonde , aboutissant à un joueur super-humain de poker en heads-up au No Limit Texas Hold’em.

De Atari à Labyrinthe, de l’automobile par la manipulation au poker et même le jeu de Go, les agents d’apprentissage de renforcement profond ont démontré des progrès remarquables sur une grande variété de tâches difficiles. Leur objectif est de continuer à améliorer les capacités de ces agents, et de les utiliser pour avoir un impact positif sur la société, dans des applications importantes telles que les soins et la santé.

Robot au service des Ressources Humaines

Entrepreneur, blogger, marketer, écrivain, les anglos-saxons disent que je suis un « slasher ». Je suis aussi un geek compulsif qui se soigne grâce à sa dose de Twitter et Youtube matin et soir.

Le robot qui voit si tu mens

Un brevet de 82 pages intitulé « Interactive Fact Checking System » vient en effet d’être déposé par LinkedIn. Comme son nom l’indique, il s’agit d’une vérification instantanée d’informations. Le système est capable de « vérifier l’exactitude des informations » en les comparants à d’autres informations trouvées sur Internet. Ensuite, une indication est donnée à l’utilisateur : en d’autres termes, si tu mens, LinkedIn pourra t’avertir. Le système pourra également interagir avec toi pour éviter les faux positifs et affiner la pertinence des alertes. Et le réseau social a prévu tout type de sources et de process pour vérifier les données : moteurs de recherche, messagerie, réseaux sociaux, reconnaissance vocale, faciale, biométrique, traduction de sources étrangères, etc.
Il sera aussi capable de vérifier les informations que tu donnes sur une entreprise. Ainsi, si tu indiques travailler pour « l’entreprise la plus rentable de son secteur » par exemple, le réseau social sera capable de vérifier cette information.

Continue reading

© 2023 Ludo LOUIS

Theme by Anders NorenUp ↑