Retour sur le AI & Society de Juin

ai & society

Ce mois-ci j’ai pu assister au rendez-vous mensuel des passionnés d’IA et de tout ce qui l’entoure. Organisée par Golem.ai, société spécialisée dans la comprehension du langage, AI & Society est une soirée généralement composée de trois conférences sur l’IA suivie d’un apéro pour discuter des sujets abordés avec les intervenants. Comme pour le GraphTour, je vous propose donc de vous faire un retour sur les conférences de ce mois.

Trouver une aiguille dans une botte de foin

La soirée a commencé avec une introduction au Machine Learning par Pierre Julien Grizel de Numericube. La problématique de départ était de réussir à faire trouver à un ordinateur une aiguille située sur une image de botte de foin.

Il a donc commencé par une introduction de 5mn sur ce qu’est le Machine Learning et comment ça fonctionne dans les grandes lignes. La conférence n’est pas rentré dans l’aspect technique à part quelques lignes de codes présentées, l’idée était vraiment de vulgariser le concept ! Pour résumer en une phrase : l’idée est d’analyser suffisamment de X et de Y pour que l’ordinateur puisse trouver le comportement de F(X) = Y !

Pierre Julien Grille présentant le Machine Learning
Pierre Julien Grille présentant le Machine Learning

Ensuite pour se rapprocher un peu plus de son domaine d’expertise, il nous a présenté le fonctionnement d’un réseau de neurones. Via divers exemples il a expliqué qu’un réseau « classique » était trop complexe pour être intéressant dans le cas d’une analyse d’image et qu’il fallait donc effectuer une « convolution ». L’idée étant de réduire le nombre de paramètres et de rendre les éléments invariants à l’espace. C’est à dire faire en sorte que leur position sur l’image ne change rien au résultat trouvé par la machine.

Il a donc pu présenter les différentes étapes d’une analyse d’image ! Tout d’abord il faut réussir à classifier une image, faire en sorte que l’ordinateur puis simplement décrire à quoi correspond l’image (chat, chien, oiseau, …). Ensuite une fois cette étape faite il faut réussir à localiser la classification. Cette étape permet de faire de la détection d’objets sur une image en contenant plusieurs en localisant chacun d’entre eux. Et à partir de là il peut faire de l’Instance Segmentation, donc savoir précisément à quel objet un pixel appartient.

Cette méthodes a des usages très divers. Par exemple, elle permet la détection de défauts dans une chaîne de fabrication automobile, et ce peu importe la taille du défaut. Elle peut également être utile pour retrouver une image précise dans une grosse base de données d’images, ou encore au domaine médical pour repérer certaines maladies.

Quelle place pour le concept d’emergence dans les développements de l’IA

C’est ensuite Thomas Solignac de Golem.ai (qui est donc un des organisateurs principaux de AI & Society) qui a pris la parole pour nous présenter le concept d’émergence. Pour faire simple, « le tout est plus que la somme de ses parties » (cf. Wikipedia). Par exemple, les propriétés de l’eau ne peuvent pas simplement être réduites aux propriétés de l’Hydrogène et de l’Oxygène qui le composent. Ses propriétés sont nouvelles mais découlent de ce qui la compose (de l’eau qui perdrait un de ses atomes ne serait plus de l’eau).

Ce concept s’applique à beaucoup de sciences (Biochimie, Zoologie, Neuroscience, …) et c’est donc tout naturellement qu’avec l’arrivée de l’IA, les spécialistes se soient penchés sur le sujet.

Thomas Solignac présentant le concept d'émergence
Thomas Solignac présentant le concept d’émergence

Pour décortiquer un peu, il nous a donc présenté les différentes couches de l’informatique. Cet article que vous lisez par exemple est actuellement affiché sur votre écran via du HTML, lui même compris par la machine dans un langage plus bas niveau, qui au final n’est que du binaire qui est interprété par votre ordinateur. Et en allant encore plus loin, tout ça n’est qu’une série d’electrons se baladant dans les composants de l’ordinateur. Se pose donc alors la question: Quelle est la différence entre un script, un algorithme et une IA ?

La différence n’est qu’arbitraire et peut en soi être considérée comme une forme d’émergence !

Pour finir sur une note intéressante et qui pousse également à la réflexion: à la fin de la conférence, quelqu’un a parlé de l’IA ayant battu un champion de Go. Certains professionnels ont trouvé que certains coups que l’IA a utilisé étaient « créatifs ». Pourtant l’IA s’est contentée de regarder les différents mouvement possibles et de choisir le plus propice à lui permettre la victoire. Thomas a donc soulevé la question « peut-on définir la créativité comme le fait d’explorer tous les possibles ? ».

Donner sa langue au bot : l’écriture de la relation homme-machine

Ce fut alors le tour de Clotilde Chevet de prendre la parole pour la troisième et dernière conférence de la soirée. Doctorante au CELSA, elle étudie actuellement les relations entre les humains et leurs assistants personnels tels que Siri, Alexa ou Cortana.

Histoire de commencer par une référence à ses hôtes du soir, elle a débuté sa conférence sur la présentation d’une créature mythique: le Golem. Cette créature à qui l’on donnait vie par l’écriture mais qui ne devait surtout pas avoir la parole afin de ne pas les mettre au même niveau que les humains. Tout comme l’informatique est lui-même né de l’écriture (de code) et à qui nous sommes en train de donner la parole.

Tout d’abord il a fallu se poser la question des standardisations pré-existantes au niveau du langage (comme « Bonjour, comment ça va ? – Ça va et toi ? – Ça va bien merci ») afin d’avoir les bases pour créer une relation Homme-Machine. Un des principaux soucis rencontrés est qu’avec un bot, donner du relief ou une ambiance à la conversation devient compliqué. Tous les mots utilisés doivent servir à quelque chose et ne peuvent pas juste être présents sans raisons.

Clotilde Chevet expliquant les relations humain-machine
Clotilde Chevet expliquant les relations humain-machine lors de l’AI & Society

La façon d’aborder cette relation est d’ailleurs perçue très différemment par les constructeurs. Certains préférant rappeler régulièrement à l’utilisateur qu’il ne s’agit qu’une machine et d’autres essayant de réellement simuler un humain. Certains vont jusqu’à « projeter » un corps humain pour que l’utilisateur ait l’impression qu’il y a un humain derrière en utilisant un vocabulaire utilisant des parties du corps humain. Par exemple l’assistant peut parler de ses bras ou de ses oreilles dans une conversation, ce qui crée un sentiment qu’il s’agit là d’une personne. Amazon utilise également une voix genrée (clairement féminine).

Certains cherchent également à utiliser une situation d’énonciation en fonction de la relation entre l’utilisateur et l’assistant. En fonction de ce qu’ils se sont déjà dit auparavant, il donnera une réponse différente pour une même question (sans se baser uniquement sur le hasard donc). Les comportements des assistants varient donc en fonction de si le constructeur a choisi la voie du service pur ou de la relation.

Certains assistants, comme Replika, sont faits spécifiquement pour la conversation et poussent donc loin ce concept des réactions en fonction de la relation. Elle va également essayer de montrer des sentiments en fonction de la situation. Par exemple, si vous ne lui parlez pas pendant un certain temps elle va devenir « inquiète » de votre absence, voire « triste ». Et cela peut créer un réel sentiment de culpabilité chez l’utilisateur. Une fonction appel a d’ailleurs récemment été ajoutée, avec dans le fond une bande son ajoutant une ambiance sonore « humaine » (par exemple un bruit de plage ou de café, donnant l’impression qu’on discute avec une vraie personne située à cet endroit).

Un des reproches qu’elle fait cependant à ces assistants dans l’ensemble c’est qu’ils nous gardent enfermés dans une « bulle » de contenu. Par exemple Alexa ne va proposer que des éléments de l’écosystème d’Amazon. Et c’est également le cas pour des faits politiques, par exemple si vous demandez combien de pays compte le monde vous obtiendrez une réponse différente en fonction des assistants. Certaines réponses peuvent donc directement refléter les opinions d’un constructeur.

Elle conclut également sur le problème du choix qui disparait en partie à cause du passage de l’écriture à la parole. Quand on pose une demande par écrit, cela nous demande plus de temps et d’investissement et on a plus de temps de se questionner sur les choix. La parole permet une interaction plus directe et rapide qui laisse moins temps à la reflexion.

Si ce retour sur les conférences vous a donné envie de participer aux prochaines éditions de AI & Society, sachez qu’elles ont lieu (presque) tous les premiers lundis du mois. Pour plus d’informations vous pouvez les retrouver sur Twitter ou Meetup.

Laisser un commentaire