FAQ

Pourquoi est-il important pour les data scientists de rechercher la transparence ?

La transparence est essentiellement importante dans les projets de science des données et les programmes d'apprentissage automatique, en partie à cause de la complexité et de la sophistication qui les animent — parce que ces programmes « apprennent » (générant des résultats probabilistes) plutôt que de suivre des instructions de programmation linéaire prédéterminées, et parce que par conséquent, il peut être difficile de comprendre comment la technologie parvient à des conclusions. Le problème de la « boîte noire » des algorithmes d’apprentissage automatique, qui ne sont pas entièrement explicables aux décideurs humains, est un problème majeur dans ce domaine.

Dans cet esprit, la capacité à maîtriser l’apprentissage automatique explicable ou « l’IA explicable » sera probablement un objectif principal dans la manière dont les entreprises poursuivent l’acquisition de talents pour un data scientist. La DARPA, l’institution qui nous a donné Internet, finance déjà une étude de plusieurs millions de dollars sur l’IA explicable, essayant de promouvoir les compétences et les ressources nécessaires pour créer des technologies d’apprentissage automatique et d’intelligence artificielle transparentes pour les humains.

Une façon d’y penser est qu’il existe souvent une « étape d’alphabétisation » dans le développement des talents et une « étape d’hyperalphabétisation ». Pour un data scientist, l’étape d’alphabétisation traditionnelle consisterait à savoir comment élaborer des programmes d’apprentissage automatique et comment créer des algorithmes avec des langages comme Python ; comment construire des réseaux de neurones et travailler avec eux. L’étape d’hyperalphabétisation serait la capacité à maîtriser l’IA explicable, à assurer la transparence dans l’utilisation des algorithmes d’apprentissage automatique et à préserver la transparence alors que ces programmes travaillent vers leurs objectifs et ceux de leurs gestionnaires.

Une autre façon d'expliquer l'importance de la transparence dans la science des données est que les ensembles de données utilisés deviennent de plus en plus sophistiqués, et donc potentiellement plus intrusifs dans la vie des gens. Un autre moteur majeur de l’apprentissage automatique explicable et de la science des données est le règlement général européen sur la protection des données qui a été récemment mis en œuvre pour tenter de freiner l’utilisation contraire à l’éthique des données personnelles. En utilisant le RGPD comme cas de test, les experts peuvent voir comment la nécessité d'expliquer les projets de science des données s'inscrit dans les préoccupations de confidentialité et de sécurité, ainsi que dans l'éthique des affaires.