Parcourir les annonces Parcourir les étudiants Publier une annonce Ajouter un CV

De l’interprétabilité des réseaux de neurones

Rémunération
N/C
Lieu

CMAP - Ecole Polytechnique ou LPSM Sorbonne Université

Date de début
N/C
Date de fin
N/C

De l’interprétabilité des réseaux de neurones
Encadrants : Claire Boyer & Erwan Scornet
Contexte. L’intelligence artificielle est désormais au coeur de la société. Fondée sur le traitement
des données, elle s’appuie sur des algorithmes d’apprentissage automatique afin de résoudre des
problèmes qui semblent nécessiter une intelligence humaine (classification d’images, reconnaissance
faciale, apprentissage des jeux de go, d’échecs, suivi de personnes dans des foules...).
Les réseaux de neurones profonds (Deep Learning) comptent parmi les procédures d’IA les plus
efficaces et les plus utilisées en pratique. Afin d’inventer de nouveaux algorithmes plus performants
ou permettant de traiter des tâches plus complexes, il est nécessaire de bien comprendre les limites
des algorithmes existants. Malheureusement, les performances empiriques des réseaux de neurones
sont sans commune mesure avec la compréhension théorique que l’on possède sur ces méthodes : un
long chemin reste à parcourir pour tenter de percer leurs mystères.
Cette compréhension théorique s’avère également primordiale pour appliquer les réseaux de neurones
à des domaines sensibles comme par exemple la santé (aide à la décision quant au traitement
à apporter à un patient) pour lesquels une bonne performance prédictive ne suffit pas mais doit
s’accompagner d’explications concernant le traitement conseillé par l’algorithme. Le manque d’interprétabilité
des réseaux de neurones induit donc des restrictions quant à leur utilisation pratique.
Descriptif du stage. Ce sujet de stage se concentre donc sur l’interprétabilité des réseaux de neurones,
qui revêt de multiples définitions [10, 7, 4, 8]. Cependant, il est possible de définir des exigences
minimales pour l’interprétabilité grâce au triptyque \\\"simplicité, stabilité et prédictivité\\\" [16]. La prédictivité
des réseaux de neurones n’étant plus à démontrer, nous allons d’abord nous concentrer sur
la création de réseaux de neurones simples et stables, tout en conservant de bonnes performances
prédictives. Le stage se concentre sur la création de réseaux de neurones simples.
Tâche 1 : Simplicité et arbres de décision
Concevoir des réseaux de neurones simples et profonds en tirant partie de la connexion avec les
arbres de décisions.
Un premier axe du stage afin de simplifier les réseaux de neurones et gagner en interprétabilité
est de tirer parti du lien existant entre réseau de neurones et arbre de décision. Les arbres de décisions
sont des algorithmes de machine learning très utilisés pour leur bon pouvoir prédictif ainsi que leur
simplicité. Plusieurs articles [12, 2, 13, 3] ont montré que les arbres de décision peuvent être réécrits
comme des réseaux de neurones à deux couches cachées et que cette réécriture conduit à un gain
de prédictivité [15, 9]. Une façon d’initialiser le réseau de neurones est donc d’entraîner un arbre
de décision sur le jeu de données d’entraînement et d’utiliser l’arbre ainsi appris pour initialiser les
connexions du réseau. Le réseau pouvant se complexifier au cours de l’apprentissage et s’éloigner
de la structure d’arbre initiale, des procédures de relaxation convexe peuvent être employées afin de
conserver le même nombre de paramètres et la structure simple d’arbre au cours de l’apprentissage.
On obtiendrait dans ce cas un réseau de neurones à deux couches cachées relativement simple.
En pratique, les réseaux de neurones montrant les meilleures performances sont des réseaux de
neurones profonds. L’analogie entre arbres et réseaux de neurones peut être étendue facilement à des
réseaux de neurones plus profonds (par exemple en utilisant des connexions raccourcies à la manière
de ResNet [6]). Conserver la simplicité du réseau de neurones au cours de l’apprentissage est alors
1
une tâche plus ardue que nous tenterons de traiter au moyen de techniques de pénalisation qui seront
mises en oeuvre dès le début du projet.
Tâche 2 : Simplicité et importance des variables
Analyser et proposer de nouvelles heuristiques concernant l’utilisation des indices d’importances
dans les réseaux de neurones.
Une autre approche consiste, non pas à modifier l’architecture des réseaux pour qu’ils intègrent la
contrainte de simplicité (au risque éventuel de réduire leur pouvoir prédictif), mais à développer des
méthodes de post-traitement pour disséquer l’algorithme et ainsi comprendre ses prédictions. Des
mesures d’importances sont largement utilisées en pratique [14, 1, 5] afin de quantifier l’importance
d’une variable d’entrée sur la variable de sortie. Aucun résultat théorique ne porte sur l’importance
des variables dans les réseaux de neurones, même en considérant un cadre extrêmement simplifié.
Une analyse théorique de ces indices d’importance permettrait à la fois d’exhiber des contextes
dans lesquels les mesures de performances visent réellement des quantités pertinentes pour évaluer
l’impact d’une variable d’entrée sur la prédiction, mais également de proposer des corrections à ces
mesures de performances dans certaines situations pathologiques.
On se penchera alors sur l’étude de la consistance de ces indices au moyen des techniques développées
dans [11]. Cet axe de recherche comporte, en tant que tel, des applications directes, permettant
alors de proposer aux praticiens des lignes directrices claires sur l’utilisation de cet indicateur.
Informations supplémentaires
— Pré-requis : la ou le candidat(e) devra être très motivé(e), pour entreprendre ce stage à
la fois théorique et numérique. Les principales notions abordées feront appel à des outils
de probabilités, statistique, mathématiques et optimisation. Il nécessite une excellente
formation en mathématiques appliquées, ainsi que la maîtrise du langage de programmation
Python pour le calcul scientifique et l’analyse de données.
— Localisation : le stage sera localisé au CMAP, à l’École polytechnique, ou au LPSM à
Sorbonne Université.
— Poursuite en thèse : en fonction de son déroulement, le stage pourra déboucher sur une
thèse autour de cette même thématique.
— Contact :
claire.boyer@upmc.fr
erwan.scornet@polytechnique.edu
Merci de nous faire parvenir votre CV avec relevés de note dès votre premier email.
Références
[1] André Altmann, Laura Tolo¸si, Oliver Sander, and Thomas Lengauer. Permutation importance :
a corrected feature importance measure. Bioinformatics, 26(10) :1340–1347, 2010.
[2] R.P. Brent. Fast training algorithms for multi-layer neural nets. IEEE Transactions on Neural
Networks, 2 :346–354, 1991.
[3] L. Devroye, L. Györfi, and G. Lugosi. A Probabilistic Theory of Pattern Recognition. Springer, New
York, 1996.
[4] F. Doshi-Velez and B. Kim. Towards a rigorous science of interpretable machine learning.
arXiv :1702.08608, 2017.
[5] Amirata Ghorbani, Abubakar Abid, and James Zou. Interpretation of neural networks is fragile.
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 3681–3688, 2019.
2
[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image
recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages
770–778, 2016.
[7] Z.C. Lipton. The mythos of model interpretability. arXiv :1606.03490, 2016.
[8] W.J. Murdoch, C. Singh, K. Kumbier, R. Abbasi-Asl, and B. Yu. Interpretable machine learning :
Definitions, methods, and applications. arXiv :1901.04592, 2019.
[9] D.L. Richmond, D. Kainmueller, M.Y. Yang, E.W. Myers, and C. Rother. Relating cascaded
random forests to deep convolutional neural networks for semantic segmentation.
arXiv :1507.07583, 2015.
[10] S. Rüping. Learning interpretable models. PhD thesis, Universität Dortmund, 2006.
[11] Erwan Scornet. Trees, forests, and impurity-based variable importance. arXiv preprint
arXiv :2001.04295, 2020.
[12] I.K. Sethi. Entropy nets : From decision trees to neural networks. Proceedings of the IEEE, 78 :1605–
1613, 1990.
[13] I.K. Sethi. Decision tree performance enhancement using an artificial neural network interpretation.
In I.K. Sethi and A.K. Jain, editors, Artificial Neural Networks and Statistical Pattern
Recognition, volume 6912, pages 71–88. Elsevier, Amsterdam, 1991.
[14] AH Sung. Ranking importance of input parameters of neural networks. Expert systems with
Applications, 15(3-4) :405–411, 1998.
[15] J.Welbl. Casting random forests as artificial neural networks (and profiting from it). In X. Jiang,
J. Hornegger, and R. Koch, editors, Pattern Recognition, pages 765–771. Springer, 2014.
[16] B. Yu and K. Kumbier. Three principles of data science : Predictability, computability, and stability
(pcs). arXiv :1901.08152, 2019.
3


Editer