PRESENTATION

Le contexte

Un marché confronté à la pénurie de “Data Scientists”

Le Big Data marque le début d’une transformation majeure, qui va affecter de façon profonde l’ensemble des secteurs (de l’e-commerce à la recherche scientifique en passant par la finance et la santé). L’exploitation de ces immenses masses de données nécessite des techniques associant mathématiques et informatique sophistiquées visant à extraire l’information pertinente. Les entreprises font aujourd’hui face à des difficultés croissantes pour recruter les “Data Scientists” capables d’appréhender ces enjeux et de gérer cette question stratégique pour leur développement. Le Big Data est un enjeu transverse qui impacte de nombreux secteurs de l’économie : grande distribution, services publics, industrie high-tech, secteur bancaire et financier ou encore secteur biomédical avec l’avènement de la médecine individualisée.

Pour Frank Pacard, directeur de l’Enseignement et de la Recherche à l’École polytechnique, “la croissance exponentielle du marché du Big Data génère une forte demande de recrutement sur des profils rares. Ce Master, basé sur un enseignement équilibré entre mathématiques appliquées, informatique et formation professionnalisante, comblera ce manque en délivrant aux étudiants le socle scientifique de connaissances et les compétences techniques pour gérer des données massives. Nous nous félicitons de cette collaboration unique, tirant le meilleur de l’X, de Télécom ParisTech et de partenaires telle l’Université Paris-Sud pour former les profils polyvalents et pluridisciplinaires dont les entreprises ont besoin.

Pour Patrick Duvaut, Directeur de la Recherche à Télécom ParisTech, “ce Master vise à former des experts dans la science des données, capables non seulement de concevoir des nouveaux algorithmes d’analyse et de prédiction qui supportent le passage à l’échelle, mais aussi susceptibles de répondre aux besoins opérationnels des entreprises liés au Big Data. Il bénéficiera de l’effet d’entraînement des nombreuses chaires de recherche et d’enseignement autour des data sciences et du Big Data à l’X et Télécom ParisTech. Ce Master s’inscrit dans les initiatives (en formation, recherche et valorisation) destinées à faire de l’Université ParisSaclay une des plaques tournantes de la Science des Données en France et en Europe.”

Un programme d’enseignement couvrant toutes les facettes du Big Data

(Extrait de “Dessine moi un Data Scientist”, 8 leçons pour le recruteur, Compétences recherchées en DataSciences par N. Gibaud)

La maîtrise des outils de base en statistique est indispensable à qui prétend savoir décrire et analyser des données savoir ce qu’est une distribution de probabilité, comprendre les principes de la régression et de l’analyse par maîtriser les tests statistique ou encore savoir en quoi consiste une estimation bayésiennes sont autant de points qu’il faut avoir parfaitement assimilés. C’est le socle sur lequel nous nous appuierons.

Intimement lié aux statistiques l’apprentissage statistique (ou machine Learning) est un des fondamentaux de la science des données il est indispensable d’en connaître les grands principes : la différence entre apprentissage supervisé et non supervisé les notions de sur-apprentissage et de validation croisée. Une bonne connaissance des algorithmes classiques est également indispensable: arbre de décisions, machines vecteurs de support, réseau de neurones…

On ne peut pas se prétendre datascientist sans compétences en développement et en architecture informatique. En particulier la maîtrise d’un langage de script comme Python ou R est absolument indispensable. Un data scientist doit  être capable de pouvoir développer tester et valider ses modèles en autonomie. A  cela s’ajoute la connaissance d’un panel d’outils IT de fouille de données.. Il faut aussi acquérir des compétences sur les outils de stockage et de traitement des données: savoir manipuler un système  de gestion de données relationnelles (SQL) ou non relationnelles (technologies NoSQL comme Cassandra ou MongoDB), connaître les nouvelles technologies de calcul distribué et parallèle: MapReduce, écosystème Hadoop (Hive, Pig, etc), du calcul parallèle ou inmemory (Spark) ou de l’indexation (ElasticSearch).

Les enseignements auront lieu à l’X (Campus de Palaiseau) , à Télécom ParisTech (Paris, 13e arrondissement), à l’ENSAE et à Paris Sud. Ce parcous du Master Mathématiques et Applications de l’université Paris Saclay est un élément de réponse aux attentes du plan Big Data initié par le gouvernement et qui appelait la création de formations en Data Sciences. Le programme souhaite ainsi répondre aux besoins des entreprises et combler le déficit en experts dans un secteur aujourd’hui stratégique.

Public visé et Prérequis

Le parcours de Data Science est destinée à des étudiants ayant des connaissances de niveau M1 en mathématiques appliquées ou en informatique avec des prérequis en statistique ou en machine learning. Il constitue un parcours de haut niveau scientifique équilibré entre la théorie et la mise en oeuvre. L’objectif de formation est aussi bien la poursuite en doctorat que le début d’une carrière de datascientists.