STRUCTURE DES ENSEIGNEMENTS

Etablissements partenaires

  • ENSAE ParisTech
  • ENSTA-ParisTech (ENSTA)
  • Ecole Polytechnique (X)
  • Télécom-ParisTech (Télécom)
  • Université Paris Sud (UPSud)
  • Ecole Centrale d’Electronique (ECE)
  • Institut supérieur d’électronique de Paris (ISEP)

Coordinateur(s) et établissement(s)

  • Florence D’ALCHE BUC, Télécom ParisTech
  • Erwan LE PENNEC, École Polytechnique, Centre Mathématiques Appliquées
  • Eric MOULINES, École Polytechnique, Centre Mathématiques Appliquées, responsable de la formation
  • Michalis Vazirgiannis, École Polytechnique, Laboratoire d’Informatique de l’X (LIX)
  • Arnak Dalalyan, ENSAE ParisTech
  • Christophe Giraud, Université ParisSud
  • Salim Nahle, Ecole Centrale d’Electronique

Langue : français et anglais

Lieux principaux d’enseignement

  • Université Paris-Sud
  • Ecole Polytechnique
  • ENSAE ParisTech
  • Télécom ParisTech

Objectifs

Le Big data marque le début d’une transformation majeure, qui va affecter de façon profonde l’ensemble des secteurs (de l’e-commerce à la recherche scientifique en passant par la finance et la santé). L’exploitation de ces immenses masses de données nécessite des techniques mathématiques sophistiquées visant à extraire l’information pertinente. L’ensemble de ces méthodes forme le socle de la « science des données » (ou data science). Ce passage des données aux connaissances est porteur de nombreux défis qui requièrent une approche interdisciplinaire. La « science des données » s’appuie fortement sur le traitement statistique de l’information : statistiques mathématiques, statistiques numériques, apprentissage statistique ou machine learning. De l’analyse de données exploratoires aux techniques les plus sophistiquées d’inférence (modèles graphiques hiérarchiques) et de classification ou de régression (deep learning, machine à vecteurs de support), une vaste palette de méthodes de statistiques mathématiques et numériques et d’apprentissage est mobilisée. Ces méthodes, pour pouvoir être développées à l’échelle de masses de données requièrent la maitrise des mécanismes de distribution des données et des calculs à très grande échelle. Les mathématiques appliquées (analyse fonctionnelle, analyse numérique, optimisation convexe et non convexe) ont également un rôle essentiel à .jouer. D’un point de vue applicatif, la « science des données » impacte fortement de nombreux secteurs. Il existe actuellement partout dans le monde un large déficit de “Data Scientists” et “Data Analysts”. Les étudiants issus de formations en science des données et “Big Data” sont donc très attendus sur le marché de l’emploi. Ce marché de l’emploi est mondial et concerne à la fois les économies développées et émergentes. A l’instar de tous les domaines d’innovations de ruptures (biotechnologies, e-médecine), le besoin d’ingénieurs de très haut-niveau et de doctorants est également important.   Programme soumis à modification

1ere période (Septembre-Décembre)

20 ECTS à valider à choisir dont le Data Camp I (obligatoire) (Attention, il n’y a pas de compensation entre les modules… mais vous avez le droit de vous inscrire à plus de 20 ECTS)

  • Systems for Big Data Analytics (5 ECTS, 40 H) [Monday 14h30-18h30] [Yanlei Diao, Ecole Polytechnique, Cours à Télécom ParisTech, (en anglais)
  • Big Data Frameworks (5 ECTS, 40 H) [14h30-18h45] [Salim Nahle, Ecole Centrale d’Electronique, Cours à l’Ecole Centrale d’Electronique, Numerus Clausus: 20] 
  • Theoretical guidelines for high-dimensional data analysis (2.5 ECTS, 20H) [Thursday 11h00-13h00 15h00-17h00 from November] [Christophe Giraud, Université ParisSud, cours à l’Université ParisSud, Français ou Anglais, Numerus Clausus: 50]
  • Machine Learning: from theory to practice (5 ECTS, 40H) [Friday 08h30-12h45] [Erwan Le Pennec, Ecole Polytechnique, Florence d’Alche Buc, Telecom ParisTech, cours à l’Ecole Polytechnique]
  • Optimisation for Data Science (5 ECTS, 40H) [Monday 08h30-12h45] [Alexandre Gramfort, INRIA, Robert Gower, Telecom ParisTech, cours à Telecom ParisTech] (en anglais)
  • Statistical Learning Theory (2.5 ECTS, 20H) [Thursday 11h00-13h00 15h00-17h00 till October] [Arnak Dalalyan, ENSAE, Cours à l’ENSAE, Français ou Anglais]
  • Graphical Models for large scale content access (2.5 ECTS, 21H) [Wednesday 14h30-18h45 from 23/11 to 18/01]  [François Yvon, Université ParisSud, Français]
  • Introduction to Graphical Models (2.5 ECTS, 21h) [Wednesday 14h30-18h45 till mid November] [Umut Şimşekli, Telecom ParisTech, cours à Telecom ParisTech] (en anglais)
  • Methods for Big Data Analytics (5 ECTS, 40H) [Tuesday 08h30-12h45] [Michalis Vazirgiannis, Ecole Polytechnique, Cours à l’Ecole Polytechnique] (en anglais)
  • Data Camp (2.5 ECTS, 40H) [Balazs Kegl, CNRS, Alexandre Gramfort, INRIA, Cours à l’Ecole Polytechnique, Anglais, 1 semaine bloquée: obligatoire]
  • Introduction to Bayesian learning (2.5 ECTS, 21h) [Anne SABOURIN, Télécom)

Semaine d’examen: 3 Janvier – 7 Janvier (suivant les modalités de validation des modules)

2nd semestre (Janvier-Avril)

Enseignements facultatifs (minimum 20 ECTS au choix… de préférence plus pour compenser crédits manquants):

  • Structured Data: Learning and Prediction (5 ECTS) [Florence d’Alché-Buc et Slim Essid, Télécom ParisTech], Telecom, Lundi matin
  • Advanced optimisation methods and monotone operators (2,5 ECTS) [Pascal Bianchi et Olivier Fercoq, Télécom ParisTech], Telecom, Lundi après-midi
  • Introduction mathématique au compressed sensing (2,5 ECTS) [Guillaume Lecué, ENSAE] ENSAE, Mardi
  • Learning with Aggregation  (2,5 ECTS) [Pierre Alquier, ENSAE], ENSAE Mardi
  • Sequential Learning and sequential optimization (5 ECTS) [G. Stoltz, HEC, cours joint M2 Mathématiques Appliquées, filières Mathématiques de l’Aléatoire et  Optimisation), Paris Sud, Mercredi Matin
  • Machine Learning, Business case (5 ECTS) [Cyril Veron, Nicolas Eid, WAVESTONE], Télécom ParisTech, Jeudi après-midi (Numerus Clausus 35)
  • Advanced Learning for text and graph data  (5 ECTS) [Michalis Varzigiannis, X, cours joint M2 Mathématiques Appliquées, filière MVA], jeudi après-midi
  • Optimisation et Statistique (5 ECTS) Francis Bach (cours joint M2 optimisation et MDA)  Paris Sud, Jeudi après-midi (Numerus Clausus 40 / Prérequis obligatoires: un cours sur les Chaines de Markov et Martingales)
  • Deep Learning (5ECTS) [Charles Ollion, Heuritech, Olivier Grisel, INRIA] , Telecom, Vendredi matin
  • Estimation Bayésienne non paramétrique (5ECTS) [Vincent Rivoirard, Dauphine] (cours joint M2 MDA) Paris Sud, Vendredi matin(Numerus Clausus 10 / Prérequis obligatoire :statistique bayésienne paramétrique, régression non-paramétrique à noyau, théorèmes de convergence en proba (début Billingsley)
  • 1 UE d’ouverture (5 ECTS) au choix dans le parcours Mathématiques et Applications (sous réserve de validation par l’équipe pédagogique)

Stage obligatoire: (Mai-Septembre)

  • Stage d’une durée minimale de 14 semaines (20 ECTS)