Parcourir les annonces Parcourir les étudiants Publier une annonce Ajouter un CV

STAGE – EDF – IA – Representation Learning (Réseaux de neurones pré-entrainés et séries temporelles multivariées)

Rémunération
N/C
Lieu

7 boulevard Gaspard Monge, 91120 Palaiseau

Date de début
N/C
Date de fin
N/C

La R&D d'EDF a pour missions principales de contribuer à l'amélioration de la performance des unités opérationnelles du Groupe EDF, d'identifier et de préparer les relais de croissance à moyen et long termes. Dans ce cadre, le département ICAME (Innovation Commerciale Analyse des Marchés et de leur Environnement) est un département pluridisciplinaire (sciences de l'ingénieur, sciences humaines et sociales) qui fournit un appui à l'élaboration et au portage des offres, des services et des outils aux Directions opérationnelles du Groupe EDF. Au sein de ce département, le stage sera rattaché au groupe SOAD (Statistiques et Outils d'Aide à la Décision) qui compte une vingtaine d'ingénieurs chercheurs spécialisés en data science, data engineering, informatique décisionnelle et text mining ayant pour mission de construire et mettre en oeuvre les méthodes d'analyse, de fouille et d'enrichissement de données volumineuses d'origines multiples, structurées ou complexes. Le(a) stagiaire sera amené(e) à interagir et évoluer dans un cadre collaboratif avec d’autres chercheurs travaillant sur des problématiques communes au Groupe EDF.

Objectif

L'objectif de ce stage est d’étudier et de construire des espaces de représentation de séries temporelles, permettant de préparer des réseaux de neurones pré-entrainés sur ces dernières. Ces réseaux seront ensuite utilisés pour construire des modèles d’apprentissage de classification et de régression de séries temporelles (univariées ou multivariées) pour répondre à des cas d’application EDF. Plus précisément, il s’agira :

  1. Dans un premier temps de faire un état de l’art sur les architectures de réseaux de neurones pré-entrainés sur des séries temporelles univariées ou multivariées et de s’approprier les représentations « classiques » des séries temporelles, par exemple [1-].
  2. Dans un deuxième temps, de construire de tels réseaux pré-entraînés sur des données temporelles EDF (courbes de charges, mesures météorologiques, données de capteurs, etc.) à l’image de ceux existants pour les images [5] et, de les expérimenter sur des applications telles que la détection de la présence de chauffage électrique. L’utilisation de données complémentaires de nature différente (ex. des images) pourra être envisagée en fonction des cas d’application.

[1] Tak-Chung Fu. "A review on time series data mining". Eng. Appl. Artif. Intell, p; 164-181, 2011.

[2] Wang, X., Mueen, A., Ding, H. et al. "Experimental comparison of representation methods and distance measures for time series data". Data Min Knowl Disc 26, 275–309 (2013).

[3] Paparrizos J., Franklin, M., “GRAIL: Efficient Time-Series Representation Learning”, Proceedings of VLDB 2019.

[4] Franceschi J.Y., Dieuleveut A., Jaggi M., Unsupervised Scalable Representation Learning for Multivariate Time Series, https://arxiv.org/pdf/1901.10738.pdf

[5] K. He, X. Zhang, S. Ren and J. Sun, "Deep Residual Learning for Image Recognition," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016, pp. 770-778.

Compétences requises

  • Niveau d’étude : M2, Ecole d’Ingénieur ou équivalent
  • Domaines de compétences : data science, machine learning, statistique.
  • Une bonne connaissance des réseaux de neurones et de leurs applications serait un plus.
  • Bonne connaissance en programmation Python
  • Travail en équipe, aisance rédactionnelle, dynamique, motivé

Informations pratiques

Unité d’accueil : Groupe SOAD (Statistique et Outils d’Aide à la Décision), département ICAME d’EDF Lab Paris-Saclay, 7 boulevard Gaspard Monge, 91120 Palaiseau.

Début souhaité : le plus tôt possible en 2020.

Encadrement : Ghislain Agoua (Ingénieur de recherche), Georges Hebrail (chercheur senior)

Transmettre par mail un CV, une lettre de motivation et les bulletins de notes à : ghislain.agoua@edf.fr

Ci-dessous des exemples de travaux en Data Science publiés par notre équipe :

  • DenseNets for Time Series Classification: towards automation of time series pre-processing with CNNs. G Richard, G Hébrail, M Mougeot, N Vayatis, MileTS ’19: 5th KDD Workshop on Mining and Learning from Time Series, ACM, 2019. https://milets19.github.io/papers/milets19_poster_4.pdf
  • Nonnegative matrix factorization with side information for time series recovery and prediction, Mei J., De Castro Y., Goude Y., Azaïs J. M. and Hebrail G., in IEEE Transactions on Knowledge and Data Engineering, 2018. https://arxiv.org/abs/1709.06320
  • A Data Lake and a Data Lab to Optimize Operations and Safety Within a Nuclear Fleet. Marie-Luce Picard, Jean-Marc Rangod, Christophe Salperwyck. Hadoop Summit 2016, California, USA, June 2016: http://fr.slideshare.net/HadoopSummit/a-data-lake-and-a-data-lab-to-optimize-operations-and-safety-within-a-nuclear-fleet
  • Exploring Titan and Spark GraphX for Analyzing Time-Varying Electrical Networks. Guillaume GERMAINE, Thomas Vial, Hadoop Summit 2016, Dublin. http://fr.slideshare.net/HadoopSummit/exploring-titan-and-spark-graphx-for-analyzing-timevarying-electrical-networks
  • Vidéo: https://www.youtube.com/watch?v=Xk8UPECiMSw
  • CourboSpark: Decision Tree for Time-series on Spark. Christophe Salperwyck, Simon Maby, Jérôme Cubillé, Matthieu Lagacherie, Hadoop Summit 2015, Dublin, https://speakerdeck.com/simonmaby/courbospark-decision-tree-for-time-series-on-spark
    Vidéo: https://www.youtube.com/watch?v=GNtU-kVL5xI
  • Computing Data Quality Indicators on Big Data Stream Using a CEP. Wenlu Yang, Alzennyr Gomes Da Silva, Marie-Luce Picard, IEEE Xplore - IWCIM 2015, Prague, Novembre 2015. https://tel.archives-ouvertes.fr/LIP6/hal-01367862v1
  • Real-time energy data-analytics with Storm. Rémy Saissy, Marie-Luce Picard, Charles Bernard, Bruno Jacquin, Simon Maby, Benoît Grossin, Hadoop Summit 2014, Californie, USA, 2014. http://fr.slideshare.net/Hadoop_Summit/t-525p212picard
  • HETA: Hadoop environment for text analysis. Vincent Nicolas, Alzennyr Gomes da Silva, Marie-Luce Picard, IWCIM (International Workshop on Computational Intelligence for Multimedia Understanding), IEEExplorer, 2014, 10.1109/IWCIM.2014.7008803
  • Smart Metering x Hadoop x Frost: A Smart Elephant Enabling Massive Time Series Analysis. Benoît Grossin, Marie-Luce Picard, Hadoop Summit Europe 2013, Amsterdam, Mars 2013. http://hadoopsummit.org/amsterdam/
  • Searching time-series with Hadoop in an electric power company. Alice Bérard, Georges Hébrail, BigMine Workshop, KDD2013, Chicago, August 2013. http://bigdata-mining.org/
  • Simulation and forecasting electricity demand at scale. Alexis Bondu, Yannig Goude, Marie-Luce Picard, Pascal Pompey, Mathieu Sinn, European Utility Week, Amsterdam, October 2013.http://www.european-utility-week.com/
  • Empower agile BI & analytics for utilities with a total data approach. Marie-Luce Picard, Bruno Jacquin, Teradata Partners Conference, Dallas, October 2013. http://www.teradata-partners.com
  • A proof of concept with Hadoop: storage and analytics of electrical time-series. Marie-Luce Picard, Bruno Jacquin, Hadoop Summit 2012, Californie, USA, 2012. http://www.slideshare.net/Hadoop_Summit/proof-of-concent-with-hadoop
  • Massive Smart Meter Data Storage and Processing on top of Hadoop. Leeley D. P. dos Santos, Alzennyr G. da Silva, Bruno Jacquin, Marie-Luce Picard, David Worms,Charles Bernard. Workshop Big Data 2012, Conférence VLDB (Very Large Data Bases), Istanbul, Turquie, 2012. http://www.cse.buffalo.edu/faculty/tkosar/bigdata2012/program.php

Vous devrez avoir ces compétences :


Editer