Cours présenté par : Jérémie Sublime (ISEP), Raja Chiky (ISEP) & Alexis Bondu (Orange Lans)
Nombre d’ECTS : 5

Objectifs

  • Introduction aux concepts autour des flux de données (data stream)
  • Introduction et pratique sur les systèmes de gestion de flux de données (DSMS: Data Stream Management Systems)
  • Techniques de résumés de flux de données (échantillonnage, sketch, etc.)
  • Techniques et technologies d’apprentissage pour les flux de données massives avec mise en pratique

Descriptif du cours

Ce cours s’articule autour de techniques permettant le traitement et l’analyse de grands flux de données. Il s’agit de prendre du recul afin de comprendre les spécificités et problématiques de ce type de données, les différents types de streams existants, quels sont les modèles théoriques existants pour les modéliser, et quels outils existent pour les traiter en théorie et en pratique.

Après la présentation théorique de ce que sont les flux de données, le cours aborde la problématique des flux de données sous deux angles :

  • Une approche théorique sur l’adaptation d’algorithmes de Machine Learning et de Data Mining pour traiter de telles données, avec toutes les problématiques qui y sont liées : traitement en temps réel, traitement en une seule passe, et échantillonnage de données.
  • Une approche pratique présentant les technologies, logiciels et systèmes de management utilisés pour gérer de telles données.

Sur le plan pédagogique, le cours comportera 6 séances de cours et TP en alternance, suivie par une 7ème séance consacrée à la présentation d’articles scientifiques récents sur le sujet du Data Streaming.

Prérequis : 

  • SQL de base
  • Bases en programmation Java recommandées
  • Notions de Machine Learning (apprentissage supervisé et non-supervisé)

Note finale : 2/3 de contrôle continu en TP et 1/3 présentation d’un article scientifique.