Parcourir les annonces Parcourir les étudiants Publier une annonce Ajouter un CV

Du mobile à la personne : construire des indicateurs de présence représentatifs à partir des données des téléphones mobiles

Rémunération
N/C
Lieu

MONTROUGE OU VELIZY

Date de début
N/C
Date de fin
N/C

Les équipes SSP Lab (Insee, Montrouge) et Big Data Lab (Bouygues Telecom, Vélizy)
Dans le Big Data Lab de la Direction Innovation & Big Data de Bouygues Télécom, des indicateurs de présence et de mobilité sont produits à partir des données massives de l’opérateur. D’autre part, la production d’indicateurs robustes de population présente est un objectif poursuivi par les instituts statistiques à travers leur réseau européen, et le SSP Lab est engagé dans ces réflexions. Vous travaillerez en lien avec les deux équipes pour améliorer la méthodologie de redressement des indicateurs, en tirant le meilleur parti de l’analyse de données massives et variées.
Contexte
Le territoire de résidence est une clé de redressement pour pouvoir inférer des mouvements des mobiles d’un opérateur celui de la population totale. Cette étape est particulièrement cruciale pour la fiabilité du résultat. La taille de la maille géographique du territoire de résidence considéré est le résultat d’un arbitrage entre représentativité et précision : un nombre minimal de mobiles « résidents » par maille est nécessaire pour assurer la stabilité des résultats, mais plus la taille de celle-ci est importante, et plus l’hypothèse d’homogénéité des mobilités des résidents est contestable.
Objectifs du stage
L’objectif du stage sera de mener une réflexion sur le poids associé à chaque mobile dans l’estimateur final, et trouver un maillage optimal adapté à chaque cas d’étude dépendant de la répartition et de l’usage des mobiles dans l’espace. Les pistes méthodologiques suivantes pourront être explorées (attendus : revue de la littérature, définition d’une méthode, validation par la preuve) :
•Revue des méthodes pour traiter la sélection dans les sources Big Data, et la fusion avec les données officielles pour améliorer la représentativité [1]
•Clustering spatial [2] pour définir des zones optimales, en s’inspirant par exemple de l’algorithme quadtree [2] de partitionnement de l’espace qu’utilise l’Insee pour le respect du secret statistique [3].
•Exploitation d’a priori sur l’usage de l’espace pour le redressement des sources Big Data (e.g. modèles gravitaires pour les flux [4])
Environnement
Vous travaillerez en lien et en présentiel avec deux équipes :
•Un appui méthodologique vous sera fourni par l’équipe du SSP Lab (redressement, aspects géographiques), et l’accès à une plateforme « innovation » pour les traitements statistiques.
•Vous accéderez à des jeux de données exploratoires de Bouygues Telecom (environnement Dataiku), ainsi qu’à l’expertise de l’équipe « Data Mobilité » dans l’utilisation de ces données.
Profil recherché
•Niveau d’étude : M2 / Grande école / Césure.
•Domaines de compétences : mathématiques appliquées, data science, statistique. Un plus : statistiques/analyse de données spatiales.
•Informatique : R, Python, SQL (Hive)
•Stage de 5 à 6 mois
→ Contact : milena.suarez-castillo@insee.fr
Bibliographie
[1] Beręsewicz, M. et al. (2018). An overview of methods for treating selectivity in big data sources. Statistical Working Papers. Eurostat.
[2] Lagonigro, R. et al. (2017). A quadtree approach based on European geographic grids: reconciling data privacy and accuracy.
[3] https://www.insee.fr/fr/statistiques/4176281
[4] Lai, S. et al. (2019). Exploring the use of mobile phone data for national migration statistics. Palgrave communications, 5(1), 1-10.

...

12 février 2020


Editer