Parcourir les annonces Parcourir les étudiants Publier une annonce Ajouter un CV

STAGE – EXPLAIN – Junior data scientist

Rémunération
1 300,00 €
Lieu

PARIS

Date de début
N/C
Date de fin
N/C

eXplain est une entreprise de technologie qui développe des outils pour comprendre et convaincre l’opinion à un niveau local. Sa mission est de révolutionner la façon dont les entreprises et les campagnes électorales analysent les territoires où elles sont présentes et interagissent avec eux.

Appuyé sur une base de données hyper locales unique au monde, eXplain commercialise Goodwill, un logiciel d’intelligence artificielle en Saas qui permet de modéliser la population locale et ses préoccupations. Elle met également en place des campagnes de porte-à-porte ciblées pour toucher le public de la manière la plus efficace. Ses utilisateurs vont de l’élu local au grand groupe industriel.

eXplain travaille sur des enjeux majeurs en Europe : l’implantation des énergies renouvelables en France, la gestion des déchets nucléaires, les grands projets d’aménagement urbain ou encore les campagnes présidentielles (F. Hollande 2012, E. Macron 2017) françaises.

  • Stage (5 à 8 mois)
  • Début :  1 mai 2019
  • Salaire entre 1,3K € et 1,4K € / mois
  • Paris
  • Occasional remote authorized
  • Bac +5 / Master
  • < 6 mois

DESCRIPTIF DU POSTE

eXplain cherche un datascientist stagiaire pour un stage de pré-embauche.

Vous serez intégré aux équipes R&D et datascience travaillant sur Goodwill, notre produit de compréhension de l’opinion publique au niveau local. Goodwill est un produit d’analyse et d’aide à la décision automatisée dont la valeur dépend des données intégrées et des algorithmes utilisés.

eXplain a constitué une base unique, composée de 25 millions de documents d’archive de la presse locale et d’un million de documents administratifs émis par les collectivités locales et les administrations publiques. Le rôle de l’équipe data est d’exploiter cette donnée pour répondre aux besoins de nos utilisateurs (entreprises qui travaillent avec les collectivités et les populations à une échelle locale) qui sont par exemple : identifier les principaux influenceurs et leurs prises de position sur des thèmes variés, prédire la favorabilité d’une ville vis-à-vis de l’énergie éolienne, anticiper les risques d’acceptabilité pour des projets d’infrastructure ou anticiper les appels d’offres des collectivités.

Pour accomplir ces objectifs, nous mettons en oeuvre des techniques de NLP et de Machine Learning à l’état de l’art par exemple :

  • topic modelling supervisé et non supervisé
  • NER avec des exigence de performance élevée et pour des types d’entités originaux (entreprises, associations…)
  • le résumé automatique de texte
  • la constitution et la désambiguïsation d’une base de connaissances

Chez eXplain, vous aurez l’opportunité de :

  • travailler sur des datasets volumineux et originaux et des problématiques uniques ;
  • appliquer des techniques à l’état de l’art en datascience et en AI ;
  • mettre en production ces techniques dans un produit avec des vrais utilisateurs ;
  • apprendre les bonnes pratiques de développement en contexte professionnel ;
  • proposer des idées de R&D et avoir de l’impact dans une phase où les sujets sont encore ouverts ;
  • être intégré dans une squad pluridisciplinaire, incluant un product owner, des développeurs back et front et d’autres data-scientists.
  • Vous rejoindrez une équipe de 9 datascientists (5 PhDs, 3 ENSAE, 1 MVA) et vous serez encadré par un data-scientist senior.
    eXplain a déjà accueilli à plusieurs reprises avec succès des stagiaires en data science et saura vous proposer le coaching et les responsabilités qui vous feront progresser. L’objectif du stage est de déboucher sur une embauche.
  • Vous pourrez trouver une illustration du type de problématiques que nous traitons ici https://medium.com/le-blog-explain/text-classification-on-local-newspapers-articles-e4f85bdc379d.

ENVIRONNEMENT TECHNIQUE

Outils

  • Python : utilisation des packages pandas, numpy, sklearn, fastai
  • Base de données SQL et Elastic Search
  • Implémentation de pipeline de traitement sur AWS Lambda
  • Utilisation de Git et application des best practices de développement logiciel (tests unitaires, programmation orientée objet…)

NLP

  • Utilisation de Spacy, gensim et NLTK
  • Constitution de datasets avec de l’active learning (Prodigy)
  • Algorithmes de vectorisation de textes (word2vec, TF-IDF), reconnaissance d’entités nommées, text summarization et classification de textes

PROFIL RECHERCHÉ

PRÉREQUIS

  • Etudiant ou jeune diplômé d’une grande école ou d’une université de premier plan (master de datascience, stat…)
  • Goût pour le prototypage rapide et l’implémentation jusqu’à la production
  • Intérêt pour les bonnes pratiques d’implémentation et de développement logiciel
  • Niveau intermédiaire ou avancé en Python
  • Intérêt pour le NLP (pas d’expérience du domaine requise)
  • Goût pour la réflexion produit
  • Intérêt pour les sujets de société
  • La langue de travail est le français

APPRÉCIÉ

  • Mise en œuvre du NLP dans des projets
  • Niveau avancé en Python et en implémentation

DÉROULEMENT DES ENTRETIENS

  1. Entretien d’introduction (45 min)
  2. Test technique à réaliser à la maison (environ 2h)
  3. Entretien technique avec le CSO et le lead data scientist (2h): debrief test technique et cas d’usage
  4. Entretien avec un fondateur (1h): motivation, présentation du poste et de la société

POUR POSTULER CLIQUEZ SUR LE LIEN

Vous devrez avoir ces compétences :


Editer