Parcourir les annonces Parcourir les étudiants Publier une annonce Ajouter un CV

STAGE – INRA/AgroParisTech – Prise en compte d’un excès de zéros dans le modèle Poisson log-normal Application à l’analyse multivariée de tables d’abondances

Rémunération
N/C
Lieu

UMR 518 MIA Paris INRA – AgroParisTech, Paris 2INRA – MaIAGE, Jouy-en-Josas

Date de début
N/C
Date de fin
N/C

De nombreuses études en écologie ou en génomique visent à comprendre les fluctuations conjointes de différentes espèces, à l’échelle macroscopique ou microscopique, en fonction du lieu ou des conditions environnementales. Ces études aboutissent généralement à l’analyse de données d’abondances multivariées, c’est-à-dire à l’étude de la distribution d’un vecteur d’abondance (dont les coordonnées correspondent aux différentes espèces). Ces données d’abondance peuvent être recueillies soit directement par échantillonnage des individus soit, pour les populations bactériennes par exemple, via des techniques fondées sur le séquençage de marqueurs moléculaires.

D’un point de vue statistique, il s’agit alors de définir un modèle réaliste pour décrire la loi jointe des abondances des espèces. Dans ce contexte, le modèle Poisson log-normal (PLN) [1] est un modèle à variables latentes qui fournit un cadre général pour modéliser les covariations entre espèces en tenant compte des éventuels effets de l’environnement. Cependant l’inférence de ce modèle pose des problèmes difficiles qui peuvent être contournés au prix d’approximations de type variationnelles [7]. Celles-ci ont été exploitées pour le modèle PLN et ses variantes (ACP [3], réseaux [4]), implémentés dans le package PLNmodels [2].

Le modèle PLN présente cependant l’inconvénient de ne pas distinguer, parmi les abondance nulles, celles correspondant à des espèces présentes qui n’ont pas été observées (aussi appelées “zéros d’échantillonnage”) de celles correspondant à des espèces effectivement absentes (aussi appelées “zéros structurels”). La co-existence de ces deux sources de zéros est mal prise en compte et aboutit à un excès de zéros dans les distributions effectivement observées, par rapport aux quantités prédites par le modèle.

Sujet

L’objectif de ce stage sera de concevoir une version du modèle PLN prévoyant un tel excès de zéros. Une première approche pour tenir compte de cet effet pourra être de l’estimer à l’aide de méthodes existantes [6] et de l’intégrer à notre modèle à l’aide de poids sur les observations, à la manière d’un modèle linéaire généralisé pondéré. Une approche plus canonique est de développer notre propre modèle PLN zéro-inflaté à la manière du modèle de Poisson zéro-inflaté [5]. La finalité du stage est de développer une méthode d’inférence efficace du point de vue de l’implémentation pour des jeux de données de tailles intermédiaires (n ' 102 􀀀 103 échantillons, p = 102 􀀀104 espèces). Cette variante sera intégrée au package PLNmodels [2] et éprouvé sur des jeux de données d’écologie microbienne.

Références

[1] J. Aitchison and C.H Ho. The multivariate Poisson-log normal distribution. Biometrika, 76(4) :643–653, 1989.

[2] J. Chiquet, M. Mariadassou, and S. Robin. Plnmodels : Poisson lognormal models. https://github.com/jchiquet/PLNmodels, 2019.

[3] Julien Chiquet, Mahendra Mariadassou, and Stéphane Robin. Variational inference for probabilistic poisson pca. Ann. Appl. Statist., 12(4) :2674–2698, 2018.

[4] Julien Chiquet, Stephane Robin, and Mahendra Mariadassou. Variational inference for sparse network reconstruction from count data. In Proceedings of the 36th International Conference on Machine Learning (ICML), volume 97, pages 1162–1171, 2019.

[5] Diane Lambert. Zero-inflated poisson regression, with an application to defects in manufacturing. Technometrics, 34(1) :1–14, 1992.

[6] Koen Van den Berge, Fanny Perraudeau, Charlotte Soneson, Michael I Love, Davide Risso, Jean-Philippe Vert, Mark D Robinson, Sandrine Dudoit, and Lieven Clement. Observation weights unlock bulk rna-seq tools for zero inflation and single-cell applications. Genome biology, 19(1) :24, 2018.

[7] M. J. Wainwright and M. I. Jordan. Graphical models, exponential families, and variational inference. Found. Trends Mach. Learn., 1(1–2) :1–305, 2008


Editer