Séminaires


Retour à la liste de tous les séminaires


Sélection de variables en bio-informatique.

Le : 22/11/2012 11h00
Par : Anne-Claire Haury (Ecole des Mines de Paris)
Lieu : I 103
Lien web :
Résumé : Confronté à d'immenses quantités de données, le travail du bio-informaticien consiste parfois à extraire l'information utile en réponse à une question donnée. Par exemple, il peut être amené à chercher au sein du génome entier les quelques gènes responsables de la métastase du cancer du sein, ou encore à repérer les facteurs de transcription régulant un gène donné. Pour cela, il peut faire appel à des techniques de sélection de variables supervisées. Je donnerai un aperçu global de ces méthodes et développerai, en particulier, les méthodes pénalisées (Lasso, Elastic Net, k-support) ainsi que les méthodes dites d'Ensemble, basées sur des outils de ré-échantillonnage tels le bootstrap et le bagging. Je discuterai également une question qui m'intéresse particulièrement, à savoir le compromis complexité/interprétabilité, à savoir: doit-on préférer un modèle simple mais faux à un algorithme complexe et potentiellement plus performant?