Séminaires


Retour à la liste de tous les séminaires


Statistiques et génome : Analyse par chaînes de Markov et chaînes de Markov cachées des séquences biologiques

Le : 06/10/2006 15h00
Par : Bernard PRUM (Génopole, Evry)
Lieu :
Lien web :
Résumé : Les chromosomes peuvent être considérés comme des séquences linéaires écrites dans un alphabet à 4 lettres, {t,c,a,g} ; les protéines comme des séquences linéaires écrites dans un alphabet à 20 lettres, les acides aminés. La recherche de "mots" ou "motifs" exceptionnellement fréquents (ou rares) dans ces séquences doit prendre en compte les fréquences des différentes lettres (modèle de Bernoulli) et celles des mots "courts" (2 lettres, p.ex. : modèle de Markov). Cette approche demande implicitement un comportement homogène tout au long de la séquence, ce qui n'est pas vérifié dans la realité, ne serait-ce qu'à cause de l'alternance de gènes et de régions intergéniques. La modélisation par chaînes de Markov cachées répond à cette critique, mais surtout elle permet de développer des outils d’annotation (par exemple, recherche automatique des gènes le long des chromosomes). On présente enfin une modélisation par chaînes de Markov cachées, mais sur une tout autre variable que la lettre observée – à savoir des angles entre segments successifs de la séquence dans l’espace – donc maintenant des variables continues. Cette modélisation permet la localisation des nucléosomes, petits enroulements que l’on rencontre le long du génome. A l'adresse des mathématiciens, des biologistes, des physiciens,...