Séminaires


Retour à la liste de tous les séminaires


Stratégies bayésiennes et fréquentistes pour l´allocation séquentielle de ressources

Le : 20/10/2014 11h00
Par : Emilie Kaufmann (Paristech)
Lieu : I103
Lien web :
Résumé : Dans cette exposé, nous discutons de stratégies optimales pour l'allocation séquentielle de ressources, pour laquelle le modèle statistique du bandit stochastique à plusieurs bras est adopté. Dans ce modèle, un agent interagit avec un ensemble de K lois de probabilité inconnues (appelées 'bras' en référence aux bras des machines à sous – ou bandits manchots – dans un casino). Lorsque l'agent tire un bras il observe une réalisation de la distribution associée à ce bras. Cette réalisation prend parfois le nom de 'récompense' quand l'objectif de l'agent est de maximiser la somme des récompenses accumulées en tirant les bras de manière séquentielle. Cet objectif de 'minimisation du regret' fait sens dans de nombreuses applications, à commencer par l'allocation optimale de traitement médical, domaine qui a motivé l'introduction des modèles de bandit. Un autre objectif possible dans un modèle de bandit est de découvrir le plus rapidement possible le(s) (m) meilleur(s) bras (i.e. les distributions ayant les moyennes les plus élevées), sans subir de perte lorsqu'on tire des 'mauvais' bras (i.e. des bras d'espérance faible). Dans cet exposé, je m'intéresserai à l'analyse de nouveaux algorithmes, à la fois pour l'objectif de minimisation du regret et pour celui de l'identification des meilleurs bras, dans le cadre des modèles de bandit paramétriques. Certaines des améliorations proposées reposent sur l'utilisation d'intervalles de confiance construits à l'aide de la divergence de Kullback-Leibler, d'autres sont liées à l'exploitation d'une loi a posteriori sur les bras et donc à l'utilisation d'outils bayésiens pour résoudre un problème de nature fréquentiste.