Simulating crowds with reinforcement learning

Ariel Kwiatkowski

Résumé

Simulating crowd behavior is an important aspect of creating immersive digital environments, be it for video games or other virtual experiences. Traditional methods lead to satisfactory results but are often limited in their capacity to accurately emulate the complexity of human behavior. Recently, Reinforcement Learning (RL) has emerged as a new approach to tackle this problem.However, there are many details of RL-driven crowd simulation that may seem irrelevant, but turn out to be rather impactful. This includes the underlying physics simulation, models of observations and dynamics, and details of the RL algorithm optimizing the crowd's behavior.This thesis aims to shed light on these critical details and their effects on virtual crowds trained with RL. Our overarching objective is to establish an understanding of relevant design choices, enabling the creation of more realistic crowd simulations.In the first part of the thesis, we focus on evaluating how various design choices of the foundational crowd simulation impact both the learning performance and the overall quality of the resulting behavior.We present a classification of observation methods and dynamics, and evaluated their impact with DRL experiments. This shows that nonholonomic controls with a variant of egocentric observations produce better results compared to other, simpler alternatives.Following this, we investigate the details of reward function design for simulating human-like crowds. We explore different reward functions, providing theoretical insights on their properties, and evaluate them empirically in different scenarios. Our experiments show that directly minimizing energy usage, when paired with a properly scaled guiding potential, are effective in producing more efficient crowd behaviors.In the final part of the thesis, we explore the discounting mechanism in RL. We present the Universal Generalized Advantage Estimation (UGAE) algorithm, a novel solution that enables using modern RL algorithms with arbitrary discounting. We also introduce Beta-weighted discounting to parameterize non-exponential discounting methods. We demonstrate that UGAE outperforms the Monte Carlo baseline using both standard RL benchmarks and crowd simulation scenarios. This paves the way to future crowd simulation methods using non-exponential discounting, which may help overcome some of the challenges identified in our previous work.This work, combined, provides critical insights into the dynamics of reinforcement learned crowds, and contributes significantly to the development of new and improved techniques for crowd simulation.

Simuler le comportement des foules constitue une composante clé de la création d'espaces numériques immersifs.Les méthodes traditionnelles, bien qu'efficaces, sont souvent limitées dans leur capacité à reproduire fidèlement la complexité du comportement humain.Récemment, l'apprentissage par renforcement (RL) a émergé comme une nouvelle approche pour surmonter ce défi. Cependant, de nombreux détails de la simulation des foules par RL peuvent sembler négligeables, mais s'avèrent avoir un impact majeur, incluant la simulation physique sous-jacente, les modèles d'observations et de dynamiques, et les détails de l'algorithme RL lui-même.Cette thèse vise à mettre en lumière ces détails cruciaux et leurs effets sur les foules virtuelles formées par RL. Notre objectif est d'établir une compréhension des choix de conception pertinents qui permettraient la création de simulations de foules plus réalistes.Dans la première partie, nous nous concentrons sur l'évaluation de l'impact des divers choix de conception sur la performance d'apprentissage et la qualité du comportement résultant. Nos expériences avec le Deep RL montrent que les contrôles non holonomiques avec une variante d'observations égocentriques produisent de meilleurs résultats par rapport aux autres alternatives plus simples.Ensuite, nous examinons les détails de la conception de la fonction de récompense pour simuler des foules semblables aux humains. Nos expériences montrent qu'une minimisation directe de l'utilisation d'énergie, lorsqu'elle est couplée à un potentiel de guidage correctement calibré, permet de générer des comportements de foule plus efficaces.Enfin, nous explorons le mécanisme d'escompte dans le RL. Nous présentons l'algorithme UGAE, une nouvelle solution qui permet l'utilisation d'algorithmes RL modernes avec un escompte arbitraire. Nous démontrons que UGAE surpasse la base de référence de Monte Carlo en utilisant à la fois des critères de référence RL standard et des scénarios de simulation de foule. Ceci ouvre la voie à de futures méthodes de simulation de foule utilisant un escompte non exponentiel.Dans l'ensemble, cette recherche apporte des éclairages essentiels sur la dynamique des foules formées par RL, et contribue significativement au développement de nouvelles techniques et à l'amélioration des techniques existantes pour la simulation de foule.

Simulating crowds with reinforcement learning

Simulation de foules avec l'apprentissage par renforcement

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager