FAQ

Pourquoi le « bagging » dans l'apprentissage automatique diminue-t-il la variance ?

L'agrégation bootstrap, ou « bagging », dans le machine learning réduit la variance grâce à la création de modèles plus avancés d'ensembles de données complexes. Plus précisément, l'approche de regroupement crée des sous-ensembles qui se chevauchent souvent pour modéliser les données de manière plus complexe.

Une notion intéressante et simple sur la façon d’appliquer l’ensachage consiste à prendre un ensemble d’échantillons aléatoires et à en extraire la moyenne simple. Ensuite, en utilisant le même ensemble d’échantillons, créez des dizaines de sous-ensembles construits sous forme d’arbres de décision pour manipuler les résultats éventuels. La deuxième moyenne devrait donner une image plus fidèle de la manière dont ces échantillons individuels sont liés les uns aux autres en termes de valeur. La même idée peut être appliquée à n’importe quelle propriété de n’importe quel ensemble de points de données.

Étant donné que cette approche consolide la découverte dans des limites plus définies, elle diminue la variance et facilite le surajustement. Pensez à un nuage de points avec des points de données quelque peu distribués ; en utilisant une méthode d'ensachage, les ingénieurs « réduisent » la complexité et orientent les lignes de découverte vers des paramètres plus fluides.

Certains parlent de la valeur de l'ensachage comme d'une sorte de « diviser pour mieux régner » ou d'une sorte d'« heuristique assistée ». L’idée est que grâce à la modélisation d’ensemble, telle que l’utilisation de forêts aléatoires, ceux qui utilisent l’ensachage comme technique peuvent obtenir des résultats de données dont la variance est moindre. En termes de réduction de la complexité, l'ensachage peut également contribuer au surajustement. Pensez à un modèle avec trop de points de données : par exemple, un modèle de connexion avec 100 points non alignés. La ligne de données visuelles résultante sera irrégulière, dynamique et volatile. Ensuite, « aplanissez » l’écart en rassemblant des ensembles d’évaluations. Dans l'apprentissage d'ensemble, cela est souvent considéré comme le fait de réunir plusieurs « apprenants faibles » pour fournir un résultat collaboratif « d'apprentissage fort ». Le résultat est une ligne de données plus fluide et plus profilée, et une variance moins sauvage dans le modèle.

Il est facile de voir comment l'idée du bagging peut être appliquée aux systèmes informatiques d'entreprise. Les chefs d'entreprise souhaitent souvent avoir une « vue d'ensemble » de ce qui se passe avec les produits, les clients, etc. Un modèle suréquipé peut renvoyer des données moins digestes et des résultats plus « dispersés », où le regroupement peut « stabiliser » un modèle et le rendre plus utile. aux utilisateurs finaux.