Pour comprendre comment cela se fait, il est nécessaire d'avoir une compréhension de base des rôles des différents ensembles de données dans un projet d'apprentissage automatique typique. L’ensemble de formation est conçu pour donner à la technologie un cadre de référence – une base de données que le programme utilise pour prendre des décisions prédictives et probabilistes. L'ensemble de test est l'endroit où vous testez la machine sur les données.
Le surajustement est un syndrome de l'apprentissage automatique dans lequel le modèle ne correspond pas entièrement aux données ou à l'objectif.
L’un des commandements fondamentaux de l’apprentissage automatique est que les données d’entraînement et les données de test doivent constituer des ensembles de données distincts. Il existe un consensus assez large à ce sujet, du moins dans de nombreuses applications, en raison de certains problèmes spécifiques liés à l'utilisation du même ensemble que celui que vous avez utilisé pour la formation afin de tester un programme d'apprentissage automatique.
Lorsqu'un programme d'apprentissage automatique utilise un ensemble de formation, que l'on pourrait essentiellement appeler un ensemble d'entrées, il utilise cet ensemble de formation pour prendre des décisions concernant les résultats prédictifs. Une façon très simple d'y penser est de considérer l'ensemble de formation comme la « nourriture » du processus informatique intellectuel.
Désormais, lorsque ce même ensemble est utilisé pour les tests, la machine peut souvent donner d'excellents résultats. C’est parce qu’il a déjà vu ces données auparavant. Mais dans de nombreux cas, l’objectif même de l’apprentissage automatique est d’obtenir des résultats inédits sur des données. Les programmes d’apprentissage automatique à usage général sont conçus pour fonctionner sur divers ensembles de données. En d’autres termes, le principe de l’apprentissage automatique est la découverte, et vous n’en obtenez généralement pas autant en utilisant un ensemble de formation initiale à des fins de test.
En évaluant les ensembles d'entraînement et les ensembles de test pour un éventuel surajustement, les ingénieurs peuvent évaluer les résultats et comprendre pourquoi un programme pourrait agir différemment sur les résultats comparatifs de ces deux ensembles, ou dans certains cas, comment la machine pourrait trop bien fonctionner sur les données d'entraînement elles-mêmes. .
En décrivant avec compétence certains de ces problèmes liés à l'apprentissage automatique dans un article de 2014, Jason Brownlee de Machine Learning Mastery décrit le surapprentissage de cette façon :
« Un modèle sélectionné pour sa précision sur l'ensemble de données d'entraînement plutôt que pour sa précision sur un ensemble de données de test invisible aura très probablement une précision inférieure sur un ensemble de données de test invisible », écrit Brownlee. « La raison est que le modèle n'est pas aussi généralisé. s'est spécialisé dans la structure de l'ensemble de données de formation (italiques ajoutés). C’est ce qu’on appelle le surapprentissage, et c’est plus insidieux qu’on ne le pense. »
En termes simples, on pourrait dire qu'en se spécialisant sur l'ensemble des données de formation, le programme devient trop rigide. C'est une autre façon métaphorique de comprendre pourquoi un programme d'apprentissage automatique n'est pas servi de manière optimale en utilisant l'ensemble de formation pour l'ensemble de test. C'est également une bonne façon d'aborder l'évaluation de ces deux ensembles différents, car les résultats en diront beaucoup aux ingénieurs sur le fonctionnement du programme. Vous souhaitez un écart plus petit entre la précision des deux modèles. Vous voulez vous assurer que le système n'est pas suralimenté ou « fusionné avec précision » à un ensemble de données particulier, mais que c'est plus général et capable de croître et d'évoluer sur commande.