L'annotation des données est importante dans l'apprentissage automatique car, dans de nombreux cas, elle facilite grandement le travail du programme d'apprentissage automatique.
Cela a à voir avec la différence entre l’apprentissage automatique supervisé et non supervisé. Avec l'apprentissage automatique supervisé, les données d'entraînement sont déjà étiquetées afin que la machine puisse mieux comprendre les résultats souhaités. Par exemple, si le but du programme est d'identifier des chats dans des images, le système dispose déjà d'un grand nombre de photos étiquetées comme chat ou non. Il utilise ensuite ces exemples pour comparer les nouvelles données afin d’obtenir ses résultats.
Avec l’apprentissage automatique non supervisé, il n’y a pas d’étiquettes et le système doit donc utiliser des attributs et d’autres techniques pour identifier les chats. Les ingénieurs peuvent entraîner le programme à reconnaître les caractéristiques visuelles des chats comme les moustaches ou la queue, mais le processus n'est jamais aussi simple qu'il le serait dans l'apprentissage automatique supervisé où ces étiquettes jouent un rôle très important.
L'annotation des données est le processus d'apposition d'étiquettes aux ensembles de données d'entraînement. Celles-ci peuvent être appliquées de différentes manières – nous avons parlé ci-dessus de l’annotation de données binaires – chats ou pas chats – mais d’autres types d’annotations de données sont également importants. Par exemple, dans le domaine médical, l’annotation des données peut impliquer le marquage d’images biologiques spécifiques avec des étiquettes identifiant des marqueurs de pathologie ou de maladie pour d’autres propriétés médicales.
L'annotation des données demande du travail – et est souvent effectuée par des équipes de personnes – mais elle constitue un élément fondamental du fonctionnement précis de nombreux projets d'apprentissage automatique. Il fournit cette configuration initiale pour enseigner à un programme ce qu'il doit apprendre et comment discriminer diverses entrées pour obtenir des résultats précis.