L'un des problèmes pratiques que les entreprises peuvent rencontrer lorsqu'elles tentent de démarrer un projet d'apprentissage automatique (ML) est le défi que représente l'acquisition des ensembles de données de formation initiale. Cela peut inclure des processus à forte intensité de main-d'œuvre comme le web scraping ou d'autres data scraping.
Les termes web scraping et data scraping font largement référence à l'activité automatisée des logiciels informatiques, mais pour de nombreux projets de ML, il y aura des cas où les ordinateurs n'auront pas la sophistication nécessaire pour collecter les bonnes données ciblées, il faudra donc le faire. « par la main. » C’est ce que vous pourriez appeler du « grattage humain du Web/des données », et c’est un travail ingrat. Il s'agit généralement d'aller chercher des données ou des images pour « alimenter » le programme ML via des ensembles de formation. C'est souvent assez itératif, ce qui rend le travail fastidieux, lent et exigeant.
L'extraction de données pour les ensembles de formation ML représente un goulot d'étranglement particulièrement problématique dans l'apprentissage automatique, en partie parce qu'une grande partie du reste du travail est hautement conceptuel et non répétitif. De nombreuses personnes peuvent avoir une excellente idée pour une nouvelle application qui effectue des tâches d'apprentissage automatique, mais les détails pratiques et le travail pratique peuvent être beaucoup plus difficiles. En particulier, déléguer le travail d'assemblage des ensembles de formation peut en fait être l'une des parties les plus difficiles d'un projet de ML, comme l'explique en détail l'émission télévisée « Silicon Valley » de Mike Judge. Dans un épisode de la saison quatre, un entrepreneur en démarrage intimide d'abord un partenaire pour qu'il effectue un travail à forte intensité de main-d'œuvre, puis tente de le faire passer aux étudiants en le déguisant en devoir.
Cet exemple est instructif car il montre à quel point le grattage manuel des données est détesté et apparemment sans importance. Cependant, cela montre également que ce processus est nécessaire pour une large gamme de produits d’apprentissage automatique. Bien que la plupart des gens détestent la saisie de données, les ensembles de formation doivent être assemblés d'une manière ou d'une autre. Les experts en la matière recommandent souvent d’utiliser un service de web scraping – il s’agit essentiellement de sous-traiter ce travail très laborieux à des parties externes, mais cela pourrait avoir des conséquences sur la sécurité et causer d’autres problèmes. Lorsque l’on conserve le travail manuel de collecte de données en interne, là encore, il faut prévoir ce qui est souvent un processus très manuel et long.
D'une certaine manière, le « grattage de données humaines » pour l'apprentissage automatique ressemble à la saisie manuelle de données qui devait parfois être effectuée lors d'une migration existante. Alors que le cloud devenait de plus en plus populaire et que les entreprises y transféraient leurs processus et flux de travail, certaines ont constaté qu'elles n'avaient pas abordé les aspects pratiques de la manière de transférer leurs données d'entreprise d'un système existant isolé vers des applications cloud natives. En conséquence, certaines personnes qui étaient par ailleurs des data scientists ou des créatifs possédant des compétences informatiques essentielles se sont retrouvées à effectuer des tâches de saisie de données désagréables.
La même chose est susceptible de se produire avec l’apprentissage automatique. Vous pourriez entendre un data scientist se plaindre en disant que « je suis une personne créative » ou « je suis du côté du développement » – mais quelqu'un doit faire le sale boulot.
Encore une fois, si le flux créatif ne s'accompagne pas d'une évaluation pratique de la délégation du flux de travail, il y aura un décalage dans la manière dont la gestion des tâches est dirigée. Lorsqu'une entreprise ne dispose pas de personnel pour effectuer le travail de collecte de données lors de la collecte d'ensembles de données, il lui manque un élément clé de la chaîne de procédure nécessaire à la réussite d'un projet. Il convient de garder cela à l’esprit chaque fois qu’une entreprise tente de concrétiser une idée basée sur le développement de nouvelles applications d’apprentissage automatique.