La réponse à cette question est un OUI catégorique. Il peut absolument y avoir trop de données dans un projet Big Data.
Cela peut se produire de nombreuses manières et diverses raisons pour lesquelles les professionnels doivent limiter et organiser les données de différentes manières pour obtenir les bons résultats. (Lisez 10 grands mythes sur le Big Data.)
En général, les experts parlent de différencier le « signal » du « bruit » dans un modèle. En d’autres termes, dans un océan de big data, les données pertinentes deviennent difficiles à cibler. Dans certains cas, on cherche une aiguille dans une botte de foin.
Par exemple, supposons qu'une entreprise essaie d'utiliser le Big Data pour générer des informations spécifiques sur un segment d'une clientèle et sur ses achats sur une période donnée. (Lire À quoi sert le Big Data ?)
L'absorption d'une énorme quantité d'actifs de données peut entraîner l'acquisition de données aléatoires qui ne sont pas pertinentes, ou même produire un biais qui fausse les données dans un sens ou dans l'autre.
Cela ralentit également considérablement le processus, car les systèmes informatiques doivent lutter avec des ensembles de données de plus en plus volumineux.
Dans de nombreux types de projets différents, il est très important pour les ingénieurs de données de classer les données dans des ensembles de données restreints et spécifiques. Dans le cas ci-dessus, il s'agirait uniquement des données du segment de clients étudié, uniquement des données de cette période. cadre étudié et une approche qui élimine les identifiants supplémentaires ou les informations de base qui peuvent semer la confusion ou ralentir les systèmes. (ReadJob Rôle : Ingénieur de données.)
Pour en savoir plus, voyons comment cela fonctionne à la frontière de l'apprentissage automatique. (Lire Apprentissage automatique 101.)
Les experts en apprentissage automatique parlent de ce qu'on appelle le « surajustement » : un modèle trop complexe conduit à des résultats moins efficaces lorsque le programme d'apprentissage automatique est lâché sur de nouvelles données de production.
Le surapprentissage se produit lorsqu'un ensemble complexe de points de données correspond trop bien à un ensemble de formation initial et ne permet pas au programme de s'adapter facilement aux nouvelles données.
Techniquement, le surapprentissage n’est pas causé par l’existence d’un trop grand nombre d’échantillons de données, mais par le couronnement d’un trop grand nombre de points de données. Mais on pourrait affirmer qu’avoir trop de données peut également contribuer à ce type de problème. Faire face à la malédiction de la dimensionnalité implique certaines des mêmes techniques que celles utilisées dans des projets Big Data antérieurs, alors que les professionnels tentaient d'identifier ce qu'ils alimentaient les systèmes informatiques.
En fin de compte, le Big Data peut être extrêmement utile aux entreprises, ou bien devenir un défi majeur. L’un des aspects de cette question est de savoir si l’entreprise dispose des bonnes données en jeu. Les experts savent qu'il n'est pas conseillé de simplement jeter toutes les données dans une trémie et d'obtenir des informations de cette façon. Dans les nouveaux systèmes de données cloud natifs et sophistiqués, il y a un effort pour contrôler, gérer et organiser les données afin d'obtenir des données plus précises et plus précises. utilisation efficace des actifs de données.