De nombreux facteurs ont contribué à l'émergence de l'écosystème actuel du Big Data, mais il existe un consensus général selon lequel le Big Data est né d'une gamme de conceptions matérielles et logicielles qui ont simplement permis au Big Data d'exister.
Une définition conventionnelle du Big Data est la suivante : des ensembles de données suffisamment volumineux et complexes pour défier une gestion itérative facile, ou une gestion manuelle. Les ensembles de données volumineuses sont souvent identifiés comme des ensembles de données qui ne peuvent pas s'intégrer dans un simple réseau de bases de données, car leur analyse nécessite trop de travail de la part des serveurs qui traitent les données.
Dans cet esprit, une grande partie de ce qui a créé le Big Data est l'idée que nous connaissons sous le nom de loi de Moore, ou le doublement des transistors sur un circuit tous les deux ans, créant ainsi du matériel et des dispositifs de stockage de données de plus en plus petits (ainsi que des microprocesseurs plus puissants). . En conjonction avec la loi de Moore, et probablement à cause d'elle, la capacité de calcul des systèmes logiciels accessibles a continué à augmenter, au point où même les ordinateurs personnels pouvaient gérer des quantités de données beaucoup plus importantes, et les systèmes d'entreprise et d'avant-garde ont commencé à être capables de gérer des tailles de données. inconcevable quelques années seulement auparavant. Les systèmes personnels sont passés des kilo-octets aux mégaoctets, puis aux gigaoctets, selon un processus transparent pour les consommateurs. Les systèmes Vanguard sont passés des gigaoctets aux téraoctets et pétaoctets, et à des ordres de grandeur comme les zétaoctets, d'une manière beaucoup moins transparente pour le citoyen moyen.
Une autre avancée dans la prise en compte du Big Data a été la modification de la manière dont les gestionnaires traitaient les ensembles de données. Plutôt qu'un traitement linéaire via une conception de base de données relationnelle conventionnelle, les gestionnaires ont commencé à utiliser des outils comme Apache Hadoop et des éléments de gestion matérielle associés pour éliminer les goulots d'étranglement dans les processus de données.
Le résultat est le monde du Big Data dans lequel nous vivons, où des ensembles de données massifs sont stockés et conservés dans des centres de données et de plus en plus accessibles par un large éventail de technologies pour un large éventail d'utilisations. Du commerce à l’écologie, de l’aménagement public à la médecine, le big data devient de plus en plus accessible. Pendant ce temps, les agences gouvernementales et d’autres grandes organisations continuent de repousser les limites de la taille du Big Data et de mettre en œuvre des solutions encore plus avancées.