À première vue, le déploiement de la data science semble trivial : il suffit de l’exécuter sur le serveur de production ! Un examen plus approfondi révèle que ce qui a été construit lors de la création de la science des données n'est pas ce qui est mis en production.
Pensez à un chef qui conçoit des recettes dans sa cuisine expérimentale. Semblable au data scientist expérimentant en laboratoire avec différentes sources de données et testant et optimisant les paramètres, le chemin vers la recette parfaite implique que le chef essaie de nouveaux ingrédients et optimise les quantités et les temps de cuisson.
C'est le résultat final qui entre en production : le meilleur modèle du scientifique ou la recette du chef.
C’est là que l’écart est généralement le plus important. Pourquoi?
Demandez-vous, par exemple, si vous pouvez utiliser le même ensemble d'outils pour la création et la configuration de votre déploiement de science des données ; peut-être que l'une des deux configurations ne couvre qu'un sous-ensemble de l'autre.
La plupart des outils permettent d'exporter uniquement un sous-ensemble de modèles possibles et ignorent même complètement certaines étapes de prétraitement. Pouvez-vous déployer automatiquement dans un service (par exemple, REST) ou une tâche planifiée, ou le déploiement est-il uniquement une bibliothèque/un modèle qui doit être intégré ailleurs ?
Trop souvent, ce qui est exporté n’est pas prêt à l’emploi mais doit être ajusté manuellement. Pour le chef, ce n'est pas un gros problème, car le livre de recettes est rarement mis à jour et le chef peut passer une journée à traduire les résultats de l'expérimentation en une recette qui fonctionne dans une cuisine typique à la maison.
Pour l’équipe de science des données, il s’agit d’un problème bien plus important. L'équipe doit être capable de mettre à jour les modèles, de déployer de nouveaux outils et d'utiliser de nouvelles sources de données beaucoup plus fréquemment, ce qui peut facilement se faire sur une base quotidienne, voire horaire.
L'ajout d'étapes manuelles ralentit considérablement ce processus et permet aux erreurs de s'infiltrer. Les grandes organisations ne peuvent pas se permettre que cela se produise, et les petites et moyennes entreprises encore moins.
Quels types de stratégies peuvent combler l’écart ?
Une approche de « déploiement intégré » aide en intégrant le processus de déploiement dans le cycle de la science des données. Le data scientist peut modéliser à la fois la création et la production dans le même environnement en capturant les parties du processus nécessaires au déploiement.
En cas de changement de modèle, les modifications nécessaires peuvent être apportées et le processus de science des données révisé peut être déployé en moins d'une minute – déploiement instantané à partir exactement du même environnement que celui utilisé pour créer le processus de science des données.