L’une des nouvelles frontières passionnantes de l’apprentissage automatique et de l’IA réside dans le fait que les scientifiques et les ingénieurs se lancent dans diverses façons d’utiliser des types de ressources complètement nouveaux pour prédire les mouvements de stocks et les résultats des investissements. Cela change énormément la donne dans le monde financier et révolutionnera les stratégies d’investissement de manière très profonde.
L’une des idées de base pour développer ce type de recherche boursière est la linguistique computationnelle, qui implique la modélisation du langage naturel. Les experts étudient comment utiliser les documents texte, des documents déposés auprès de la SEC aux lettres d'actionnaires en passant par d'autres ressources textuelles périphériques, afin d'augmenter ou d'affiner l'analyse boursière ou de développer des analyses entièrement nouvelles.
L’avertissement important est que tout cela n’est rendu possible que grâce aux toutes nouvelles avancées en matière de réseaux neuronaux, d’apprentissage automatique et d’analyse du langage naturel. Avant l'avènement du ML/AI, les technologies informatiques utilisaient principalement la programmation linéaire pour « lire » les entrées. Les documents texte étaient trop peu structurés pour être utiles. Mais avec les progrès réalisés dans l'analyse du langage naturel au cours des dernières années, les scientifiques découvrent qu'il est possible d'« exploiter » le langage naturel pour obtenir des résultats quantifiables ou, en d'autres termes, des résultats qui peuvent être calculés d'une manière ou d'une autre.
Certaines des meilleures preuves et des exemples les plus utiles proviennent de diverses thèses et travaux de doctorat disponibles sur le Web. Dans un article intitulé « Applications of Machine Learning and Computational Linguistics in Financial Economics », publié en avril 2016, Lili Gao explique avec brio les processus pertinents spécifiques à l'exploration des documents déposés par les entreprises auprès de la SEC, des appels d'actionnaires et des messages sur les réseaux sociaux.
« Extraire des signaux significatifs à partir de données textuelles non structurées et de grande dimension n'est pas une tâche facile », écrit Gao. « Cependant, avec le développement de l'apprentissage automatique et des techniques linguistiques informatiques, des tâches de traitement et d'analyse statistique de documents textuels peuvent être accomplies, et de nombreuses applications de l'analyse statistique de textes dans les sciences sociales se sont révélées efficaces. » À partir de la discussion de Gao sur la modélisation et l'étalonnage dans le résumé, l'ensemble du document développé montre en détail comment certaines de ces types d'analyse fonctionnent.
D'autres sources de projets actifs incluent des pages telles que cette fiche de projet GitHub et cette ressource IEEE traitant spécifiquement de l'obtention d'informations financières précieuses à partir de « l'analyse des sentiments sur Twitter ».
L'essentiel est que l'utilisation de ces nouveaux modèles de PNL entraîne une innovation rapide dans l'utilisation de toutes sortes de documents texte, non seulement pour l'analyse financière, mais pour d'autres types de découvertes de pointe, brouillant ainsi la frontière traditionnellement établie entre « langage » et « données. »