Devenir data scientist sans doctorat c’est possible – Partie II

Temps de lecture : 3 minutes

Retournez à la partie 1 de devenir data scientist.

Afin d’illustrer comment les solutions libre-service en analyse de données peuvent vous permettre d’accomplir des études dignes d’un expert en science des données, nous avons créé une étude de cas en 2 parties, qui porte sur une solution déployée pour l’entreprise Prudential.

Voici la partie 2 de l’étude de cas sur comment devenir data scientist. Également nous discutons de la création et du test des modèles et présentons les résultats.

Dans la première partie de l’étude de cas, nous avons présenté le contexte d’entreprise et l’objectif de l’analyse. Nous avons également abordé les étapes 1 et 2 de la solution, ainsi que les logiciels proposés pour accomplir celles-ci. Voici la suite :

SPSS Modeler accompagne l’analyste depuis la visualisation de données jusqu’à la modélisation :

L’étape 4 de la création et du test des modèles en est une autre qui est assez fastidieuse. Les modules automatiques de SPSS Modeler peuvent toutefois venir en aide ici aussi pour sélectionner les modèles les plus précis et obtenir une analyse post-modélisation plus rapidement. Du côté de Prudential, nous utilisions le module « Auto Classifier » afin de créer et tester les modèles.

Auto noeud | devenir data scientist

Résultat :

Le résultat de notre solution présente une précision globale de 73.84%, qui se traduit par un « Quadratic unweighted kappa » de 65.1% (index mesurant la précision des résultats par rapport aux vraies réponses).

Results | devenir data scientist

Sachant que les données ont été extraites d’une compétion Kaggle (plateforme de compétition en science des données). 65.1% en score kappa place notre modèle basée sur l’analyse automatique dans le top 40% des résultats soumis par plus de 2619 data scientists. Et cela en seulement quelques heures de travail.

Classement | devenir data scientist

Une fois ces résultats obtenus, il faut poursuivre avec le déploiement du modèle en API pour pouvoir l’intégrer. Pour ce faire, le module Watson Machine Learning[1] permet d’encapsuler le modèle créé ainsi que le flux de préparation et de manipulation de données. Il permet aussi de partager des clés d’accès API avec les développeurs de ton équipe. Ces derniers se chargeront de l’intégration avec la plateforme client. Notez que l’API est en REST et est configurable avec n’importe quel langage de programmation. L’encapsulage se fait par un simple téléversement du flux SPSS sur l’interface du service Watson Machine Learning créé sur Bluemix. (outil de « Platform as a service » d’IBM)

Watson Machine Learning | devenir data scientist

Conclusion

Grâce à SPSS Modeler, nous avons pu bâtir une solution prédictive complète et déployer celle-ci en API en un temps record. Cela fait contraste avec le temps nécessaire d’un expert en science des données. En somme, pour déployer des solutions raffinées de science des données, il suffit d’être outillé correctement et de s’entourer des bons experts. Pour en savoir davantage sur les produits SPSS et sur la science des données, ou encore pour une formation avancée, contactez les experts de Necando (lien vers la page contact du site). Il nous fera plaisir de supporter votre croissance!

[1]Watson Machine Learning (aka IBM SPSS Embedded Predictive Modeling API)

Accédez à au début de l’étude de cas: Comment devenir data scientist. Pour consulter la mise en contexte et la visualisation.