Devenir data scientist sans doctorat c’est possible – Partie I
Devenir data scientist est un rêve que beaucoup souhaite atteindre. La science des données reste une expertise pas encore assez répondue chez toutes les entreprises. Pourquoi? Notre expérience démontre que plusieurs entreprises voient la science des données comme une expertise très coûteuse et nécessitant l’intervention d’experts. Détrompez-vous : grâce à des solutions libre-service, il est possible d’accomplir des analyses avancées et de créer des modèles prédictifs sans expertise en science des données. Cela se fait dans des délais similaires ou même plus courts qu’avec un expert en science des données.
Nous avons développé une étude de cas en 2 parties (cliquez ici pour la suite), pour démontrer comment nous avons résolu un défi d’affaires pour la compagnie d’assurance-vie Prudential grâce aux solutions libre-service en analytique. Si vous souhaitez devenir data scientist voici un outil qui va vous permettre d’atteindre vos objectifs.
Le contexte
Tout d’abord, pour l’analyse des candidatures de nouveaux clients en assurance vie (et le calcul de leur prime) l’entreprise Prudential utilisait une grille d’évaluation manuelle, processus qui prenait en moyenne 30 jours. Cette longue période d’analyse mettait toutefois à risque l’acquisition de nouveaux clients. Ces derniers optaient plutôt pour d’autres compagnies d’assurance vie avec un délais de réponse plus rapide.
Le besoin
L’objectif de l’entreprise était de créer une solution prédictive leur permettant de classifier le risque que présentait chaque candidat potentiel ayant appliqué en ligne. Ainsi pouvoir réduire le processus d’analyse de 30 jours à quelques jours seulement.
La solution prédictive devait être intégrée ou connectée à la plateforme de Prudential afin de permettre aux clients qui appliquent en ligne d’obtenir directement un premier estimé de leur prime. Mais aussi d’accélérer l’accès à l’information pour les analystes de la compagnie et ainsi permettre de compléter plus rapidement la demande du potentiel client.
Le défi
L’entreprise possédait plusieurs millions de clients. Pour le projet nous avions accès à un échantillon de 59 381 clients, avec 128 caractéristiques pour chacun d’eux. (âge, antécédents médicaux, caractéristiques socio-démographiques, etc.)
Voici, à haut niveau, les étapes de la création, de la mise à l’épreuve et du déploiement de la solution prédictive qui a permis de répondre au besoin d’affaire :
- Étape1 : Analyse et exploration descriptive et visuelle des données historiques des clients
- Étape2 : Nettoyage des données
- Étape3 : Préparation des données pour bâtir un modèle avec une meilleure précision
- Étape4 : Partitionnement des données (« épreuve et test »)
- Étape5 : Création et test des modèles
- Étape6 : Déploiement du modèle sous forme d’une API
- Étape7 : Intégration de l’API dans la plateforme du client de Prudential
À la vue de ces 6 étapes, on note qu’une bonne connaissance technique est nécessaire, en plus du temps de travail, qui s’échelonne facilement sur plusieurs semaines afin de produire le modèle final le plus précis possible. En effet, pour effectuer ce travail manuellement, il faut avoir des connaissances approfondies en :
- Modélisation prédictive, pour présélectionner les modèles et techniques. (Random trees, SVM, Bayesian Network, CHAID, Neural Net, etc)
- Préparation des données, pour améliorer la précision des modèles. (exclusion des valeurs aberrantes, remplacement ou suppression des valeurs manquantes, normalisation des valeurs continues, etc.)
- Développement d’API, pour déployer et encapsuler le modèle après l’avoir validé
Aussi, pour beaucoup d’entreprises, une telle analyse peut sembler impossible à accomplir sans expert à l’interne. Ce qui malheureusement en décourage plus d’un à investir des ressources dans de telles techniques.
La solution
Sachez que vous pouvez accomplir toutes les étapes présentées ci-haut avec des connaissances de base en statistique et dans des délais plus court qu’il en prendrait à un développeur et un statisticien! Grâce à des solutions comme IBM SPSS Modeler, vous pouvez effectivement aligner toutes les étapes du projet en seulement quelques heures de travail. D’ailleurs, Gartner a nommé l’outil « Magic Quadrant » d’IBM SPSS Modeler comme la solution pour effectuer ce travail.
Si l’on reprend le cas de Prudential, l’étape 2 de nettoyage de données avait été mise de côté car les données avaient déjà été mises au propre par l’entreprise. Il est toutefois important de souligner que, grâce aux modules de manipulations et de traitements des observations et des champs. Ainsi, il est facile de standardiser, d’anonymiser et d’uniformiser les données, en préparation aux étapes subséquentes.
Accédez à la suite de l’étude de cas: Comment devenir data scientist (lien vers la partie 2). Pour consulter la suite de la solution et voir les résultats.
Devenir data scientist chez Necando Solutions
Great blog you have here.. It’s hard to find excellent writing like yours these days.
I really appreciate individuals like you!
Take care!!