À la rencontre de, JVM

À la rencontre de Chiara, Data Scientist chez NeoLynk !

  • 8 novembre 2019

Originaire d’Italie, Chiara notre future Data Scientist, s’installe pour la première fois en région parisienne pour ses études. Elle se spécialise en Business Decision Engineering à l’EPF à Sceaux (92). Nous sommes en 2015 et Chiara travail déjà au cours de son stage de fin d’études sur la mise en place d’un système cognitif de connaissance client.

Chiara comprend très vite que ses compétences en Data Science et en Analyse prédictive seront un atout majeur pour les organisations. En effet, l’utilisation des données massives permet aux entreprises d’augmenter leur potentiel sur un large éventail de cas d’usage.

interview-data-scientist

Dans son interview, notre Data Scientist nous explique comment elle a découvert sa passion pour la Data Science et les motivations qui l’ont poussé à évoluer dans cette spécialisation.

Chiara a cumulé des expériences professionnelles qui lui ont permis d’acquérir un bagage technique solide et une forte expertise. Inizia l’intervista !*

Ses premiers pas dans la Data Science !

NeoLynk. Qu’est ce qui t’as donné envie de travailler dans la Data Science ?

Chiara. J’ai commencé à m’y intéresser au tout début du Big Data et de ses nouvelles technologies lors de mes études en Italie. J’ai tout de suite voulu avoir à disposition beaucoup de données pour les analyser et créer de la valeur dans un business.

Je suis venue en France pour suivre des cours qui m’intéressaient. Il y a 5-6 ans la France était à la 2ème place après le Royaume-Uni dans ces nouvelles technologies. Les cours que j’ai eu m’ont fait comprendre l’impact que peut avoir l’analyse de données sur les entreprises. Ces analyses permettent notamment la réduction des coûts et l’augmentation des revenus. Cela m’a fortement motivé à travailler dans le Big Data et j’ai eu des professeurs captivants, comme Didier Gaultier, qui m’ont motivé durant mes études à continuer dans cette voie.

NeoLynk. Pourquoi être venue en France pour faire de la Data Science?

Chiara. Il y a beaucoup d’opportunités dans mon domaine ici. J’aime aussi beaucoup Paris, c’est une très belle ville.

NeoLynk. Te rappelles-tu du premier projet web sur lequel tu as travaillé ?

Chiara. À l’université j’ai créé un site web qui permettait de trouver les théâtres grâce à moteur de recherche.

Data-scientist-neolynk

NeoLynk. Comment as-tu choisi d’être Data Scientist ?

Chiara. Parce qu’on disait déjà à l’époque que la data c’était le pétrole du futur. Aujourd’hui la plupart des entreprises cherchent à exploiter la data. Sur les sites Internet, par exemple, elle permet de mieux cibler les clients, de proposer des produits adaptés à leurs besoins.

Un client appartient à une segmentation, c’est à dire, à un groupe de clients qui ont les mêmes comportements d’achat. Grâce à la quantité considérable de données à notre disposition, il est aujourd’hui possible d’aller plus loin que cette simple segmentation. On peut les cibler de manière très détaillée.

J’ai un profil multidisciplinaire. J’ai débuté dans l’ingénierie et je me suis focalisée sur la Data Science. Aujourd’hui j’analyse la data avec un point de vue business très fort.

“Le métier de Data Scientist nécessite une base de statistique, une base de programmation et un point de vue business.”

NeoLynk. As-tu quelques conseils à donner aux jeunes pas encore diplômés pour réussir dans le monde de la Data Science?

Chiara. Il faut réunir la partie business et la partie plus technique, maîtriser les deux. Le métier de Data Scientist c’est une base de mathématiques, statistique et une base de programmation. Il faut savoir maîtriser au moins une technologie utilisée aujourd’hui comme Python ou Spark si on s’oriente vers le Big Data. Ensuite il y a la partie business car il faut comprendre quel est le besoin et trouver comment créer de la valeur avec les techniques à disposition.

NeoLynk. Où se trouve le plaisir dans l’analyse de la data ?

Chiara. On n’est jamais sûr de la réponse quand on fait de la Data Science. C’est un processus itératif dans lequel on poursuit un objectif. Lorsqu’on arrive au résultat final et que l’on voit de la valeur qui se crée, c’est là que se trouve le plus grand plaisir, à la fin du projet.

Le dernier projet sur lequel j’ai travaillé consistait à automatiser un processus qui était totalement manuel. L’impact était énorme pour les grandes entreprises et pouvait leur faire gagner plusieurs millions d’euros à l’année. Les heures de travail sont réduites ou même supprimées lorsque certaines personnes peuvent consacrer leur temps à des activités à plus forte valeur ajoutée. Lorsqu’il s’agit de tâches très répétitives, il est possible de les automatiser grâce à l’intelligence artificielle. L’intelligence artificielle faible permet par exemple de reproduire une tâche humaine simple. Cela donne plus de temps aux ingénieurs pour dédier leur travail à des tâches de raisonnement.

“On était arrivé à 70% d’automatisation”

Un autre exemple, lorsque je travaillais pour une entreprise dans la télécommunication. Nous avons automatisé la résolution des alarmes du réseau. Avant, une personne se trouvait derrière son écran d’ordinateur et s’occupait des alertes les unes après les autres. Il voyait les out-put défiler jusqu’à la résolution de l’alarme. On était arrivé à 70% d’automatisation sur les alarmes qui étaient processées et il ne restait plus que les 30% restant à traiter manuellement pour finaliser la résolution.

Data Scientist, les bonnes pratiques

NeoLynk. Quelles sont les différences entre un(e) bon(ne) et un(e) mauvais(e) Data Scientist ?

Chiara. Pour moi il n’y a pas de profil type du Data Scientist parce que l’ampleur des connaissances à avoir est très grande. Il y a donc plusieurs profils différents et selon les projets certains vont s’orienter vers un sujet plutôt qu’un autre. Sur des rôles comme celui de Data Scientist c’est compliqué d’avoir une connaissance complète et détaillée sur tous les sujets.

data-science

NeoLynk. Existe t-il un langage de programmation que tu aimes plus que d’autres ?

Chiara. Je vais dire Python. C’est le langage le plus utilisé en Data Science ou machine learning. Il est très complet avec beaucoup de librairies à disposition.
En dehors du travail je gère un site d’e-commerce mais c’est sur Wix. Je ne suis pas vraiment une développeuse Web.

“On ne fait pas de Data Science sans données !”

NeoLynk. C’est quoi le plus difficile dans ton métier de Data Scientist ?

Chiara. Parfois il n’y a pas assez de données à notre disposition. Cela m’est arrivé une fois sur un projet. On a dû comprendre comment récolter la data pour pouvoir ensuite utiliser des approches machine learning plutôt que des approches Data Science.

Pour récolter ces données, il faut d’abord aller vers les Business Units et connaître quelles données ils ont à disposition. Il peut y avoir un audit de données, qui indique si les donnée sont qualitativement correctes ou pas et si elles sont suffisantes pour répondre au besoin. Grâce à l’expérience sur des projets similaires, on peut savoir de quel type de données on nécessite. S’il manque des données, il faudra prévoir de les récolter. On ne fait pas de Data Science sans données !

NeoLynk. Quel est le projet sur lequel tu as travaillé dont tu es le plus fière et pourquoi ?

Chiara. J’ai réalisé un projet pour prévoir l’impact des campagnes marketing que mes clients n’avaient aucun moyen de mesurer. Il y a aussi un projet portant sur la connaissance client où il fallait prédire l’attrition de clients. Cela servait à prévoir des actions commerciales pour les retenir. A chaque fois, il y avait un impact positif sur le business.

NeoLynk. Quelle est la meilleure organisation dans une entreprise pour interpréter le mieux possible la data ?

Chiara. J’aime lorsque l’équipe de data visualisation est proche des métiers. En effet les métiers veulent voir des indicateurs. L’équipe de dataviz présente ces indicateurs sur des dashboards en utilisant des données préparées par des Data Scientists, qui utilisent eux-mêmes des données d’entrée préparées par des Data Engineers. Tout le processus passe par ces 3 entités et l’équipe de dataviz doit se rapprocher des métiers car c’est elle qui parle le même langage.

“Un Data Scientist doit récupérer des données à un moment ou un autre.”

NeoLynk. Quelle est la différence entre un Data Scientist et un Data Engineer ?

Chiara. Un Data Scientist doit récupérer des données à un moment ou un autre. Il doit donc forcément connaître un peu le métier de Data Engineer. Si besoin, il doit également être capable de se connecter à la base de données et retrouver la donnée qu’il cherche.

Un Data Engineer doit surtout connaître le processus ETL** pour partir d’une source de données brutes. Il doit préparer la donnée, éventuellement la nettoyer, pour ensuite la stocker. Le stockage dépend de s’il s’agit de Big Data ou de streaming (données qui arrivent toutes les secondes ou millisecondes).

NeoLynk. Comment fais-tu de la veille sur les aspects technologiques Big Data et Data Science ?

Chiara. J’apprécie beaucoup Andrew Ng. Il est professeur à l’université de Stanford et donne des cours sur le machine learning. Il est très clair dans ses explications.

Sinon je continue à m’informer en suivant des cours en ligne sur Coursera par exemple, et aussi des vidéos sur YouTube. Je regarde des sources issues d’universités et la revue de Gartner, le Magic Quadrant, qui présente un classement des plateformes Data Science disponibles sur le marché.

Le contexte de son projet actuel et ses motivations d’avoir rejoint NeoLynk !

NeoLynk. Pourquoi avoir quitté Nokia pour rejoindre une ESN et notamment NeoLynk ?

Chiara. Je voulais évoluer et prendre en main une équipe, partager l’expertise que j’ai acquis durant ces 5 années d’expérience chez Nokia et comme consultante car j’ai travaillé sur beaucoup de problématiques Data Science. Quand j’ai commencé on ne parlait pas beaucoup de Data Science, elle venait d’apparaître.

NeoLynk est une entreprise intéressante, très active sur la partie web mais qui aspire à se renforcer sur la partie Data. Il y avait une opportunité d’embauche en Data Science et cela correspondait à ce que je cherchais. En plus l’endroit est sympa, ce qui donne l’impression d’une entreprise agréable. J’ai vu qu’il y avait des communautés, les Tribus. Le fait de partager en interne m’a beaucoup plu, je trouve ça très important. Se retrouver de façon régulière est une très bonne chose. Chez NeoLynk on n’a pas attendu d’être une grande entreprise pour mettre en place ce partage de connaissances et je trouve ça super !

”Il ne faudra pas faire uniquement de la recherche mais vraiment appliquer la Data Science pour obtenir quelque chose de tangible à moyen et court terme.”

NeoLynk. Peux-tu nous rappeler le contexte de ton projet ?

Chiara. Je vais intégrer une équipe de Data Scientists et de Data Engineers chez Carrefour en tant que PO. L’idée sera de comprendre les besoins métier, détecter les use cases et réfléchir à la définition d’une roadmap.

L’équipe de Data Engineers se chargera de la partie technologique pour déterminer quelle architecture d’extraction de données mettre en place. Les Data Scientists, établiront quels types de données sont disponibles et les modèles à développer. Il faudra aussi définir comment mettre en production la solution. Cela signifie qu’il faudra appliquer la Data Science pour obtenir quelque chose de tangible à moyen et court terme.

Le contexte est celui d’un projet e-commerce. Notre travail portera donc sur des données de navigation sur le site Internet et les achats en ligne. Nous pourrons ensuite recouper ces données avec d’autres données de Carrefour pour aller plus loin dans les analyses et les prédictions.

Il est possible d’acheter des produits et faire ses course sur le site Carrefour.fr. Nous devrons comprendre et améliorer les recommandations en ligne : proposer aux clients les produits qui peuvent les intéresser le plus, mettre en avant ces produits sur le site, accompagner les clients dans leurs achats.

NeoLynk. Quel est ton rôle dans ce projet ?

Chiara. J’aurai un rôle de PO, en particulier de cadrage sur les use cases. Je devrai définir les besoins clients, discuter de comment mettre en place le projet avec l’équipe d’architectes, de Data Engineer et aussi avec les Data Scientist pour tout ce qui concerne les données.

“La Data Science comme processus itératif”

NeoLynk. Comment la méthode Agile est-elle mise en place dans ton projet ?

Chiara. D’après mon expérience, les méthodes Agiles ne sont pas encore arrivées à maturité dans la Data Science. Elles le sont du côté web front-end et back-end mais la Data Science est plus récente donc il est difficile de mettre en place ce type de méthodologie de façon cadrée. La Data Science est un processus itératif, on essaie plusieurs modèles que l’on compare entre eux et on choisit le meilleur. Des fois cela apporte de bons résultats, des fois non. Cadrer un projet de ce type est un véritable challenge car il faut prévoir l’imprévu et trouver des solutions quand on est bloqué.

NeoLynk. Dans quel domaine la Data aura le plus d’impact dans les années à venir ?

Chiara. L’impact on le voit déjà, des métiers commencent à disparaître et certains métiers comme celui de Data Scientist ou Data Analyst prennent de l’importance. Je pense qu’on va atteindre des niveaux encore plus élevés en terme d’intelligence artificielle, surtout pour les entreprises qui disposent de beaucoup de données. Je pense que dans 5-10 ans il y aura vraiment un changement radical. Où il y a de la donnée, il y aura un impact dans le futur.

chiara-data-scientist

NeoLynk. Quelles sont tes attentes par rapport aux Tribus ?

Chiara. J’attend de découvrir les différents profils de NeoLynkers, voir les projets en cours, éventuellement faire des brainstorming pour répondre à des blocages. Je souhaite aussi partager les nouveaux outils découverts et si quelqu’un a un nouveau projet, qu’il explique quelle est sa démarche.

“Aujourd’hui, l’intérêt pour l’informatique grandit chez les femmes.”

NeoLynk. Que penses-tu de la place de la femme de le monde du numérique ?

Chiara. Je pense que ce n’est pas une question d’être un homme ou une femme. Je pense que tout dépend des capacités et motivations que l’on a. Je ne suis pas féministe en ce sens-là, même si je trouve que c’est toujours mieux d’avoir de la mixité dans une entreprise. C’est aussi le cas au niveau des origines et des backgrounds. Cela apporte un “plus”, cela permet d’avoir des points de vue différents, c’est enrichissant.

Personnellement, j’ai toujours eu la chance de travailler avec beaucoup de femmes dans la Data Science. Je n’ai pas rencontré ce problème de parité lors des mes précédentes expériences.

Aujourd’hui, l’intérêt pour l’informatique grandit chez les femmes. Je trouve que ce problème de parité commence à changer et je pense qu’il y aura de plus en plus de femmes dans le numérique. En tout cas en Data Science, d’après mes expériences, il y en a déjà.

Son futur et celui du Big Data

NeoLynk. Dans 5 ans, que veux-tu faire professionnellement parlant ?

Chiara. J’aimerais avoir une équipe, proposer des projets et les suivre. J’aimerais aussi travailler sur des projets dans le domaine de l’assurance ou de la finance.

NeoLynk. Quelle est l’avancée technologique que tu attends le plus ?

Chiara. Aujourd’hui on parle beaucoup de deep learning et ce qu’on appelle l’intelligence artificielle forte, celle qui devrait reproduire le fonctionnement du cerveau humain. Il y a deux projets en cours, le Human Brain Project et le projet BRAIN qui cherchent à le faire de façon complète mais qui ne sont pas encore aboutis. On est encore loin de réussir mais j’attend les résultats avec impatience.

NeoLynk. Dans le Big Data quel a été le fait le plus marquant ces derniers temps ?

Chiara. Le deep learning encore. C’est quelque chose qui a été pensé, développé dans les années 1950 et qui est revenu à la mode récemment comme si c’était quelque chose de nouveau. C’est un concept qui existe depuis longtemps mais aujourd’hui on a plus de données, on a plus de pouvoir computationnel et cela change tout.

C’est comme le cloud, c’est une technologie qui existait déjà mais qui est en train de changer. Tout le calcul distribué qu’on utilisait déjà avant possède aujourd’hui de nouvelles caractéristiques. La quantité de données produite augmente et donc la quantité de données à stocker aussi.

NeoLynk. Quelles évolutions attends-tu le plus dans la Data Science ?

“Ce qui manque au niveau méthodologique de la Data Science sont les Data Ops”

Chiara. Il existe déjà des technologies au niveau WorkFlow qui aident beaucoup les Data Scientists. Les algorithmes sont déjà codés, on n’a plus à les programmer nous-même à moins d’avoir un besoin très spécifique.

Il y aussi beaucoup de librairies disponibles aujourd’hui. Ce qui manque au niveau méthodologique en Data Science ce sont les compétences Data Ops, des compétences liées à l’industrialisation des projets. Il est vrai qu’aujourd’hui la Data Science est plutôt vue comme un métier de recherche, d’exploration, alors qu’il faut aussi construire des solutions scalable et résilientes.

NeoLynk. Le cloud a-t-il eu un impact sur ton métier ?

Chiara. Oui de plus en plus. On ne peut pas passer à côté du cloud car la donnée y est stockée, donc afin de l’utiliser il faut d’abord l’extraire. La virtualisation des machines est quelque chose à la mode en ce moment, qui prend de l’importance. La Data Science peut finalement se réduire à une application qui utilise des algorithmes appliqués à des données, donc l’infrastructure va forcément impacter la façon dont on récupère la donnée.

Les GAFA, sont vraiment les avant-gardistes par rapport à ces technologies car ils possèdent énormément de données. Cela s’explique par les UGC*** qui correspondent à l’ensemble des données créées lorsqu’un utilisateur est connecté. Les entreprises savent qu’utiliser ces données pourra les aider à faire du marketing ciblé et gagner de l’argent.

“Une licence Internet devrait être obligatoire pour informer les jeunes qu’Internet c’est très bien mais qu’il y a aussi beaucoup de dangers, notamment sur les réseaux sociaux.”

NeoLynk. Toi qui manipule des données toute la journée, fais-tu attention à protéger les tiennes ?

Chiara. Je fais juste attention à ce que mes droits soient respectés. Je reste consciente que ce qui se trouve à mon sujet sur Internet peut être récupéré par n’importe qui, à n’importe quel moment. Je pense qu’il ne faut pas penser à se défendre mais rester conscient des risques qu’il peut y avoir.

Lorsqu’on s’inscrit sur un site il faut faire attention aux données que l’on rentre. On réfléchit deux fois à ce que l’on rentre, surtout que maintenant tout le monde sait à peu près ce qu’est un cookie.

Je pense, toutefois qu’il faudrait que les gens soient formés. Une licence Internet devrait être obligatoire pour informer les jeunes mais aussi les plus âgés qu’Internet c’est très bien mais qu’il y a aussi beaucoup de dangers, notamment sur les réseaux sociaux.

Mieux connaître Chiara !

Le meilleur cadeau à faire à une Data Scientist ? Un cours MOOC
Le plat préféré d’une Data Scientist ? Un libanais
Le passe-temps préféré d’une Data Scientist ? Faire du sport, travailler sur des projets personnels
La meilleure blague que tu aies entendu ? Un coup de foudre éclate dehors. Le père fait signe à son enfant de ne pas s’inquiéter : “C’est juste la nature qui nous rappelle qu’il faut toujours faire un backup des données.”

Chiara-neolynker

*L’interview commence !
**extract load transform
***users generated contents