JVM

10 choses que j’aurais aimé savoir avant d’utiliser Spark en production

  • 18 avril 2019

Sur la thématique Spark en production, nos deux NeoLynkers Himanshu et Nitya, tous deux Data ingénieur, ont récemment été speakers à des événements majeurs dans le domaine du Big Data.

Leur talk :“10 choses que j’aurais aimé savoir avant d’utiliser Spark en production” a été présenté au ScalaUA 2019, Scalar 2019 et au Devoxx France 2019 !

Ce talk, travaillé et répété au cours de la Tribu JVM de NeoLynk, est destiné à tous ceux qui utilisent Spark et qui souhaitent rendre les jobs plus rapides et moins consommateurs de ressources !

Spark en production les bonnes pratiques

Dans ce talk, nos deux NeoLynkers partagent leurs expériences sur l’utilisation de Spark en production. On y retrouve les techniques avancées d’optimisation de Spark Tuning, les formats de sérialisation des données, les formats de stockage, les optimisations hardware, contrôle sur la parallélisme, paramétrages de resource manager, meilleur data localité et l’optimisation du GC etc.

Retrouvez également dans ce talk l’utilisation optimale de RDD, DataFrame et Dataset pour profiter des améliorations internes données par Spark.

La vidéo du talk durant le ScalaUA 2019

Mieux connaître les deux speakers

Présentation de Himanshu

Présentation de Nitya