Atelier codage SPARK chez Sewan

Le mercredi 3 mai, Sewan accueillait en son sein le Paris Machine Learning hors-série #11, articulé autour d’un workshop SPARK (framework open source de calcul distribué).

Après avoir passé un test online (qui consiste à retrouver un code alphanumérique dans un Notebook Jupyter) , une quarantaine de développeurs se sont retrouvés chez Sewan pour un atelier codage animé par Leonardo Noleto, data scientist.

Le programme :

– Charger et enregistrer des données volumineuses au format CSV sans souffrance

– Utiliser l’API DataFrame pour faire une analyse exploratoire simple

– Analyser la donnée via SQL avec SparkSQL (et oui, le bon et vieux SQL a toujours la côte)

– Utiliser les tableaux croisés dynamique

– Utiliser Parquet, un format de stockage performant et structuré de plus en plus utilisé en entreprise.

 

Un grand merci à tous les participants !