Le mercredi 3 mai, Sewan accueillait en son sein le Paris Machine Learning hors-série #11, articulé autour d’un workshop SPARK (framework open source de calcul distribué).
Après avoir passé un test online (qui consiste à retrouver un code alphanumérique dans un Notebook Jupyter) , une quarantaine de développeurs se sont retrouvés chez Sewan pour un atelier codage animé par Leonardo Noleto, data scientist.
Le programme :
– Charger et enregistrer des données volumineuses au format CSV sans souffrance
– Utiliser l’API DataFrame pour faire une analyse exploratoire simple
– Analyser la donnée via SQL avec SparkSQL (et oui, le bon et vieux SQL a toujours la côte)
– Utiliser les tableaux croisés dynamique
– Utiliser Parquet, un format de stockage performant et structuré de plus en plus utilisé en entreprise.
Un grand merci à tous les participants !