Détail de l'offre
Mise en place d'un data lake et industrialisation de pipelines de données F/H (2026-175588)
Mise en ligne le 19/06/2026
- Type de contrat :
- Stage
- Niveau de formation :
- BAC +4 / BAC +5
- Spécialité(s) :
- Recherche & Développement
- Pays / Région :
- France / Ile-de-France
- Département :
- Essonne (91)
- Ville :
- 7 boulevard Gaspard monge 91120 PALAISEAU
Description de l'offre
CONTEXTE ET OBJECTIF DU STAGE
La R&D du groupe EDF, intervient sur l’ensemble des métiers et activités du secteur de l’énergie. Elle soutient les différentes entités du groupe avec une double mission : optimiser les performances des activités actuelles et préparer l’avenir grâce à des technologies de rupture.
Au sein de la R&D d’EDF, le Département SYSTEME contribue à la préparation de l’avenir du Groupe EDF dans le domaine des réseaux électriques. En particulier, le département s’intéresse à l’impact sur le réseau électrique de l’augmentation
massive et locale de consommation d’énergie liée à la croissance du marché des véhicules électriques (VE).
Dans ce contexte, l’équipe manipule des données hétérogènes liées à la mobilité, aux territoires et aux véhicules électriques. Aujourd’hui, ces données et les scripts de traitement associés sont dispersés entre différents espaces de stockage, notebooks Python, scripts MATLAB et fichiers locaux. Cette organisation limite la valorisation, la traçabilité et la reproductibilité des analyses.
L’objectif du stage est de contribuer à la mise en place d’un data lake permettant de centraliser ces données, de structurer les traitements existants et de faciliter leur exploitation pour des analyses liées à la mobilité électrique.
DEROULEMENT DU STAGE
Le ou la stagiaire réalisera d’abord un état des lieux des données et traitements existants, afin d’identifier les sources, les formats utilisés et les besoins de l’équipe.
Il ou elle proposera ensuite une organisation simple et robuste du data lake, par exemple autour de zones raw, processed et éventuellement curated, en séparant clairement les données brutes, les données transformées et les jeux de données prêts pour l’analyse.
Les principales missions du stage seront :
- Structurer le stockage des données dans notre datalake et définir des conventions simples (organisation, nommage, format, mettre en place un catalogue de données avec versionnage).
- Aller chercher des données en opendata complémentaire à celle qu’on a déjà et le mettre en forme pour nos études
- Réaliser des analyses exploratoires et visualisations pour suivre la qualité des données et appuyer les études sur la mobilité électrique.
- Mettre en place des pipelines d’extraction et de transformation pour rendre les traitements reproductibles, avec une première logique d’orchestration, par exemple Makefile
Profil souhaité
PROFIL RECHERCHE :
Stage de niveau Bac +3 à Bac +5
Profil : étudiant ou étudiante curieux, rigoureux et intéressé par la manipulation de données, la programmation et les problématiques liées à la mobilité électrique.
COMPETENCES DEMANDEES :
• Connaissances solides en conception de datalake et manipulation de gros volume de données.
• Python : bases solides attendues, notamment pour manipuler des fichiers et des tableaux de données avec Pandas / NumPy / Plotly.
• Git / GitLab : connaissance nécessaire pour le suivi des modifications du code et le travail collaboratif
• Intérêt pour la qualité du code, la documentation et la reproductibilité des traitements.
• Des connaissances en visualisation de données, en SQL, en MinIO/S3, en MATLAB ou en outils de pipeline sont un plus, mais ne sont pas indispensables.
CONDITIONS DU STAGE
Unité d’accueil :
EDF Lab Saclay – Département SYSTEME
7 boulevard Gaspard Monge, 91120 Palaiseau
Durée : 2-3 mois à partir de mi-juillet 2026
Le stage est rémunéré selon la convention EDF
Prise en charge des transports en commun : 50%
Télétravail : 1 à 2 jours par semaine
Contacts :
Nicolas PRADIGNAC : nicolas.pradignac@edf.fr
Sophie BERCU : sophie.bercu@edf.f