Détail de l'offre
Stage - Data Scientist #CEDID - F/H (2025-152637)
Mise en ligne le 29/01/2026
- Type de contrat :
- Stage
- Niveau de formation :
- BAC +4 / BAC +5
- Spécialité(s) :
- Gestion et valorisation de la donnée
- Pays / Région :
- France / Ile-de-France
- Département :
- Hauts-de-Seine (92)
- Ville :
- Puteaux (La Défense)
Description de l'offre
Au sein de la Direction Transformation et Efficacité Opérationnelle (DTEO), le CEDID (Centre d’Excellence Data IA & Développement) du Groupe EDF impulse, accompagne, contribue à la Transformation Numérique du Groupe. Elle communique et élabore la vision globale des systèmes d’informations en lien avec la stratégie du Groupe EDF. Au service de tous les métiers du Groupe, elle contribue à développer la performance du Groupe par la Data et l’IA. Dans ce cadre, la Data IA & Factory du CEDID conçoit des solutions sur-mesure pour répondre aux besoins complexes des métiers de la production et du transverse, en s’appuyant sur des approches avancées d’intelligence artificielle.
L'équipe Data & IA Factory regroupe une trentaine de personnes, composée de data scientists, de data analysts, de data engineers, et de chefs de projet. Le mode de travail est en mode projet agile, avec nos clients internes, à savoir les producteurs d'énergie des filières nucléaire, hydraulique, thermique et énergies renouvelables ainsi que les filières transverses. Les travaux réalisés sont des travaux d'études, sédentaires, mais nécessitent de rencontrer régulièrement les donneurs d'ordre métier et/ou les maitrises d'oeuvre SI qui nous fournissent les données et exploitent notre data lake (réunions en région parisienne principalement).
Objet du stage :
La Data & IA Factory mène de nombreux projets en traitement du langage naturel (NLP), notamment autour des moteurs de recherche et des systèmes RAG. Ces projets concernent la production d’électricité et s’appuient sur des documents riches en vocabulaire technique propre à EDF. Des termes comme "tranche", "palier" ou "chaussette" y ont des significations très spécifiques, différentes du langage courant.
Or, les modèles d’embeddings open source, peu exposés à ce jargon, produisent souvent des résultats peu pertinents. Jusqu’à présent, chaque projet nécessitait donc un finetuning supervisé spécifique, avec annotation par les experts métiers — une approche efficace mais chronophage.
Des travaux ont été entrepris pour entraîner un premier modèle d’embeddings entraîné sur un corpus interne. Le stage proposé s’inscrit dans la continuité de ces travaux et vise à faire évoluer le modèle d’embeddings, afin de constuire un modèle d’embeddings interne réutilisable dans l’ensemble des cas d’usage de l’entreprise.
La durée de stage envisagée pour ce poste est de 6 mois.
Vous percevrez une gratification mensuelle dont le montant dépend de votre niveau d'étude ainsi que du diplôme préparé.
Ce qu’EDF peut vous offrir :
Vous profitez des activités sociales de l’entreprise
Vous bénéficiez d’un remboursement minimum de 50% de votre titre de transport
Une prise en charge de vos dépenses d’hébergements peut vous être proposée sous conditions.
Chez EDF, notre objectif est d’ouvrir nos portes à toutes les compétences, toutes les énergies et toutes les personnalités sans exclusion. Le poste proposé est donc ouvert à toutes et à tous.
Profil souhaité
Objectifs du stage :
Poursuivre l’entraînement et l’évaluation d’un modèle d’embeddings EDF, spécialisé sur notre vocabulaire technique, en menant les actions suivantes:
- Construire un corpus EDF enrichi : intégration de nouvelles sources de données, nettoyage, normalisation et mise en forme ;
- Réaliser un état de l’art sur les principales architectures et approches d’entraînement de modèles d’embeddings et identifier les plus adaptées au contexte ;
- Entraîner le modèle sur de nouvelles architectures et entraîner le tokenizer
- Évaluer le modèle de manière approfondie : comparaison avec l’état de l’art, analyse par domaine (nucléaire, thermique, hydraulique…), définition de nouvelles métriques de performance ;
- Documenter les résultats et proposer des pistes d’amélioration pour les futures itérations du modèle ;
- Partager les apprentissages en animant des retours d’expérience techniques au sein de l’équipe Data IA Factory.
Ce modèle servira ensuite de socle commun à l’ensemble des projets NLP de la Data & IA Factory permettant des gains de performance et une réduction des besoins en annotation.
Spécialisation du diplôme : Data Science – Mathématiques appliquées – Statistiques – Machine Learning – programmation Python – bibliothèques NLP : Hugging Face Transformers, PyTorch, Datasets.
Soft skills : rigueur, esprit critique, esprit de synthèse, esprit d’équipe.
Dans le groupe EDF, accueillir des personnes en situation de handicap fait partie de notre ADN.
Notre objectif est d’ouvrir nos portes à toutes les compétences, toutes les énergies et toutes les personnalités sans exclusion. Le poste proposé est donc ouvert à toutes et à tous.
Rejoindre EDF c’est intégrer :
Un Groupe international, qui innove pour développer des énergies neutres en CO2.
Avec 230 métiers différents il y en a forcément un pour vous !
Une entreprise engagée dans l’accueil et la formation des étudiant. Plus de 90% des étudiants recommandent EDF l’issue de leur alternance ou de leur stage
(source : enquête Happy Trainees 2024).
Une opportunité vers une embauche : en 2023, 38% des recrutements de jeunes diplômés étaient issus de l’alternance et du stage.
Ces offres pourraient vous intéresser :
-
-
CDI
-
France
-
Indre et Loire (37)
-
Gestion et valorisation de la donnée
-
-
-
CDI
-
France
-
Hauts-de-Seine (92)
-
Gestion et valorisation de la donnée
-
-
-
CDI
-
France
-
Seine et Marne (77)
-
Gestion et valorisation de la donnée
-