Informations générales
Entité de rattachement du publieur
La Direction des Services Numériques (DSN) de l'AP-HP est chargée de fournir des services numériques sécurisés, adaptés aux besoins des professionnels et des patients.
Son objectif est de contribuer à une meilleure prise en charge, ainsi qu'au développement de la recherche et de l'innovation.
Elle développe et gère plusieurs centaines de services numériques, regroupés dans un catalogue, incluant le dossier patient informatisé, les systèmes de biologie et d'imagerie, l'espace patient mon.aphp.fr, les progiciels de gestion et de facturation, ainsi que l'offre bureautique sur plus de 70 000 postes de travail.
Elle administre également ses infrastructures avec un réseau interne, trois centres de données, avec une offre de services sur la téléphonie et sur les accès par wifi sur les sites de l'AP-HP. Elle accompagne la réutilisation des données de santé pour répondre aux besoins de pilotage de l'activité hospitalière, d'amélioration du parcours médico-administratif des patients, ou encore de la recherche et d'innovation, au travers de l'entrepôt de données de santé. Elle offre un support informatique unifié, en lien avec les directions des systèmes d'information des 6 groupes hospitalo-universitaires (GHU), des pôles d'intérêt commun (PIC) et des sites.
Date de parution
13/05/2026
Description du poste
Métier
Informatique & Numérique - Expertise SI - Réseaux télécom & système - Infrastructure - Data
Intitulé du poste
Apprenti(e) Data Engineer F/H
Type de contrat
Apprentissage
Rémunération
Grille nationale - Majoration possible pour les niveaux bac +5
Télétravail
Oui
Présentation du service
L’AP-HP est un centre hospitalier universitaire, qui s’organise en 6 GHU et 38 hôpitaux.
La Direction des Services Numériques (DSN) de l’AP-HP fournit des services numériques sécurisés aux professionnels et patients.
Le pôle Innovation & Données s’articule autour de :
- L’innovation numérique : le développement de projets numériques et de services en ligne;
- L’Entrepôt de Données de Santé de l’AP-HP : l’accompagnement des porteurs de projets, la mise à disposition d’une infrastructure sécurisée et évolutive, ainsi que d’outils d’intégration, de visualisation, d’exploration et de traitement des données. L’EDS propose également des bibliothèques scientifiques et des algorithmes accessibles en open source ;
- La bio-informatique : le déploiement d’expertises et d’outils auprès des services de génétique de l’AP-HP. Une offre de services en bio-informatique est également proposée à des partenaires externes via la plateforme SeqOIA ;
- Les maladies rares : le pilotage de la Banque Nationale de Données Maladies Rares (BNDMR).
Zoom sur les données et l’EDS !
Les données collectées dans le cadre de la prise en charge des patients offrent la possibilité de constituer des bases de données et ouvrent des perspectives nombreuses pour la recherche appliquée en santé, l’innovation et le pilotage de l’activité hospitalière. L’AP-HP a été parmi les pionniers dans le domaine en constituant le premier entrepôt des données de santé hospitalier et aujourd’hui le plus grand en Europe.
Vos missions
Au sein de l'équipe Ingénierie des Données, vous aurez pour mission de contribuer à la conception, au développement et à la fiabilisation des pipelines de données alimentant l'Entrepôt de Données de Santé (EDS), afin d'en garantir la qualité et la disponibilité pour les chercheurs et les professionnels de santé.
Dans le cadre de votre apprentissage, vous serez amené·e à travailler sur des projets impliquant :
· L'intégration de sources de données hétérogènes issues du Système d'Information hospitalier,
· Le traitement et la transformation de volumes massifs de données de santé,
· L'industrialisation et le monitoring de traitements au sein d'une plateforme Big Data.
Vous travaillerez en étroite collaboration avec les équipes de data science et d'analyse des données pour garantir la fiabilité, la performance et la traçabilité des solutions développées. En vous appuyant sur les pipelines et les projets déjà en place, les missions principales de l'apprentissage seront :
· Développer et maintenir des jobs Spark (Scala et/ou Python) pour l'intégration, la transformation et la mise en qualité des données
· Contribuer à l'orchestration des pipelines de données avec Apache Airflow (conception de DAGs, gestion des dépendances, monitoring)
· Participer au déploiement et à l'exploitation des traitements sur Kubernetes (configuration Helm, debugging, gestion des ressources)
· Contribuer à l'optimisation des requêtes et des modèles de données
· Mettre en place et maintenir des tests automatisés sur les données et les pipelines
· Participer aux pratiques DevOps de l'équipe : intégration continue sur GitLab, revues de code, déploiement via ArgoCD
· Documenter les traitements, les schémas de données et les procédures d'exploitation
Une attention particulière sera portée à la qualité du code produit, au respect des bonnes pratiques d'ingénierie logicielle (tests, documentation, revue de code) et à la capacité à travailler dans un environnement collaboratif. Des objectifs annuels précis seront établis avec le maître d'apprentissage Alexandre MOUCHET.
Profil recherché
Compétences :
• Vous êtes étudiant·e en informatique, data engineering ou traitement de données massives et possédez un intérêt marqué pour l'ingénierie des données et les systèmes distribués
• Bonnes connaissances en Python et/ou Scala
• Bonnes connaissances en SQL (requêtage, modélisation, optimisation)
• Connaissances des frameworks de traitement distribué (Spark, ou équivalent)
• Connaissances en orchestration de workflows (Airflow, ou équivalent)
• Notions de conteneurisation et d'orchestration (Docker, Kubernetes)
• Notions de gestion de version et d'intégration continue (Git, CI/CD)
• Connaissances des technologies de stockage et d'interrogation de données (PostgreSQL, Trino, S3, HDFS…)
• Appétence pour les pratiques DevOps et l'infrastructure as code
• Déontologie, respect du secret professionnel et sensibilité à la protection des données de santé
Prérequis :
• Formation en cours (M1 ou M2 Alternance) délivrant un diplôme d'ingénieur ou de master en informatique, data engineering, sciences des données ou traitement de données massives
• Maîtrise de l'anglais technique indispensable (documentation, lecture d'articles, échanges écrits)
Savoir-faire et savoir-être :
• Curiosité technique et envie d'apprendre dans un environnement complexe
• Bonne capacité d'analyse et esprit de synthèse
• Rigueur dans l'écriture de code et le traitement des données
• Autonomie et sens de l'initiative
• Capacité d'adaptation face à des problématiques variées
• Sens du travail en équipe et aptitude à collaborer avec des profils pluridisciplinaires (data scientists, analystes, médecins)
• Force de proposition
• Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé
Horaires de travail
35h
Les avantages de l'AP-HP
Schéma Horaire
Jour
Temps de travail
7h
Vos avantages à l'AP-HP
Possibilité de télétravail si le poste le permet ;
Remboursement partiel des transports en commun (75%) et/ou forfait mobilité ;
Accès au restaurant du personnel à tarifs avantageux ;
Une offre de sorties culturelles, des réductions et des bons plans (HOPTISOINS) ;
Localisation du poste
Localisation du poste
France, Ile-de-France, Paris (75)
Ville
Paris 12
Hôpital et/ou site
Direction des Services Numériques