Apprenti Data scientist – ingénieur en traitement automatique des langues F/H

Détail de l'offre

Informations générales

Entité de rattachement du publieur

L'Assistance publique-Hôpitaux de Paris (AP-HP) est un centre hospitalier universitaire à dimension européenne mondialement reconnu.
Ses 38 hôpitaux accueillent chaque année 10 millions de personnes malades : en consultation, en urgence, lors d'hospitalisations programmées ou en hospitalisation à domicile.
Elle assure un service public de santé pour tous, 24h/24, et c'est pour elle à la fois un devoir et une fierté.
L'AP-HP est le premier employeur d'Ile-de-France : 100 000 personnes – médecins, chercheurs, paramédicaux, personnels administratifs et ouvriers – y travaillent.

Au cœur de l'Institution, le Siège de l'AP-HP rassemble sous un même périmètre les directions fonctionnelles et les établissements qui lui sont rattachés :
CFDC (Centres de Formation et de Développement des Compétences), ACHAT (Achat Centraux Hôteliers Alimentaires et Techniques),
DRCI (Département de la Recherche Clinique et de l'Innovation) et DSN (Direction des Services numériques).
Avec ses 4000 collaborateurs, le Siège assure un rôle d'expert, de pilote et de coordinateur pour l'ensemble des hôpitaux.

Engagée dans des projets novateurs et stratégiques au service des patients, l'AP-HP recherche aujourd'hui de nouveaux talents pour mener à bien sa mission.
Vous êtes l'un d'eux ? Venez nous rejoindre !
  

Date de parution

09/04/2025

Description du poste

Métier

Informatique & Numérique - Expertise SI - Réseaux télécom & système - Infrastructure - Data

Intitulé du poste

Apprenti Data scientist – ingénieur en traitement automatique des langues F/H

Type de contrat

Apprentissage

Télétravail

Oui

Présentation du service

L’AP-HP est un centre hospitalier universitaire (CHU), qui s’organise en 6 GHU et 38 hôpitaux, traitant 8 millions de patients annuellement dans divers domaines médicaux. En tant que premier employeur d’Île-de-France, elle compte près de 100 000 professionnels. Elle assure un service de santé public 24/24. Pour en savoir plus : http://www.aphp.fr 

 

La Direction des Services Numériques (DSN) de l’AP-HP fournit des services numériques sécurisés aux professionnels et patients. Elle développe et gère plusieurs centaines de solutions, dont le dossier patient, la biologie, l’imagerie, l’espace patient et la gestion hospitalière, sur 70 000 postes. Elle administre ses infrastructures (réseau, data centers, téléphonie, wifi) et favorise la réutilisation des données de santé. Avec plus de 500 professionnels et un budget annuel de 204 M€, elle pilote 300 projets et recrute 100 professionnels par an.

 

Zoom sur les données et l’EDS !

Les données collectées dans le cadre de la prise en charge des patients, au travers du dossier patient informatisé, offrent la possibilité de constituer des bases de données pseudonymisées de très grandes dimensions et ouvrent des perspectives nombreuses pour la recherche appliquée en santé, mais également l’innovation et le pilotage de l’activité hospitalière. 

L’AP-HP a été parmi les pionniers dans le domaine en constituant le premier entrepôt des données de santé (EDS) hospitalier autorisé par la CNIL en 2017 et aujourd’hui le plus grand en Europe.

 

Vos missions

Au sein de l’équipe data science, vous aurez pour mission de développer, valider et maintenir des algorithmes et bibliothèques logicielles scientifiques facilitant l’exploitation des données de l’entrepôt de données de santé. Vous vous concentrerez en particulier sur les outils de traitement automatique du langage permettant de transformer les données non structurées textuelles de l’EDS en données structurées directement exploitables. Vous vous appuierez pour cela sur les nombreux projets de recherche et de pilotage déjà engagés sur l’EDS avec qui vous consoliderez leur expression de besoins ainsi que sur les premiers développements réalisés par l’équipe science des données. Les développements que vous réaliserez seront diffusés au sein de la communauté de recherche de l’AP-HP afin d’être utilisés par les chercheurs pouvant en bénéficier.

 

Vos missions consisteront à développer et maintenir des bibliothèques scientifiques adaptées au contexte spécifique de l’EDS (en particulier les projets EDS-PDF). Vous pourrez être amené.e à contribuer à des articles scientifiques valorisant d’un point de vue académique ces différents travaux. 

 

L’objectif principal de l’apprentissage est le développement d’une extension de la bibliothèque EDS-PDF. Cette bibliothèque vise à extraire le contenu textuel pertinent des comptes rendus médicaux stockés au format pdf. L’extension visera notamment à mieux intégrer les formulaires et les documents scannés. Des méthodes d’apprentissage profond (deep learning) et d’analyse de données massives (big data) devront être mobilisées pour mener à bien vos missions. Vous pourrez être amené.e à consolider un corpus d’entraînement et de validation. D’autres missions du périmètre de l’équipe pourront être confiées à l’apprentis en fonction de son avancement et de sa capacité à produire. Une attention particulière sera donnée à la qualité du code, au respect des bonnes pratiques collaboratives et à la capacité à communiquer sur les travaux réalisés. 

 

Missions principales :

- Développement, validation et maintenance de bibliothèques logicielles scientifiques écrites en Python facilitant l’intégration et l’exploitation des données de l’EDS ;

- Développement de modèles de machine learning (ML) pour pré-traiter les données ;

- Rédaction des documentations (technique et utilisateur) ;

- Revue de littérature scientifique et présentation de travaux de l’état de l’art ;

Profil recherché

Compétences :
- Vous êtes étudiant en machine learning et avez des connaissances avancées dans le domaine du développement de modèles de machine learning (Tensorflow, Pytorch etc.) en python ;
- Vous avez de l'expérience en analyse de bases de données (SQL), en calcul distribué et en data management (Spark, etc.) ;
- Vous avez une appétence forte pour le traitement automatiques des langues (NLP) ;
- Vous avez une appétence pour le domaine de la santé ;
- Vous avez une appétence pour le déploiement de modèles statistiques/de machine learning ;
- Vous êtes en capacité de lire la littérature scientifique ;

Prérequis :
- Master 1 (ou équivalent bac + 4) d'une formation délivrant un diplôme d'ingénieur ou de master en machine learning, intelligence artificielle, science des données et/ou traitement de données massives
- Expérience professionnelle dans le domaine des données de santé appréciée

Savoir-faire et savoir être :
- Esprit d'équipe et fort sens du relationnel
- Autonomie, rigueur, méthode
- Excellentes aptitudes relationnelles et à la communication, capacité d'écoute et de vulgarisation, capacité de formation (aisance à l'oral, diplomatie)
- Capacité de travail importante, associée à un fort dynamisme.
- Curiosité et capacité d'adaptation et d'anticipation
- Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé

Horaires de travail

35h

Les avantages de l'AP-HP

Vos avantages à l'AP-HP

Un accès au self au 1er niveau de prix
Une prise en charge du titre de transport à 75% et/ou du versement d’une indemnité dans le cadre du forfait mobilités durables
Une offre de sorties culturelles,des réductions et des bons plans (HOPTISOINS)

Localisation du poste

Localisation du poste

France, Ile-de-France, Paris (75)

Ville

Paris 12

Hôpital et/ou site

Direction des Services Numériques