En s’appuyant sur les ressources de calcul haute performance de GENCI et de ses trois centres nationaux (TGCC du CEA, IDRIS du CNRS et CINES de France Universités), les chercheurs peuvent modéliser et analyser des données biologiques à grande échelle.
Plusieurs projets ayant eu recours aux ressources nationales de calcul et d’intelligence artificielle portent sur la recherche contre le cancer et plus particulièrement contre le cancer du sein.
Deux projets récents illustrent ce point :
- Le projet CLEOPART et les facteurs de risque environnementaux
Dans ce projet, mené par le Centre Léon Bérard – Département Prévention Cancer Environnement, les chercheurs vont se concentrer sur 13 composés chimiques contenus dans les particules de pollution (PM), comme par exemple : ammonium, nitrate, sulfate, poussières du Sahara, carbone suie, métaux (cadmium), dioxines, PCB153, etc. Ces substances sont issus des voitures, du chauffage, de l’industrie, etc. Ils vont estimer les expositions aux adresses résidentielles de 10444 femmes de la cohorte E3N Génération,entre 1990 et 2011, , en tenant compte de la taille des particules, de leur composition chimique, et de leur variabilité dans le temps et l’espace (ville, campagne, saison, etc.), grâce à des modèles d’exposition basés sur des données fournies par l’INERIS (un institut français spécialisé dans les risques environnementaux).
Les chercheurs vont aussi étudier l’effet des mélanges de polluants, pour se rapprocher d’une exposition réaliste . En effet, nous sommes constamment exposés à plusieurs substances en même temps. Pour cela, ils utiliseront des méthodes statistiques avancées (BKMR, WQS et BPR) qui permettent d’évaluer l’impact global de plusieurs polluants de façon simultanée.
Ils peuvent prendre en compte également les lieux d’exposition, en considérant les expositions au travail, et pendant les trajets domicile-travail. Afin de pallier aux limites, propre aux données exploitables sur la pollution avant 1990, ils vont créer des "proxies" — c’est-à-dire des estimations approximatives de l’exposition passée, à partir du lieu de naissance, des caractéristiques du quartier, et d’autres données géographiques et sociales.
Cela permettra de reconstituer un profil d’exposition sur toute la vie.
En résumé, ce projet ambitionne de savoir si la pollution de l’air augmente le risque de cancer du sein, d’identifier quels polluants sont les plus dangereux, et de mieux comprendre l’effet des expositions cumulées au fil du temps. Son originalité du projet tient notamment à sa granularité spatiale (prise en compte des adresses de résidence et professionnelle, ainsi que des trajets domicile-travail) et à son approche temporelle (reconstitution historique de l’exposition sur toute la vie adulte), en prenant en compte la résidence. Ces recherches soulignent l’importance d’une meilleure qualité de l’air pour la prévention du cancer du sein, en plus de leurs enseignements fondamentaux pour la santé publique.
- Le projet AION : décoder l’écosystème tumoral
Le projet AION (nom inspiré de la déesse grecque de l’éternité) a pour but de développer une intelligence artificielle (IA) capable de détecter très tôt les lésions précancéreuses dans les images de mammographie, et de prédire leur évolution sur 5 ans — autrement dit, savoir si ces anomalies risquent de devenir un cancer.
Le projet est mené par Therapixel, une entreprise qui développe des IA utilisées dans le dépistage du cancer du sein.
Trois grands points distinguent ce projet des IA existantes :
- Apprentissage non supervisé ("contrastive learning") : l’IA apprend toute seule à reconnaître des motifs importants dans les images, même sans qu’un humain ait indiqué à l’avance si l’image contient un cancer ou non. Ainsi, elle peut utiliser toutes les données disponibles : plus de 3 millions d’examens et 20 millions d’images.
- Prise en compte du texte médical associé. Chaque mammographie est souvent accompagnée d’un compte-rendu rédigé par le radiologue. L’IA va lier les images au texte (grâce à un outil appelé Q-Former) pour mieux comprendre le contexte et savoir où regarder dans l’image.
- Apprentissage par "examen complet" et non par image isolée. Une mammographie comprend plusieurs images (souvent 4 à 10 selon le cas). L’IA va alors apprendre à analyser toutes les images ensemble, ce qui lui permet de détecter des anomalies visibles seulement quand on compare les deux seins ou plusieurs angles de vue. Cela est essentiel, car certaines lésions ne sont détectables que par comparaison (par exemple, une asymétrie subtile entre les deux côtés).
Pour traiter un volume aussi énorme d’images (de très haute résolution : 4000x3000 pixels chacune), il faut des ordinateurs très puissants. Therapixel dispose déjà d’un cluster de machines performantes, mais pas assez puissantes pour ce type d’entraînement.
Le projet nécessite des cartes graphiques haut de gamme (GPU H100 avec 80 Go de mémoire) pour mener la recherche. Le recours aux ressources de calcul nationales s’est avéré nécessaire.
Le projet AION veut, en résumé, créer une IA de nouvelle génération capable de détecter les signes précoces du cancer du sein, prédire leur évolution dans le temps, et comprendre le contexte complet d’un examen (images + texte).
En combinant une énorme base d’images, des techniques d’apprentissage avancées et des moyens de calcul puissants, AION vise à améliorer considérablement le dépistage précoce du cancer du sein.
L’intérêt médical et plus largement sociétal des technologies en IA au service de la recherche ouverte et de son ambition collaborative trouvent une application dans la recherche sur le cancer du sein. Les moyens mis à disposition¹ par GENCI et les trois centres nationaux de calcul accélèrent ces travaux et sont accessibles gratuitement à l’ensemble de la communauté scientifique dédiée au cancer du sein, pour favoriser les avancées en modélisation numérique, data science et intelligence artificielle.
¹ Seules sont acceptées sur nos moyens de calculs des données dites non sensibles, conformément à la définition de la CNIL, et respectant les principes d’anonymisation des données médicales et personnelles.