Actualités 20 mai 2022

Collaboration Octopize x HDH sur la génération de données synthétiques en santé

La génération de données synthétiques est un enjeu majeur pour faciliter l’utilisation des données de santé. Il existe pour cela des approches très différentes, qui permettent de répondre à des...

La génération de données synthétiques est un enjeu majeur pour faciliter l’utilisation des données de santé. Il existe pour cela des approches très différentes, qui permettent de répondre à des besoins divers. Dans le cadre de leurs travaux respectifs, le Health Data Hub et Octopize lancent ce mois-ci une collaboration pour proposer à la communauté un document pédagogique sur ce sujet.

Le respect de la confidentialité est un enjeu majeur du traitement des données de santé, du fait de leur sensibilité. Mesures de sécurité techniques et organisationnelles, pseudonymisation, anonymisation des résultats font généralement partie de l’arsenal déployé pour le traitement sécurisé de ces données source à des fins de recherche.

 

Dans certains cas, il est toutefois possible d’adopter une toute autre approche pour garantir le respect de la confidentialité des données sensibles : utiliser des données synthétiques ! Générées de manière à ne présenter aucun risque pour la vie privée – puisqu’elles ne sont associées à aucune personne réelle – tout en maintenant la valeur informative des données originales sur certains aspects cruciaux, ces données fictives permettent de décupler les usages des données de santé. Formation, estimations de faisabilité, appréhension de jeux de données complexes, voire réalisation d’études complètes avec des résultats statistiquement équivalents : les données de synthèse constituent une voie prometteuse pour faciliter l’usage des données de santé.

 

Un tutoriel interactif sur la génération de données synthétiques en santé

 

La génération de données synthétiques représentatives des données sources reste aujourd’hui un sujet actif de recherche, pour lequel différentes approches co-existent. Le Health Data Hub, par exemple, a développé et publié en open source un générateur de données fictives respectant la structure formelle d’une base de données de santé, en se basant uniquement sur le schéma de la base source. La société Octopize-Mimethik data a, quant à elle, développé une solution dite d’Avatarisation permettant de générer, à partir des données sources, des profils fictifs (les Avatars) qui “conservent la qualité et la structure des données originales”.

 

Dans le cadre de ces travaux complémentaires, le Health Data Hub et Octopize-Mimethik Data lancent ce mois-ci une collaboration pour la création d’un tutoriel qui permettra d’explorer de manière interactive et pédagogique différentes approches à la génération de données synthétiques en santé. Prenant la forme d’un notebook Python, ce tutoriel présentera les grands enjeux associés à cette problématique, ainsi que les avantages et inconvénients de différentes méthodes permettant de générer de telles données. Le notebook sera publié en open source une fois finalisé, au troisième trimestre 2022.

COMMUNIQUÉ de PRESSE

Retour aux actualités