Clustering des trajectoires thérapeutiques pour la bronchopneumopathie chronique obstructive (BPCO) : comparaison des méthodes d’encodage de séquences

Event: 17ème Colloque Données de Santé en Vie Réelle de l’AFCROs, Paris, France

Authors: Romane Pean, Nina Temam, Diane Vincent, Marie Génin, Pauline Guilmin

Introduction

L’analyse des séquences thérapeutiques et évènements médicaux
est essentielle pour optimiser la prise en charge des patients. Cependant, la
complexité et variabilité de ces séquences posent un défi méthodologique. Le
clustering de séquences nécessite une étape d’harmonisation, qui peut être
assurée par un encodage des séquences sous forme de vecteurs numériques. A
notre connaissance, aucun consensus n’existe sur la meilleure approche d’encodage.

La BPCO est une maladie chronique fréquente pour laquelle
l’optimisation des parcours thérapeutiques est essentielle. Dans ce contexte,
cette étude compare trois méthodes d’encodage combinées au clustering afin d’évaluer
leur capacité à regrouper les trajectoires thérapeutiques des patients :
l’extraction de motifs séquentiels (A), la similarité entre séquences de caractères
(B), ainsi qu’une méthode d’apprentissage profond basée sur un autoencodeur
(C).

Méthodes

Les données proviennent de la cohorte Constances (1), chaînée
aux données du Système National des Données de Santé (SNDS). Chez les patients
diagnostiqués BPCO (spirométrie ou questionnaire), les cinq premières années de
traitements de fond inhalés (mono, bi ou trithérapies) (2) ont été dérivées via
les codes ATC7 (voir Annexe A). Des règles temporelles définissant la
concomitance et la durée des traitements ont été dérivées pour chaque patient.

Ces séquences ont ensuite été encodées selon trois méthodes
:

(A) ” SeqMining ” : extraction de sous-séquences récurrentes
via l’algorithme SPADE (3), générant des vecteurs binaires indiquant la présence
ou l’absence de motifs spécifiques.

(B) ” SeqToChar ” : représentation des séquences sous forme
de chaînes de caractères et calcul d’une matrice de similarité (Jaro (4)) par
paires.

(C) ” Autoencodeur ” : modèle d’apprentissage profond
apprenant des représentations continues des séquences dans un espace latent de
dimension réduite (5).

Un clustering k-médoïdes a été appliqué, avec une sélection
optimale du nombre de clusters basée sur le score de silhouette. L’évaluation
de l’homogénéité des clusters repose sur ce score ainsi que sur une
visualisation UMAP (6). La méthode d’encodage la plus performante a fait
l’objet de visualisations (7) des trajectoires thérapeutiques pour évaluer la
cohérence des regroupements et leur interprétabilité clinique.

Résultats

Parmi 4,982 patients atteints de BPCO, 1,926 ont reçu un
traitement d’intérêt en disposant d’un suivi de cinq ans et constituent la
cohorte étudiée. Chaque patient présente en moyenne 2 combinaisons thérapeutiques
successives, avec une majorité sous corticostéroïdes inhalés , seuls ou combinés
(90%).

Les trois méthodes d’encodage identifient des groupes homogènes
de trajectoires thérapeutiques.

La méthode ” SeqToChar ” présente un score de silhouette
seulement légèrement supérieur (0.63 vs. 0.54 pour ” SeqMining ” et 0.58 pour ”
Autoencodeur ”). Les visualisations des trajectoires, renforçant l’interprétabilité
des résultats, et réalisées pour chaque cluster, semblent montrer des profils
cliniquement cohérents.

Conclusion

Dans ce contexte, bien que les résultats suggèrent que la méthode
” SeqToChar” pourrait offrir une représentation légèrement plus pertinente des
séquences pour le clustering, la proximité des scores des autres méthodes suggère
qu’un consensus clair semble difficile à atteindre. Le choix de la méthode
privilégiée va maintenant reposer sur des arguments cliniques, analysés dans un
second temps.

Let’s bring science to impact together

Whether you’re interested in our work, looking to co-publish, or exploring to explore how
our insights can support your objectives, our team is here to connect.

Whether you’re interested in our work, looking to co-publish, or exploring to explore how
our insights can support your objectives, our team is here to connect.