Une nouvelle approche d’analyse automatique de réponses de questionnaires patients basée sur les modèles de langages

Event: 14ème colloque annuel des Données de Santé en Vie Réelle 2022, AFCROs, Paris, France

Authors: L. Deplante, P. Hayat, M. Rollot

Introduction 

Les questionnaires à réponse ouverte représentent un outil précieux de la recherche épidémiologique pour recueillir la perception des patients sur leur maladie, leur qualité de vie ou leur prise en charge, et améliorer ces dernières [1]. L’analyse des “topics” (i.e. sujets) de réponses peut être automatisée via des méthodes de traitement automatique du langage (Natural Langage Processing, NLP). Ces méthodes permettent notamment d’extraire les thèmes principaux des textes et de les regrouper par topics. Les méthodes de topic modeling traditionnellement utilisées ([2], [3]) se prêtent cependant mal au format généralement court des réponses de questionnaires. En effet, ces modèles font l’hypothèse que les textes regroupent plusieurs sujets et se basent sur la co-occurrence de mots pour identifier les topics. Dans le cas des textes courts, les co-occurrences sont rares, et ces modèles conventionnels donnent des résultats de mauvaise qualité.

Méthode

Nous introduisons une nouvelle méthodologie permettant de regrouper automatiquement des textes courts par topics en fonction de leur proximité sémantique plutôt que de la co-occurrence des mots. Des représentations vectorielles incorporant le sens des textes (appelées “embeddings”) sont d’abord obtenues avec un modèle de langage pré-entraîné Sentence-BERT [4]. Afin de faciliter l’interprétation, les dimensions de ces embeddings sont réduites avec l’algorithme UMAP [5], puis un modèle de clustering regroupe les textes sémantiquement proches [6]. Les clusters sont ensuite labellisés à partir des mots les plus prévalents contenus dans les textes qu’ils regroupent afin d’obtenir les topics de réponses finaux.

Résultats

Cette méthodologie a été implémentée pour analyser les réponses de plusieurs milliers de patients à un questionnaire sur les causes de la non-observance de leur traitement. Les réponses contenaient en moyenne 5 à 7 mots. Notre méthode a permis de dégager une quinzaine de topics parmi les réponses des patients et de regrouper les réponses en fonction de ces topics. Après vérification et comparaison, les regroupements obtenus avec notre approche sont sémantiquement plus cohérents et interprétables que ceux obtenus avec les méthodes conventionnelles de topic modeling.

Conclusion

Cette méthode permet d’extraire les tendances d’un grand volume de réponses courtes. Elle peut être utilisée pour une large palette d’applications en santé, pour catégoriser des réponses de patients à des questionnaires, ou recueillir de l’information sur les médias sociaux, par exemple rechercher des effets secondaires sur des forums de santé en ligne.

Let’s bring science to impact together

Whether you’re interested in our work, looking to co-publish, or exploring to explore how
our insights can support your objectives, our team is here to connect.

Whether you’re interested in our work, looking to co-publish, or exploring to explore how
our insights can support your objectives, our team is here to connect.