Un nouvel outil d’IA suit la fraude à Medicare dans une « vaste mer » de mégadonnées

Medicare est sporadiquement compromis par des réclamations d’assurance frauduleuses. Ces activités illégales passent souvent inaperçues, permettant à des criminels à plein temps et à des prestataires de soins de santé sans scrupules d’exploiter les vulnérabilités du système. Selon la National Health Care Anti-Fraud Association, la fraude annuelle est estimée à plus de 100 milliards de dollars l’année dernière, mais elle est probablement beaucoup plus élevée.

Pour détecter la fraude à Medicare, un nombre limité d’auditeurs ou d’enquêteurs sont traditionnellement chargés d’examiner manuellement des milliers de demandes, mais ne disposent que de suffisamment de temps pour rechercher des modèles très spécifiques indiquant un comportement suspect. De plus, il n’y a pas suffisamment d’enquêteurs pour suivre les différents stratagèmes frauduleux de Medicare.

L’exploitation de grandes quantités de données, telles que les dossiers des patients et les paiements des prestataires, est souvent considérée comme le meilleur moyen de créer des modèles d’apprentissage automatique efficaces pour la détection des fraudes. Cependant, dans le domaine de la détection des fraudes à l’assurance-maladie, le traitement de données volumineuses déséquilibrées et d’une dimensionnalité élevée – des données dans lesquelles le nombre de caractéristiques est incroyablement élevé, rendant les calculs extrêmement difficiles – reste un défi important.

Une nouvelle recherche du Collège d’ingénierie et d’informatique de la Florida Atlantic University relève ce défi en détectant les activités frauduleuses dans la « vaste mer » de données volumineuses de Medicare. Parce que l’identification de la fraude est la première étape pour la prévenir, cette nouvelle technique pourrait permettre au système Medicare d’économiser des ressources importantes.

Pour l’étude, les chercheurs ont systématiquement testé deux grands ensembles de données Medicare déséquilibrés, la partie B et la partie D. La partie B comprend la couverture Medicare des services médicaux tels que les visites chez le médecin, les soins ambulatoires et autres services médicaux non couverts par un séjour à l’hôpital. La partie D, quant à elle, fait référence aux prestations de médicaments sur ordonnance de Medicare et couvre les coûts des médicaments. Ces ensembles de données ont été marqués de la Liste des personnes et entités exclues (LEIE). Le LEIE est fourni par le Bureau de l’Inspecteur général des États-Unis.

Les chercheurs ont étudié l’impact du sous-échantillonnage aléatoire (RUS), une technique de collecte de données simple mais puissante, et leur nouvelle technique de sélection de caractéristiques supervisée par un ensemble. En Russie, des échantillons sont prélevés au hasard dans la classe majoritaire jusqu’à ce qu’un certain équilibre soit atteint entre les classes minoritaires et majoritaires.

La conception expérimentale a examiné divers scénarios allant de l’utilisation de chaque technique isolément à son utilisation combinée. Après avoir analysé chaque scénario, les chercheurs ont à nouveau sélectionné les techniques qui produisaient les meilleurs résultats et ont effectué une analyse des résultats entre tous les scénarios.

Les résultats de l’étude, publiés dans le Journal du Big Data, montrent que les techniques intelligentes de réduction des données améliorent la classification des grandes données Medicare très déséquilibrées. L’application synergique des deux techniques – RUS et sélection supervisée de fonctionnalités – a surpassé les modèles qui utilisent toutes les fonctionnalités et données disponibles. Les résultats ont montré que soit la combinaison de l’utilisation de la technique de sélection de fonctionnalités suivie de RUS, soit l’utilisation de RUS suivie de la technique de sélection de fonctionnalités offrait les meilleures performances.

Par conséquent, lors de la classification des deux ensembles de données, les chercheurs ont constaté qu’une technique avec la plus grande réduction de données offrait également les meilleures performances, à savoir la technique qui effectue la sélection des caractéristiques puis applique le RUS. La réduction du nombre de fonctionnalités conduit à des modèles plus explicables et les performances sont nettement meilleures que l’utilisation de toutes les fonctionnalités.

Les performances d’un classificateur ou d’un algorithme peuvent être influencées par plusieurs effets. Deux facteurs qui peuvent rendre difficile la classification des données sont la dimensionnalité et le déséquilibre des classes. Un déséquilibre de classe dans les données étiquetées se produit lorsque la grande majorité des instances de l’ensemble de données ont une étiquette particulière. Ce déséquilibre présente des obstacles car un classificateur optimisé pour une mesure telle que la précision peut signaler à tort une activité frauduleuse comme non frauduleuse afin d’améliorer le score global de la mesure.

Taghi Khoshgoftaar, Ph.D., auteur principal et professeur Motorola, Faculté de génie électrique et d’informatique de la FAU

Pour la sélection des fonctionnalités, les chercheurs ont utilisé une méthode de sélection de fonctionnalités supervisée basée sur des listes de classement des fonctionnalités. Ces listes ont ensuite été combinées dans un classement de fonctionnalités significatif en mettant en œuvre une approche innovante. Pour fournir une référence, des modèles exploitant toutes les fonctionnalités des ensembles de données ont également été créés. Pour établir ce classement consolidé, les fonctionnalités ont été sélectionnées en fonction de leur position dans la liste.

“Notre approche systématique a permis de mieux comprendre l’interaction entre la sélection des fonctionnalités et la robustesse du modèle dans le contexte de plusieurs algorithmes d’apprentissage”, a déclaré John T. Hancock, auteur principal et étudiant diplômé. Étudiant au Département de Génie Électrique et Informatique de la FAU. “Il est plus facile de réfléchir à la manière dont un modèle effectue des classifications lorsqu’il est construit avec moins de fonctionnalités.”

Pour les ensembles de données Medicare Part B et Part D, les chercheurs ont mené des expériences dans cinq scénarios qui exploitaient les possibilités d’utilisation ou d’omission des techniques de réduction des données RUS et de sélection de fonctionnalités. Pour les deux ensembles de données, les chercheurs ont constaté que les techniques de réduction des données amélioraient également les résultats de classification.

« Compte tenu de l’énorme impact financier de la fraude Medicare, les résultats de cette étude importante offrent non seulement des avantages informatiques, mais améliorent également de manière significative l’efficacité des systèmes de détection de fraude », a déclaré Stella Batalama, Ph.D., doyenne du FAU College of Engineering et L’informatique. “Si elles sont utilisées correctement pour détecter et arrêter la fraude à l’assurance Medicare, ces méthodes pourraient améliorer considérablement la qualité des soins de santé en réduisant les coûts associés à la fraude.”

Les co-auteurs de l’étude sont Huanjing Wang, Ph.D., professeur d’informatique à la Western Kentucky University ; et Qianxin Liang, titulaire d’un doctorat. Étudiant au Département de Génie Électrique et Informatique de la FAU.

Source:

Université de Floride Atlantique

Référence du magazine :

Hancock, JT, et autres. (2024). Techniques de réduction des données pour les Big Data Medicare hautement déséquilibrés. Journal des mégadonnées. est ce que je.org/10.1186/s40537-023-00869-3.

Source