Secteur public

Recours à l'IA et au calcul accéléré pour éliminer le gaspillage, la fraude et le vol

Objectif

Stimulation des évaluations de lecture grâce à la reconnaissance vocale pour que les enfants développent leur amour de l’apprentissage et puissent bâtir un avenir meilleur.

Client

Administration fiscale

Partenaire

Cloudera

Utilisation

Science des données

Technologie

NVIDIA AI Enterprise
NVIDIA RAPIDS

L’IRS s’appuie sur des outils d’IA, l’apprentissage automatique et des applications de détection des fraudes accélérées par des GPU de NVIDIA

Comme dans toutes les autres industries, les exigences gouvernementales en matière de données et de rendement ont augmenté de façon exponentielle. En plus du défi que représente la gestion des besoins en données, les organismes publics doivent éviter efficacement le gaspillage, la fraude et les abus afin de garantir l’utilisation éthique de l’argent des contribuables.

Le Government Accountability Office (GAO) a récemment identifié 36 opérations requérant une transformation pour se conformer aux besoins en gestion des données, notamment dans les domaines à haut risque qui affectent le commerce, l’économie et la sécurité à l’échelle nationale. 

En l’absence d’une infrastructure informatique adéquate, les organismes gouvernementaux ont peiné à analyser et à trier efficacement de grands volumes de données, rendant nécessaire une intervention humaine fréquente. Il leur est donc difficile d’exécuter efficacement les opérations basées sur les données nécessaires pour conserver la confiance du public.

Pour relever ces défis, l’IRS utilise des outils d’IA accélérés par l’infrastructure de NVIDIA, l’apprentissage automatique et des applications de détection des fraudes.

Applications de détection des fraudes accélérées par des GPU de NVIDIA

Efficacité insuffisante des CPU et de l'homme

Pour lutter contre la fraude fiscale et démasquer les fraudeurs, les enquêteurs de l’IRS doivent analyser des décennies de données pour retrouver des individus et des transactions suspectes, mais aussi retracer des transactions à travers différentes étapes et plusieurs points sur des graphiques. 

Dans le cadre de cette mission, un data scientist de l’IRS a été chargé de passer au peigne fin plus de 3 téraoctets de données et d’identifier les schémas frauduleux. Malheureusement, la puissance informatique disponible était insuffisante. Malgré toute une nuit de recherche dans une importante banque de CPU, le projet n'a pu aboutir. L’équipe a tenté de décomposer les jeux de données, serveur par serveur, mais a dû assembler manuellement les sous-ensembles de données pour faire fonctionner la solution. Malgré tous ces efforts manuels minutieux, une véritable visibilité en matière de détection des fraudes en temps réel demeurait impossible. 

Pour améliorer ces tâches axées sur les données, l’IRS met en œuvre des outils d’IA, d’apprentissage automatique et des applications très puissantes capables d’analyser rapidement les fraudes et l'usurpation d’identité. 

Cette accélération par 20 a permis à l’IRS de détecter les fraudes

Cette nouvelle combinaison d’infrastructures informatiques et de solutions logicielles a permis à l’IRS de mettre rapidement et facilement en œuvre l’IA et l’apprentissage automatique de manière évolutive. Avec Cloudera exécuté sur des GPU de NVIDIA, les charges de travail ont immédiatement été jusqu’à 5 fois plus rapides avec les changements de code. Mais une marge d’amélioration persistait.

Cloudera a fait appel à une équipe de spécialistes des données de NVIDIA pour examiner le code IRS. Celle-ci a déterminé que certaines tâches liées à des structures de données particulièrement complexes continuaient à être exécutées sur des CPU. NVIDIA a créé un nouveau code pour gérer ces tâches et l’a inséré dans l’interface logicielle de Spark pour NVIDIA RAPIDS™, sa bibliothèque ouverte pour l’analyse des données sur GPU.

Lorsque l’équipe de l’IRS a transféré le nouveau code sur des GPU dans un cluster distribué de Spark, elle a constaté une vitesse multipliée par 20. 

En développant des charges de travail utilisant Apache Spark et des analyses graphiques, les équipes d’ingénierie ont créé des graphiques immenses avec des nœuds et des limites. Grâce à l’analyse des graphiques par des robots basés sur l’IA et des algorithmes d’apprentissage automatique, les enquêteurs ont pu relier des individus à des institutions et, par la suite, à de grandes entités sur des années et des décennies. Ces observations ont permis d’exposer rapidement des schémas frauduleux.

Les jeux de données qui nécessitaient des semaines voire des mois pour s’associer et lancer des procédures le font désormais en quelques heures ou minutes. Les tests ont révélé une efficacité multipliée par 10 des workflows d’ingénierie et de sciences des données, ainsi qu’une réduction de 50 % des coûts d’infrastructure. 

Capitalisation sur le succès pour mieux protéger les contribuables

Grâce à l’amélioration de son infrastructure informatique et à la mise en œuvre de l’IA, l’IRS réduit ses coûts et protège mieux les contribuables en prévenant la fraude et l'usurpation d’identité. 

Fort de son succès dans la préparation des données et l’analyse des données, l’IRS prévoit d'accélérer les tâches d’inférence avec l'IA et d'utiliser l’infrastructure basée sur des GPU de Spark pour se lancer dans le traitement du langage naturel et d’autres tâches d’analyse. 

Au sein du gouvernement, l’IA et le calcul accéléré présentent d’innombrables possibilités d’améliorer les performances. D’autres organismes gouvernementaux suivant les transactions pour réduire le gaspillage, le vol et la fraude peuvent prendre exemple sur l’IRS et moderniser leur infrastructure et leurs logiciels pour passer un palier en termes d’efficacité opérationnelle et de service public. 

"L’intégration des technologies de Cloudera et de NVIDIA devrait nous permettre d’utiliser des informations axées sur les données pour mener à bien des cas d’utilisation critiques. Nous mettons actuellement en œuvre cette intégration et nous constatons déjà une vitesse multipliée par 20 pour des coûts de workflows d’ingénierie et de science des données divisés par deux."

Joe Asaldi
Directeur technique de la recherche, de l’analyse appliquée et des statistiques, IRS

Résultats

  • 20 fois plus rapides pour l’exécution d’expériences de data scientists

  • Réduction de 50 % du coût des workflows dans le domaine de la science des données et de l’ingénierie des données

Continuez à apprendre

Découvrez comment NVIDIA contribue à accélérer l’innovation dans le secteur public.