L’évaluation des technologies d’intelligence artificielle en médecine est notoirement insuffisante, ce qui n’est pas sans risque pour leur développement.
Dans l’industrie médicale, la régulation progresse suite à l’avènement de problèmes. On pourrait presque dire que plus les problèmes sont importants, plus l’industrie médicale progresse. Avant 1937, les laboratoires pharmaceutiques n’étaient pas tenus de démontrer la sûreté médicale de leurs produits. Ils devaient juste ne pas mentir sur leur contenu et leurs caractéristiques. Il a fallu la mort d’une centaine d’enfants – un fabricant de médicaments avait ajouté de l’antigel dans un antibiotique pour lui donner un goût de fraise – pour que la Food and Drug Administration (FDA) exige des industriels des preuves de sécurité. Mais les laboratoires pharmaceutiques n’étaient toujours pas tenus de démontrer l’efficacité des médicaments. C’est un autre scandale, celui lié à la prise du thalidomide, qui provoqua ce changement réglementaire. On estime qu’au moins 10 000 bébés sont nés avec une phocomélie et que des milliers d’autres sont morts in utero à cause de ce produit. S’il ne fut jamais commercialisé aux États-Unis car l’agence américaine ne l’avait pas autorisé, le pays modifia sa législation. L’acharnement d’Estes Kefauver, un avocat devenu sénateur, fut déterminant pour convaincre le Président Kennedy. En 1962, la FDA commença à exiger des preuves d’efficacité pour approuver les médicaments, donnant naissance au développement clinique tel qu’on le connaît aujourd’hui, avec ses essais de phases I, II et III. Ce système de phases est donc une invention de l’agence et non des industriels, comme Daniel Carpenter l’a montré.1 Ses fondamentaux méthodologiques et réglementaires n’ont pas beaucoup évolué même si certains relâchements ont été observés.2 La FDA a approuvé depuis plus de mille nouveaux médicaments selon ce standard.
À l’époque de Kefauver, les ordinateurs existaient déjà, mais l’intelligence artificielle (IA) n’était qu’un concept. Depuis environ dix ans, elle a commencé à devenir un sujet courant en médecine même si elle en est encore à ses prémices. Une nouvelle génération de produits technologiques pénètre l’industrie médicale. Leurs promesses sont immenses. Les produits d’IA doivent permettre de mieux reconnaître et de mieux prédire, ce qui doit préciser les prises en charge et éviter la dispersion. Le champ d’application est aussi vaste que le système de santé lui-même. Le potentiel est transformatif.
À l’époque de Kefauver, les ordinateurs existaient déjà, mais l’intelligence artificielle (IA) n’était qu’un concept. Depuis environ dix ans, elle a commencé à devenir un sujet courant en médecine même si elle en est encore à ses prémices. Une nouvelle génération de produits technologiques pénètre l’industrie médicale. Leurs promesses sont immenses. Les produits d’IA doivent permettre de mieux reconnaître et de mieux prédire, ce qui doit préciser les prises en charge et éviter la dispersion. Le champ d’application est aussi vaste que le système de santé lui-même. Le potentiel est transformatif.
Une évaluation non superposable à celle des médicaments
Mais la question du développement clinique de l’IA médicale n’est pas réglée. Les recommandations des régulateurs ou des groupes scientifiques sont seulement partiellement définies. L’histoire de la pharmacie nous donne une base mais pas un cadre. Il existe trop de différences entre l’IA et les médicaments pour penser que le développement de la première réplique celui des seconds. En effet, au moins trois caractères distinctifs rattachés à l’IA viennent immédiatement à l’esprit : l’opacité, la plasticité et la familiarité.
D’abord l’opacité. L’IA dominante délivre des résultats de façon peu transparente. Les algorithmes de machine learning prédisent mais n’expliquent pas. Ce n’est pas nécessairement un drame, mais c’est un sujet. Les machines ont très souvent raison, mais pas toujours. L’absence de compréhension des (rares) erreurs reste une question ouverte, sur laquelle beaucoup de chercheurs travaillent.
Ensuite, ces technologies sont plastiques alors que les molécules sont fixes. Les produits d’IA peuvent évoluer tout le temps, et c’est d’ailleurs ce qu’on leur demande. Ce sont des modèles auto-apprenants qui changent quand ils sont exposés à de nouvelles données. Cette plasticité doit être un avantage puisqu’elle leur permet de s’améliorer sans cesse, mais elle crée une nuance fondamentale lorsqu’il s’agit d’évaluer leurs performances.
Une troisième différence entre médicaments et IA tient à leur degré de familiarité. Nous connaissons bien la pharmacie. Même si tout nouveau médicament a sa spécificité, les principes de son maniement sont invariants. Nous avons beaucoup moins d’expérience avec l’IA. L’interaction entre l’humain et la machine a sans doute plus de chances de dévier en pratique par rapport à une utilisation idéale qui en fait n’existe jamais. On peut s’attendre à une hétérogénéité des usages et donc des résultats.
Ces trois traits de l’IA justifient de singulariser son développement par rapport aux essais cliniques pharmaceutiques habituels.
D’abord l’opacité. L’IA dominante délivre des résultats de façon peu transparente. Les algorithmes de machine learning prédisent mais n’expliquent pas. Ce n’est pas nécessairement un drame, mais c’est un sujet. Les machines ont très souvent raison, mais pas toujours. L’absence de compréhension des (rares) erreurs reste une question ouverte, sur laquelle beaucoup de chercheurs travaillent.
Ensuite, ces technologies sont plastiques alors que les molécules sont fixes. Les produits d’IA peuvent évoluer tout le temps, et c’est d’ailleurs ce qu’on leur demande. Ce sont des modèles auto-apprenants qui changent quand ils sont exposés à de nouvelles données. Cette plasticité doit être un avantage puisqu’elle leur permet de s’améliorer sans cesse, mais elle crée une nuance fondamentale lorsqu’il s’agit d’évaluer leurs performances.
Une troisième différence entre médicaments et IA tient à leur degré de familiarité. Nous connaissons bien la pharmacie. Même si tout nouveau médicament a sa spécificité, les principes de son maniement sont invariants. Nous avons beaucoup moins d’expérience avec l’IA. L’interaction entre l’humain et la machine a sans doute plus de chances de dévier en pratique par rapport à une utilisation idéale qui en fait n’existe jamais. On peut s’attendre à une hétérogénéité des usages et donc des résultats.
Ces trois traits de l’IA justifient de singulariser son développement par rapport aux essais cliniques pharmaceutiques habituels.
Des évaluations surtout rétrospectives et monocentriques
Plusieurs équipes de Stanford viennent de publier une revue systématique de tous les produits d’IA autorisés par la FDA entre janvier 2015 et décembre 2020.3 Les auteurs ont analysé les méthodes de développement de 130 produits qui sont considérés par le régulateur américain comme des dispositifs médicaux. En résumé et entre autres trouvailles, ils ont rapporté que la quasi-totalité des produits approuvés avaient soumis des études rétrospectives. Aucun des dispositifs considérés comme à haut risque n’avait été testé prospectivement. Une étude rétrospective n’est pas un essai clinique et n’a pas la même valeur scientifique. Une deuxième observation était qu’une minorité de produits avaient été développés de façon multicentrique. On connaît déjà les risques associés à un testing géographiquement restreint, à savoir notamment une surestimation des effets observés.4 Dans le cas de l’IA, ces risques restent valables. Il est indispensable que les modèles soient développés sur des populations diversifiées et représentatives de la population d’application.5
D’autres revues avaient déjà montré des insuffisances similaires. Ce travail – qui sera suivi d’autres en série – délivre au moins deux messages d’importance. D’abord, le développement clinique des produits d’IA ne répond pas à toutes les questions qu’on se pose, ce qui n’est pas une nouveauté. Des inconnues existent aussi lors de l’autorisation des médicaments. Ensuite, l’évaluation post-commercialisation va être essentielle. Elle n’est que faiblement régulée dans la pharmacie, ce qui engendre des variations monumentales entre les médicaments.6 Les particularités de l’IA abordées plus haut rendent possible et justifient à la fois un processus de revue continue. Pour l’instant, les régulateurs et les groupes scientifiques « sèchent » un peu sur ce point.
D’autres revues avaient déjà montré des insuffisances similaires. Ce travail – qui sera suivi d’autres en série – délivre au moins deux messages d’importance. D’abord, le développement clinique des produits d’IA ne répond pas à toutes les questions qu’on se pose, ce qui n’est pas une nouveauté. Des inconnues existent aussi lors de l’autorisation des médicaments. Ensuite, l’évaluation post-commercialisation va être essentielle. Elle n’est que faiblement régulée dans la pharmacie, ce qui engendre des variations monumentales entre les médicaments.6 Les particularités de l’IA abordées plus haut rendent possible et justifient à la fois un processus de revue continue. Pour l’instant, les régulateurs et les groupes scientifiques « sèchent » un peu sur ce point.
Trois risques
Les failles de développement clinique génèrent trois risques problématiques pour l’industrie médicale. Premièrement et comme pour tout produit, il existe une possibilité que les technologies d’IA ne tiennent pas leurs promesses. Certaines se révéleront inefficaces en pratique, non pas par défaut intrinsèque mais parce qu’elles seront mal appliquées. Deuxièmement, il y a un sujet économique. Toute nouvelle technologie implique des coûts directs et indirects. Les coûts directs viennent de l’achat et du remboursement même si, pour l’instant, leur importance est anecdotique. Les coûts indirects sont liés aux retombées sur le système de santé, comme l’impact des recommandations faites par les machines. Ces retombées ont de sérieuses chances d’être efficientes, mais un mauvais développement serait responsable de mauvaises dépenses. Troisièmement, il y a le risque de contrecoup. Si certains produits d’IA ne tenaient pas leur promesse en termes de performance, l’effet en termes de confiance pourrait ralentir l’adoption des technologies d’IA en général.
Ces trois risques justifient qu’une attention extrême soit apportée au développement clinique de l’IA. Sinon, nous progresserons mais avec des problèmes.
Ces trois risques justifient qu’une attention extrême soit apportée au développement clinique de l’IA. Sinon, nous progresserons mais avec des problèmes.
Jean-David Zeitoun est l’auteur de La Grande Extension, histoire de la santé humaine, paru aux éditions Denoël.
Références
1. Carpenter D. Reputation and Power. Princeton University Press 2010.
2. Darrow JJ, Avorn J, Kesselheim AS. FDA approval and regulation of pharmaceuticals, 1983-2018. JAMA 2020;323(2):164-76.
3. Wu E, Wu K, Daneshjou R, Ouyang D, Ho DE, Zou J. How medical AI devices are evaluated: limitations and recommendations from an analysis of FDA approvals. Nat Med 2021;27(4):582-4.
4. Dechartres A, Boutron I, Trinquart L, Charles P, Ravaud P. Single-center trials show larger treatment effects than multicenter trials: evidence from a meta-epidemiologic study. Ann Intern Med 2011;155(1):39-51.
5. Jérusalmy S, Zeitoun JD. Les données de santé : le nerf de la guerre. Les Échos 2020 [cité le 31 octobre 2020]. Disponible sur : https://www.lesechos.fr/idees-debats/cercle/opinion-les-donnees-de-sante-le-nerf-de-la-guerre-1260911
6. Zeitoun JD, Ross JS, Atal I, Vivot A, Downing NS, Baron G, et al. Postmarketing studies for novel drugs approved by both the FDA and the EMA between 2005 and 2010: a cross-sectional study. BMJ Open 2017 21;7(12):e018587.
2. Darrow JJ, Avorn J, Kesselheim AS. FDA approval and regulation of pharmaceuticals, 1983-2018. JAMA 2020;323(2):164-76.
3. Wu E, Wu K, Daneshjou R, Ouyang D, Ho DE, Zou J. How medical AI devices are evaluated: limitations and recommendations from an analysis of FDA approvals. Nat Med 2021;27(4):582-4.
4. Dechartres A, Boutron I, Trinquart L, Charles P, Ravaud P. Single-center trials show larger treatment effects than multicenter trials: evidence from a meta-epidemiologic study. Ann Intern Med 2011;155(1):39-51.
5. Jérusalmy S, Zeitoun JD. Les données de santé : le nerf de la guerre. Les Échos 2020 [cité le 31 octobre 2020]. Disponible sur : https://www.lesechos.fr/idees-debats/cercle/opinion-les-donnees-de-sante-le-nerf-de-la-guerre-1260911
6. Zeitoun JD, Ross JS, Atal I, Vivot A, Downing NS, Baron G, et al. Postmarketing studies for novel drugs approved by both the FDA and the EMA between 2005 and 2010: a cross-sectional study. BMJ Open 2017 21;7(12):e018587.