L’accuratezza degli algoritmi di IA per la diagnostica dei tumori cutanei (epiteliomi, basaliomi e melanomi) è stata dimostrata in molti studi di confronto con i dermatologi e talvolta l’IA ha dimostrato maggiore accuratezza[1]. In realtà la validazione nella pratica clinica non è ancora dimostrata. I risultati di una competizione internazionale tra algoritmi e dermatologi, organizzata dall’International Skin Imaging Collaboration, ridimensionano le aspettative e richiamano l’importanza della validazione degli algoritmi in setting clinici e non solo sperimentali[2].
Gli algoritmi sono stati valutati su due dataset di immagini, riguardanti 8 malattie cutanee (nevi, melanomi, cheratosi benigne, dermatofibromi, basaliomi, epiteliomi, lesioni vascolari e cheratosi attinica). Una ulteriore categoria riguardava immagini diagnostiche non incluse nel dataset di training. Sono state considerate, diversamente dai comuni studi sperimentali, anche immagini che meglio riflettono la pratica clinica, cioè caratterizzate dalla presenza di “artefatti” come croste o ulcerazioni sopra la lesione, peli o capelli, segni di penna, pigmentazione. Il miglior algoritmo ha ottenuto in media un’accuratezza dell’82% sul dataset “ideale” e del 60% su quello “reale” con una differenza del 22%. L’accuratezza scende ancora se si considerano le immagini che raffigurano un tipo di lesione non contenuta nelle immagini di allenamento, in massima parte lesioni infiammatorie benigne e cicatrici. Tra i primi 25 algoritmi testati, la categoria non presente nelle immagini di addestramento è stata classificata correttamente solo nell’11% dei casi. In quasi la metà dei casi le immagini sono state assegnate alla categoria delle neoplasie, in gran parte basaliomi (32,4%) ma anche melanomi (7,8%) ed epiteliomi spino cellulari (6,9%).
Nella realtà clinica tali predizioni di falsa positività porterebbero ad un aumento di biopsie non necessarie con relativo carico di preoccupazioni e ansietà per I pazienti e le loro famiglie. Da notare che nell’individuazione della categoria non inclusa nei dati di training, gli algoritmi hanno fallito rispetto agli umani, con una sensibilità del 6% contro il 26%.
Gli autori dell’articolo concludono che «questi risultati evidenziano i problemi di sicurezza legati all’impiego di algoritmi automatizzati in ambito clinico e la necessità di progettare metodi migliori per identificare immagini al di fuori dell’area di competenza di un algoritmo, al fine di evitare biopsie non necessarie o melanomi mancati, che si sarebbero verificati se fossero stati impiegati gli algoritmi testati in questo lavoro».
Riflessioni conclusive
Una delle limitazioni che pregiudicano in parte, a oggi, l’impiego di sistemi di AI in medicina e, in particolare, lo sviluppo di strumenti diagnostici, sono gli errori di selezione nella scelta dei campioni su cui tali sistemi vengono istruiti e che rendono l’algoritmo non applicabile alla pratica quotidiana.
Un grande volume di dati non corrisponde automaticamente a una migliore qualità delle inferenze e delle applicazioni che da queste derivano[3]. Il valore dei dati non è infatti nella loro ampiezza ma nella validità del percorso che ha portato alla loro utilizzazione, base della stima della validità di qualsiasi ricerca, al fine di non giungere a inferenze causali sbagliate che potrebbero determinare una scarsa generalizzabilità dei risultati e potenziali gravi errori diagnostici oltre che sottrazione di risorse nei confronti di interventi di dimostrata efficacia.
Bibliografia
- Esteva A et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017; 542: 115-118
- Combalia M et al. Validation of artificial intelligence prediction models for skin cancer diagnosis using dermoscopy images: the 2019 International Skin Imaging Collaboration Grand Challenge. Lancet Digit Health 2022; 4: e330–39
- Collecchia G, De Gobbi R. Intelligenza artificiale e medicina digitale. Una guida critica. Il Pensiero Scientifico Editore, Roma, 2020