Tester un modèle en Deep learning : la stratégie et la méthodologie pour réussir

Le développement de l’intelligence artificielle amène son lot de défis, dont celui de la qualité des modèles de Machine learning et Deep learning. Ce qui implique de mener des tests rigoureux. Lesquels requièrent une méthodologie bien spécifique.

Une stratégie de test à adapter à son cas d’usage


La cybersécurité, le secteur militaire, la finance, la santé, le marketing, l’assistance vocale, la surveillance, la sécurité humaine… Les champs d’application de l’IA sont vastes. On attend beaucoup des modèles Machine learning et Deep learning entraînés pour supplanter l’humain dans de nombreux cas d’usage : améliorer la détection, faciliter un diagnostic, prendre la bonne décision au bon moment, etc.

Certains domaines sont évidemment beaucoup plus sensibles que d’autres. Les conséquences d’une erreur restent plus problématiques en santé qu’en marketing. Un challenge de taille ! Il convient, en effet, de déterminer en amont une stratégie de tests rigoureuse qui fixe le taux d’erreur acceptable pour leur cas d’usage.

« Il s’évalue à l’aune du secteur d’activité, il y a des taux d’erreur plus préjudiciables que d’autres, note Khanh, Consultant test de TSI Consulting Services. Le seuil d’erreur est propre à chaque entreprise en fonction de son domaine d’activité : d’où la nécessité d’avoir une vraie stratégie dans sa politique de tests ». Et au besoin, de se faire accompagner pour la mettre en place, la questionner et l’affiner.

Une méthodologie de tests spécifique et exigeante


Un point ô combien sensible qui rend l’évaluation qualitative des modèles de Machine learning et Deep learning d’autant plus indispensable. Objectif : s’assurer qu’ils atteignent les valeurs fixées. Car la non-qualité peut s’avérer lourde de conséquences pour les entreprises : coût financier important, risques juridiques, image de marque altérée…

« Le bénéfice de la qualité ne peut se mesurer qu’en le comparant au coût de la non-qualité, estime Salomon Elgozi, CEO et co-fondateur de TSI Consulting Services. Le test a, certes, un coût mais nous savons aussi ce que coûte la non-qualité ! »

Et en matière de méthodologie, tester un modèle de Deep learning a ses particularités versus le test logiciel classique. « Un programme logiciel classique est dit « déterministe », mis au point pour embarquer une logique, une fonctionnalité, une intelligence métier dont les résultats seront toujours identiques » explique Khanh.

En Machine learning et plus particulièrement en Deep learning, l’IA apprendra de ses erreurs et progressera au fil des échantillons de données qui lui seront soumis. Une logique bien différente puisque les résultats ne seront pas figés sans qu’il s’agisse nécessairement de bugs.

Les étapes pour évaluer la qualité du modèle


L’évaluation de la qualité du modèle devra donc prendre en compte ces spécificités.

Laquelle se décline généralement ainsi :

  • Première étape : un « data set » de validation, un ensemble de données d’apprentissage lui est soumis pour voir si la machine atteint, voire dépasse, le taux de succès que l’on s’est fixé
  • Deuxième étape : un second « data set » lui est soumis, mais cette fois pour évaluer ses réactions en situation réelle
  • A l’issue de ces deux tests : le testeur va tendre des pièges à l’IA pour tenter de l’induire en erreur.

On comprend donc tout l’enjeu de disposer de bons testeurs rompus à l’exercice, capables d’imaginer les scénarios, des cas de tests, qui challengent très sérieusement le modèle pour le pousser à l’excellence.

Place ensuite à l’évaluation finale du modèle qui mettra en évidence le pourcentage d’erreurs de l’IA par rapport au seuil d’acceptation que l’entreprise s’est fixé. Un verdict toujours très attendu.