Comment COVID-19 affecte la technologie basée sur l'IA
Publié: 2020-10-13Résumé de 30 secondes :
- L'avènement de COVID-19 a compromis l'utilité des ensembles de données qui ont été compilés avant la pandémie, ce qui a entraîné des taux d'erreur importants sur les plates-formes d'IA qu'ils autorisent.
- Un domaine touché par ce phénomène est la vocalisation. Alors que les ensembles de données ont été développés pour s'adapter à des variables de la vie réelle telles que les accents et le bruit de fond, ils ne sont pas assez diversifiés pour distinguer les commandes vocales émises derrière un masque facial.
- À titre d'exemple, les modèles vocaux ont subi en moyenne une perte de qualité de 50 % du fait des utilisateurs portant des masques faciaux. Même le moteur le plus performant a subi une perte de qualité de 25 %. L'impact a été ressenti le plus fortement chez les personnes ayant des voix aiguës, car les masques étouffaient l'intelligibilité des sons aigus.
- Un hack rapide pour atténuer les mots-clés et les mots problématiques dans une application vocale consiste à utiliser les données collectées par l'application elle-même pour identifier les mots qui sont mal transcrits ; et de laisser l'application faire des hypothèses qui corrigent la transcription afin de fournir le sens voulu à l'utilisateur.
- La solution à long terme consiste à augmenter l'ensemble de données et à collecter des échantillons de voix qui imitent en fait un scénario réel ; qui, à ce stade, devra inclure des voix étouffées dans une grande variété d'environnements
- Les ensembles de données de reconnaissance faciale rencontrent le même défi de la part des porteurs de masques faciaux.
Les façons dont nous interagissons avec la technologie évoluent continuellement. Nous nous souvenons tous de la façon dont la saisie de commandes DOS sur un clavier a cédé la place à la simplicité WYSIWYG de Windows à navigation par souris, et aujourd'hui, l'utilisation des écrans tactiles est de plus en plus répandue. La prochaine grande étape de l'évolution des interfaces utilisateur – et elle est grande – comprend les commandes vocales, les technologies de reconnaissance faciale et l'intelligence artificielle (IA).
Les machines compatibles avec l'IA utiliseront ces interfaces pour anticiper, prévoir et exécuter une multitude de tâches, ce qui accélère les processus et minimise le temps que les utilisateurs consacrent au processus d'interfaçage.
Bien que cela laisse présager un avenir très prometteur, les freins ont récemment été appliqués à de nombreux projets basés sur l'IA. Comment venir? Parce que les données collectées ne sont plus nécessairement propres, précises ou fiables.
Il a été accumulé dans un monde pré-COVID-19 et était basé sur des hypothèses tirées d'un marché pré-pandémique.
Ainsi, comme un architecte découvrant que toutes les mesures du plan de son projet sont incorrectes, il revient à la planche à dessin pour un certain nombre d'initiatives d'IA.
Regardons de plus près le défi.
L'accessibilité est avant tout
L'objectif est de faciliter l'accès à l'information et aux services pour tous.
À cette fin, la technologie de reconnaissance faciale a connu une croissance exponentielle et est désormais largement déployée pour les enregistrements à l'aéroport, en tant que fonction de sécurité pour déverrouiller nos téléphones et tablettes et pour autoriser l'accès aux zones réglementées.
Les expériences vocales sont également de plus en plus courantes. Nous voyons des kiosques intelligents à commande vocale dans nos restaurants de restauration rapide, par exemple, où vos frites sont commandées en utilisant uniquement votre voix et ce sont des chatbots à commande vocale, et non des travailleurs occupés à exécuter des commandes, qui offrent désormais un support client et toutes ces ventes incitatives à grande taille.
Ce sont tous d'excellents moyens d'accéder à l'information et tout comme nous avons commencé à les assimiler dans notre vie normale, il s'avère que ces technologies pourraient devoir être radicalement modifiées, car elles ont été développées et formées pour un monde pré-pandémique.
Comment la pandémie affecte-t-elle l'IA ?
Les technologies vocales ont été développées en partant du principe qu'une annonce raisonnablement claire serait fournie par le client.

Les modèles d'IA qui interprètent les données vocales n'ont pas été formés pour gérer les commandes étouffées par un masque facial, car ils fonctionnent principalement en comparant les sons reçus avec des corpus de parole avec des transcriptions liées à des échantillons de voix claire.
Cela signifie que dans un monde pandémique, une expérience client réussie basée sur la voix est devenue beaucoup plus difficile à offrir.
De même, comme un masque facial couvre la majeure partie du visage d'une personne, les modèles de vision par ordinateur ne reçoivent désormais des informations que de la moitié supérieure du visage du client… un scénario de données qu'ils n'étaient pas censés avoir à gérer.
En fait, une étude du National Institute of Standards and Technology (NIST) des États-Unis a révélé que les algorithmes de reconnaissance faciale développés avant l'émergence de la pandémie de COVID-19 ont « de grandes difficultés » à identifier avec précision les personnes.
L'étude du NIST révèle : "Même le meilleur des 89 algorithmes commerciaux de reconnaissance faciale testés avait des taux d'erreur compris entre 5 % et 50 % en faisant correspondre des masques appliqués numériquement avec des photos de la même personne sans masque."
En conséquence, le client se retrouve avec une expérience utilisateur désagréable qui l'oblige à revenir à des interfaces « manuelles », ce qui entrave considérablement le processus d'identification.
Comment l'IA reste-t-elle pertinente dans un monde pandémique moderne ?
Les modèles d'IA utilisent des données pour s'entraîner, faire des hypothèses, puis fournir une réponse à l'utilisateur. Ces données constituent alors l'ensemble de données qui est l'ensemble du lot de données avec lequel l'opération en cours est comparée.
Jusqu'à récemment, les modèles d'IA avaient été entraînés avec des données qui appartenaient à un monde non pandémique, où les visages étaient entièrement visibles et les vocalisations n'étaient pas obstruées par des masques.
La pandémie de COVID-19 a pris nos plateformes d'IA au dépourvu et l'IA aura besoin de temps pour s'adapter au nouvel environnement. Pour que les expériences vocales et la reconnaissance faciale restent pertinentes, les ensembles de données doivent s'adapter à la nouveauté d'aujourd'hui.
Comment la technologie vocale de l'IA est-elle repensée ?
Un hack rapide pour atténuer les mots-clés et les mots problématiques dans une application vocale consiste à utiliser les données collectées par l'application elle-même pour identifier les mots qui sont mal transcrits ; et de laisser l'application faire des hypothèses qui corrigent la transcription afin de fournir le sens voulu à l'utilisateur.
Par exemple, une application vocale dans un environnement de restauration rapide transcrivant « Puis-je avoir des chaussures orange ? » doit tenir compte du fait que ce que l'utilisateur a très probablement voulu dire est « jus d'orange » et réparer l'erreur du modèle au niveau de l'application, ou demander confirmation à l'utilisateur final.
En fin de compte, les développeurs devront reconcevoir l'application pour augmenter l'ensemble de données et collecter des échantillons de voix qui imitent en fait des scénarios de la vie réelle ; qui, à ce stade, devra inclure des voix étouffées dans une grande variété d'environnements.
Comment la reconnaissance faciale IA est-elle repensée ?
À l'heure actuelle, certaines solutions de contournement sont adoptées pour éviter de se fier uniquement à la reconnaissance faciale - par exemple, les iPhones Apple désactivent désormais l'option Face ID lorsqu'un masque facial est détecté.
"Si les entreprises [de reconnaissance faciale] n'envisagent pas cela, ne le prennent pas au sérieux, je ne prévois pas qu'elles resteront encore longtemps", a déclaré Shaun Moore, PDG de Trueface, qui crée une technologie de reconnaissance faciale utilisée par l'armée de l'air américaine.
Les résultats sont déjà visibles, la technologie Computer Vision est désormais utilisée pour reconnaître les personnes portant des masques dans les lieux publics ou avant d'entrer dans un magasin et montre donc que la technologie peut également être utilisée pour sa propre sécurité.
Conclusion
Afin de relever le défi posé par la pandémie, les scientifiques des données collectent et analysent des données nouvelles et pertinentes pour adapter avec succès leurs modèles afin de servir correctement leurs clients finaux.
Alors que dans le passé, la collecte de données vocales de parole étouffée était réglementée dans des cas rares et spécifiques, elle devient aujourd'hui une priorité. Il en va de même pour les ensembles de données de reconnaissance faciale qui se développent pour reconnaître les images de personnes portant des masques faciaux, travaillant essentiellement avec la zone autour des yeux.
Cela prendra du temps, mais les entreprises vont plus vite pour s'adapter à cette nouvelle réalité. À mesure que la quantité de données collectées augmente, les modèles d'IA deviendront plus intelligents et auront moins de difficultés à servir les clients finaux et à rendre la technologie à nouveau facilement accessible.
Sergio Bruccoleri est architecte technologique en chef chez Pactera EDGE.