Cum afectează COVID-19 tehnologia bazată pe inteligență artificială

Publicat: 2020-10-13

Rezumat de 30 de secunde:

  • Apariția COVID-19 a compromis utilitatea seturilor de date care au fost compilate înainte de pandemie – rezultând rate semnificative de eroare pe platformele AI pe care le împuternicesc.
  • O zonă afectată de acest fenomen este vocalizarea. În timp ce seturile de date au fost dezvoltate pentru a se adapta la variabile din viața reală, cum ar fi accentele și zgomotul de fundal, ele nu sunt suficient de diverse pentru a distinge comenzile vocale emise din spatele măștii faciale.
  • De exemplu, modelele de voce au înregistrat în medie o pierdere de calitate de 50% din cauza utilizatorilor care purtau măști de față. Chiar și cel mai performant motor a suferit o pierdere de calitate de 25%. Impactul a fost resimțit cel mai puternic în rândul persoanelor cu voci înalte, deoarece măștile înăbușau inteligibilitatea sunetelor înalte.
  • O soluție rapidă pentru a atenua cuvintele cheie și cuvintele problematice într-o aplicație cu voce este să utilizați datele colectate de aplicația însăși pentru a identifica cuvintele care sunt transcrise incorect; și să permită aplicației să facă ipoteze care corectează transcrierea pentru a oferi utilizatorului sensul dorit.
  • Soluția pe termen lung se referă la creșterea setului de date și la colectarea de mostre de voce care imită de fapt scenariul din viața reală; care în acest moment va trebui să includă voci de vorbire înfundate într-o mare varietate de medii
  • Seturile de date privind recunoașterea facială se confruntă cu aceeași provocare din partea purtătorilor de măști faciale.

Modul în care interacționăm cu tehnologia evoluează continuu. Cu toții ne amintim cum tastarea comenzilor DOS pe o tastatură a făcut loc simplității WYSIWYG a Windows-ului navigat cu mouse, iar astăzi există o utilizare din ce în ce mai mare a ecranelor tactile. Următorul pas mare de evoluție în interfețele utilizatorului – și este mare – include comenzi vocale, tehnologii de recunoaștere facială și inteligență artificială (AI).

Mașinile cu inteligență artificială vor folosi aceste interfețe pentru a anticipa, prezice și executa o multitudine de sarcini – accelerând procesele și minimizând efectiv timpul pe care utilizatorii îl dedică procesului de interfață.

Deși acest lucru indică un viitor foarte promițător, recent frânele au fost aplicate multor proiecte bazate pe inteligență artificială. Cum se face? Pentru că datele colectate nu mai sunt neapărat curate, exacte sau de încredere.

A fost acumulat într-o lume pre-COVID-19 și s-a bazat pe ipoteze trase dintr-o piață pre-pandemică.

Așa că, așa cum un arhitect descoperă că toate măsurătorile de pe planul proiectului lor sunt incorecte, este înapoi la masa de desen pentru o serie de inițiative AI.

Să aruncăm o privire mai atentă asupra provocării.

Accesibilitatea este în primul rând

Scopul este de a face accesul la informații și servicii mai ușor pentru toată lumea.

În acest scop, tehnologia de recunoaștere a feței a crescut exponențial, fiind acum implementată pe scară largă pentru check-in-urile în aeroport, ca o funcție de securitate pentru deblocarea telefoanelor și tabletelor noastre și pentru acordarea accesului în zonele restricționate.

Experiențele activate prin voce devin, de asemenea, din ce în ce mai frecvente. Vedem chioșcuri inteligente cu activare vocală în restaurantele noastre fast-food, de exemplu, unde cartofii prăjiți sunt comandați folosind doar vocea dvs. și sunt chatbot cu voce activată, nu lucrătorii ocupați cu onorarea comenzilor, care oferă acum asistență pentru clienți și toate aceste vânzări suplimentare pentru supradimensionare.

Toate acestea sunt modalități excelente de a accesa informații și, așa cum am început să le asimilăm în viețile noastre normale, se dovedește că aceste tehnologii ar putea trebui schimbate dramatic, deoarece au fost dezvoltate și antrenate pentru o lume pre-pandemică.

Cum afectează pandemia AI?

Tehnologiile de voce au fost dezvoltate pe baza ipotezei că anunțul rezonabil clar va fi furnizat de către client.

Modelele de inteligență artificială care interpretează datele vocale nu au fost antrenate pentru a gestiona comenzi înfundate de o mască facială – deoarece funcționează în principal prin compararea sunetelor primite cu corpusurile de vorbire cu transcripții legate de mostre de voce clare.

Acest lucru înseamnă că într-o lume pandemică, o experiență de succes a clienților bazată pe voce a devenit mult mai greu de oferit.

În mod similar, deoarece o mască facială acoperă cea mai mare parte a feței unei persoane, modelele Computer Vision primesc acum informații doar de la jumătatea superioară a feței clientului... un scenariu de date pe care nu ar fi trebuit să îl gestioneze.

De fapt, un studiu al Institutului Național de Standarde și Tehnologie din SUA (NIST) a constatat că algoritmii de recunoaștere facială dezvoltați înainte de apariția pandemiei de COVID-19 au „mare dificultăți” în identificarea cu acuratețe a oamenilor.

Studiul NIST dezvăluie: „Chiar și cei mai buni dintre cei 89 de algoritmi comerciali de recunoaștere facială testați au avut rate de eroare între 5% și 50% în potrivirea măștilor de față aplicate digital cu fotografiile aceleiași persoane fără mască.”

Ca urmare, clientul rămâne cu o experiență de utilizator neplăcută care îi impune să revină la interfețele „manuale”, împiedicând semnificativ procesul de identificare.

Cum rămâne AI relevantă într-o lume modernă cu pandemie?

Modelele AI folosesc date pentru a antrena, a face ipoteze și apoi a oferi un răspuns utilizatorului. Aceste date constituie apoi setul de date care este întregul lot de date cu care este comparată operațiunea curentă.

Până de curând, modelele AI au fost antrenate cu date care aparțineau unei lumi non-pandemice, în care fețele erau complet vizibile și vocalizările nu erau obstrucționate de măști.

Pandemia de COVID-19 ne-a prins platformele AI sub garda, iar AI va avea nevoie de timp pentru a se adapta la noul mediu. Pentru ca experiențele vocale și recunoașterea feței să rămână relevante, seturile de date trebuie să se adapteze la noul de astăzi.

Cum este reproiectată tehnologia vocală AI?

O soluție rapidă pentru a atenua cuvintele cheie și cuvintele problematice într-o aplicație cu voce este să utilizați datele colectate de aplicația însăși pentru a identifica cuvintele care sunt transcrise incorect; și să permită aplicației să facă ipoteze care corectează transcrierea pentru a oferi utilizatorului sensul dorit.

De exemplu, o aplicație vocală într-un mediu fast-food care transcrie „Pot să-mi iau niște pantofi portocalii?” ar trebui să țină cont de faptul că ceea ce utilizatorul a vrut foarte probabil să spună este „suc de portocale” și să repare eroarea de la model la nivel de aplicație sau să ceară confirmare utilizatorului final.

În cele din urmă, dezvoltatorii vor trebui să reproiecteze aplicația pentru a crește setul de date și pentru a colecta mostre de voce care imită de fapt scenarii din viața reală; care în acest moment va trebui să includă voci de vorbire înfundate într-o mare varietate de medii.

Cum este reproiectată recunoașterea facială AI?

În acest moment, sunt adoptate anumite soluții pentru a evita baza exclusiv pe recunoașterea feței - de exemplu, iPhone-urile Apple dezactivează acum opțiunea Face ID atunci când este detectată o mască facială.

„Dacă companiile [de recunoaștere facială] nu se uită la asta, nu o iau în serios, nu prevăd că vor mai fi în preajmă pentru mult timp”, a spus Shaun Moore, CEO al Trueface, care creează tehnologia de recunoaștere facială care este folosită de forțele aeriene americane.

Rezultatele sunt deja vizibile, tehnologia Computer Vision este acum folosită pentru a recunoaște persoanele care poartă măști în locuri publice sau înainte de a intra într-un magazin și, prin urmare, arată că tehnologia poate fi folosită și pentru propria siguranță.

Concluzii

Pentru a depăși provocarea pusă de pandemie, oamenii de știință din date colectează și analizează date noi și relevante pentru a-și adapta cu succes modelele pentru a-și servi în mod corespunzător clienții finali.

În timp ce în trecut, colectarea datelor vocale ale vorbirii înfundate era reglementată în cazuri rare și specifice, acum devine o prioritate. Același lucru este valabil și pentru seturile de date de recunoaștere a feței care se extind pentru a recunoaște imagini ale persoanelor cu măști de față, lucrând practic cu zona din jurul ochilor.

Va dura timp, dar companiile se mișcă mai repede pentru a se adapta la această nouă realitate. Pe măsură ce cantitatea de date colectate crește, modelele AI vor deveni mai inteligente și vor avea mai puține dificultăți în deservirea clienților finali și vor face tehnologia ușor accesibilă din nou.

Sergio Bruccoleri este arhitect tehnologic principal la Pactera EDGE.