Jak COVID-19 wpływa na technologię opartą na sztucznej inteligencji

Opublikowany: 2020-10-13

30-sekundowe podsumowanie:

  • Pojawienie się COVID-19 zagroziło użyteczności zestawów danych, które zostały skompilowane przed pandemią – powodując znaczne poziomy błędów na platformach sztucznej inteligencji, które wspierają.
  • Jednym z obszarów dotkniętych tym zjawiskiem jest wokalizacja. Chociaż zbiory danych zostały opracowane w celu uwzględnienia zmiennych rzeczywistych, takich jak akcenty i hałas w tle, nie są one wystarczająco zróżnicowane, aby odróżnić polecenia głosowe wydawane zza maski na twarz.
  • Na przykład modele głosu doświadczyły średnio 50-procentowej utraty jakości przez użytkowników noszących maski na twarz. Nawet najlepiej działający silnik odnotował 25-procentową utratę jakości. Uderzenie było najsilniej odczuwalne wśród osób o wysokich głosach, ponieważ maski tłumiły zrozumiałość wysokich dźwięków
  • Szybkim sposobem na złagodzenie problematycznych słów kluczowych i słów w aplikacji głosowej jest wykorzystanie danych zebranych przez samą aplikację do zidentyfikowania słów, które zostały nieprawidłowo przepisane; oraz pozwolić aplikacji na przyjęcie założeń, które korygują transkrypcję w celu dostarczenia zamierzonego znaczenia użytkownikowi.
  • Długoterminowe rozwiązanie polega na zwiększeniu zestawu danych i zebraniu próbek głosu, które faktycznie naśladują rzeczywisty scenariusz; które w tym momencie będą musiały zawierać stłumione głosy mowy w różnych środowiskach
  • Zestawy danych rozpoznawania twarzy napotykają to samo wyzwanie ze strony użytkowników masek na twarz.

Sposoby, w jakie wchodzimy w interakcję z technologią, nieustannie ewoluują. Wszyscy pamiętamy, jak wpisywanie poleceń systemu DOS na klawiaturze ustąpiło miejsca prostocie WYSIWYG systemu Windows obsługiwanego myszą, a obecnie coraz częściej stosuje się ekrany dotykowe. Kolejny duży krok ewolucyjny w interfejsach użytkownika – i to duży – obejmuje polecenia głosowe, technologie rozpoznawania twarzy i sztuczną inteligencję (AI).

Maszyny obsługujące sztuczną inteligencję będą wykorzystywać te interfejsy do przewidywania, przewidywania i wykonywania wielu zadań – przyspieszając procesy i minimalizując czas, jaki użytkownicy poświęcają na proces tworzenia interfejsu.

Chociaż wskazuje to na bardzo obiecującą przyszłość, ostatnio w wielu projektach opartych na sztucznej inteligencji zastosowano hamulce. Dlaczego? Ponieważ zebrane dane nie muszą już być czyste, dokładne ani wiarygodne.

Został nagromadzony w świecie sprzed COVID-19 i został oparty na założeniach zaczerpniętych z rynku sprzed pandemii.

Tak jak architekt, który odkrywa, że ​​wszystkie pomiary na planie projektu są nieprawidłowe, wracamy do deski kreślarskiej dla wielu inicjatyw AI.

Przyjrzyjmy się bliżej wyzwaniu.

Dostępność jest przede wszystkim

Celem jest ułatwienie wszystkim dostępu do informacji i usług.

W tym celu technologia rozpoznawania twarzy rozwinęła się wykładniczo i jest obecnie szeroko stosowana do odpraw na lotniskach, jako funkcja bezpieczeństwa do odblokowywania naszych telefonów i tabletów oraz do przyznawania dostępu do obszarów o ograniczonym dostępie.

Doświadczenia związane z głosem również stają się coraz bardziej powszechne. Widzimy na przykład aktywowane głosem inteligentne kioski w naszych restauracjach typu fast food, w których frytki są zamawiane tylko za pomocą głosu i są to chatboty obsługujące głos, a nie pracownicy zajęci realizacją zamówień, którzy teraz oferują obsługę klienta i wszystkie te dodatkowe duży rozmiar.

To wszystko są wspaniałe sposoby na dostęp do informacji i tak jak zaczęliśmy przyswajać je do naszego normalnego życia, okazuje się, że te technologie mogą wymagać radykalnej zmiany, ponieważ zostały opracowane i przeszkolone do świata sprzed pandemii.

Jak pandemia wpływa na sztuczną inteligencję?

Technologie głosowe zostały opracowane przy założeniu, że klient będzie w miarę czytelny komunikat.

Modele sztucznej inteligencji, które interpretują dane głosowe, nie zostały wytrenowane do obsługi poleceń stłumionych przez maskę na twarz – ponieważ działają one głównie na zasadzie porównywania otrzymanych dźwięków z korpusami mowy z transkrypcjami powiązanymi z czystymi próbkami głosu mowy.

Oznacza to, że w świecie pandemii udane, oparte na głosie doświadczenie klienta stało się o wiele trudniejsze do dostarczenia.

Podobnie, ponieważ maska ​​​​na twarz zakrywa większość twarzy osoby, modele Computer Vision otrzymują teraz informacje tylko z górnej połowy twarzy klienta… scenariusz danych, z którym nie oczekiwano, że będą musiały obsługiwać

W rzeczywistości badanie przeprowadzone przez amerykański Narodowy Instytut Standardów i Technologii (NIST) wykazało, że algorytmy rozpoznawania twarzy opracowane przed pojawieniem się pandemii COVID-19 mają „duże trudności” z dokładną identyfikacją osób.

Badanie NIST ujawnia: „Nawet najlepsze z 89 testowanych komercyjnych algorytmów rozpoznawania twarzy wykazywały poziom błędów między 5% a 50% w dopasowywaniu cyfrowo nakładanych masek na twarz ze zdjęciami tej samej osoby bez maski”.

W efekcie klient zostaje z nieprzyjemnym doświadczeniem użytkownika, które wymaga powrotu do „ręcznych” interfejsów, co znacznie utrudnia proces identyfikacji.

W jaki sposób sztuczna inteligencja pozostaje istotna we współczesnym świecie pandemii?

Modele AI wykorzystują dane do trenowania, formułowania założeń, a następnie dostarczania odpowiedzi użytkownikowi. Te dane stanowią następnie zbiór danych, który jest całą partią danych, z którą porównywana jest bieżąca operacja.

Do niedawna modele AI były trenowane z danymi, które należały do ​​świata nie pandemicznego, gdzie twarze były w pełni widoczne, a wokalizacje nie były zasłaniane przez maski.

Pandemia COVID-19 zaskoczyła nasze platformy AI i AI będzie potrzebowała czasu, aby przystosować się do nowego środowiska. Aby wrażenia głosowe i rozpoznawanie twarzy pozostały aktualne, zestawy danych muszą dostosować się do nowego dnia dzisiejszego.

Jak przeprojektowuje się technologię głosową AI?

Szybkim sposobem na złagodzenie problematycznych słów kluczowych i słów w aplikacji głosowej jest wykorzystanie danych zebranych przez samą aplikację do zidentyfikowania słów, które zostały nieprawidłowo przepisane; oraz pozwolić aplikacji na przyjęcie założeń, które korygują transkrypcję w celu dostarczenia zamierzonego znaczenia użytkownikowi.

Na przykład aplikacja głosowa w środowisku fast food, z transkrypcją „Czy mogę dostać pomarańczowe buty?” powinien wziąć pod uwagę, że użytkownik najprawdopodobniej miał na myśli „sok pomarańczowy” i naprawić błąd z modelu na poziomie aplikacji, lub poprosić użytkownika końcowego o potwierdzenie.

Ostatecznie programiści będą musieli przeprojektować aplikację, aby zwiększyć zestaw danych i zebrać próbki głosu, które faktycznie naśladują rzeczywiste scenariusze; które w tym momencie będą musiały zawierać stłumione głosy mowy w wielu różnych środowiskach.

Jak przeprojektowuje się rozpoznawanie twarzy AI?

Obecnie przyjęto pewne obejścia, aby uniknąć polegania wyłącznie na rozpoznawaniu twarzy – na przykład iPhone'y Apple wyłączają teraz opcję Face ID po wykryciu maski na twarz.

„Jeśli firmy zajmujące się [rozpoznawaniem twarzy] nie przyglądają się temu, nie traktują tego poważnie, nie przewiduję, że będą w pobliżu dłużej” – powiedział Shaun Moore, dyrektor generalny Trueface, która tworzy technologię rozpoznawania twarzy używaną przez Siły Powietrzne Stanów Zjednoczonych.

Wyniki już się pokazują, technologia Computer Vision jest teraz używana do rozpoznawania osób noszących maski w miejscach publicznych lub przed wejściem do sklepu, co pokazuje, że technologia może być wykorzystana również dla własnego bezpieczeństwa.

Wnioski

Aby sprostać wyzwaniu postawionemu przez pandemię, analitycy danych gromadzą i analizują nowe i istotne dane, aby skutecznie dostosować swoje modele, aby właściwie służyć klientom końcowym.

Podczas gdy w przeszłości zbieranie danych głosowych stłumionej mowy było regulowane w rzadkich i szczególnych przypadkach, teraz staje się priorytetem. To samo dotyczy zestawów danych rozpoznawania twarzy, które rozszerzają się, aby rozpoznawać obrazy osób z maskami na twarzy, zasadniczo pracując z obszarem wokół oczu.

To zajmie trochę czasu, ale firmy szybciej przystosowują się do tej nowej rzeczywistości. Wraz ze wzrostem ilości gromadzonych danych modele AI staną się inteligentniejsze i będą miały mniej trudności z obsługą klientów końcowych i sprawią, że technologia będzie ponownie łatwo dostępna.

Sergio Bruccoleri jest głównym architektem technologii w firmie Pactera EDGE.