Como COVID-19 está afetando a tecnologia baseada em IA

Publicados: 2020-10-13

Resumo de 30 segundos:

  • O advento do COVID-19 comprometeu a utilidade dos conjuntos de dados que foram compilados antes da pandemia - resultando em taxas de erro significativas nas plataformas de IA que eles capacitam.
  • Uma área afetada por esse fenômeno é a vocalização. Embora os conjuntos de dados tenham sido desenvolvidos para acomodar variáveis ​​da vida real, como sotaques e ruído de fundo, eles não são diversos o suficiente para distinguir comandos de voz emitidos por trás de uma máscara facial.
  • A título de exemplo, os modelos de voz experimentaram em média uma perda de qualidade de 50 por cento dos usuários que usam máscaras faciais. Mesmo o motor de melhor desempenho sofreu uma perda de qualidade de 25 por cento. O impacto foi sentido mais alto entre as pessoas com vozes agudas, pois as máscaras abafaram a inteligibilidade de sons agudos
  • Um hack rápido para mitigar palavras-chave e palavras problemáticas em um aplicativo acionado por voz é usar os dados coletados pelo próprio aplicativo para identificar as palavras que foram transcritas incorretamente; e permitir que o aplicativo faça suposições que corrijam a transcrição a fim de fornecer o significado pretendido ao usuário.
  • A solução de longo prazo consiste em aumentar o conjunto de dados e coletar amostras de voz que, na verdade, imitam o cenário da vida real; que, neste momento, precisará incluir vozes de fala abafada em uma ampla variedade de ambientes
  • Os conjuntos de dados de reconhecimento facial estão enfrentando o mesmo desafio de usuários de máscaras faciais.

As maneiras como interagimos com a tecnologia estão em constante evolução. Todos nós nos lembramos de como a digitação de comandos DOS em um teclado deu lugar à simplicidade WYSIWYG do Windows navegado pelo mouse e, hoje, há um uso crescente de telas sensíveis ao toque. O próximo grande passo evolutivo em interfaces de usuário - e é grande - inclui comandos de voz, tecnologias de reconhecimento facial e inteligência artificial (IA).

As máquinas habilitadas para IA usarão essas interfaces para antecipar, prever e executar em uma infinidade de tarefas - acelerando os processos e, na verdade, minimizando o tempo que os usuários dedicam ao processo de interface.

Embora isso aponte para um futuro muito promissor, recentemente os freios foram aplicados a muitos projetos baseados em IA. Por quê? Porque os dados coletados não são mais necessariamente claros, precisos ou confiáveis.

Foi acumulado em um mundo pré-COVID-19 e foi baseado em suposições retiradas de um mercado pré-pandêmico.

Assim, como um arquiteto descobrindo que todas as medições no plano de seu projeto estão incorretas, ele está de volta à prancheta para uma série de iniciativas de IA.

Vamos examinar mais de perto o desafio.

Acessibilidade em primeiro lugar

O objetivo é facilitar o acesso a informações e serviços para todos.

Para isso, a tecnologia de reconhecimento facial cresceu exponencialmente, agora sendo amplamente implantada para check-ins em aeroportos, como um recurso de segurança para desbloquear nossos telefones e tablets, e para permitir o acesso a áreas restritas.

As experiências ativadas por voz também estão se tornando mais comuns. Estamos vendo quiosques inteligentes ativados por voz em nossos restaurantes de fast food, por exemplo, onde suas batatas fritas são pedidas usando apenas sua voz e seus chatbots ativados por voz, e não funcionários ocupados atendendo pedidos, que agora oferecem suporte ao cliente e todos aqueles upsell para supersize.

Todas essas são ótimas maneiras de acessar informações e, assim que começamos a assimilá-las em nossas vidas normais, descobrimos que essas tecnologias precisam ser alteradas, drasticamente, à medida que foram desenvolvidas e treinadas para um mundo pré-pandêmico.

Como a pandemia afeta a IA?

As tecnologias de voz foram desenvolvidas partindo do pressuposto de que um anúncio razoavelmente claro seria fornecido pelo cliente.

Os modelos de IA que interpretam os dados vocais não foram treinados para lidar com comandos abafados por uma máscara facial - pois eles funcionam principalmente comparando sons recebidos com corpus de fala com transcrições vinculadas a amostras de voz de fala clara.

Isso significa que, em um mundo pandêmico, uma experiência de cliente baseada em voz de sucesso ficou muito mais difícil de entregar.

Da mesma forma, como uma máscara facial cobre a maior parte do rosto de uma pessoa, os modelos de visão computacional agora estão recebendo informações apenas da metade superior do rosto do cliente ... um cenário de dados que eles não deveriam ter que lidar

Na verdade, um estudo do Instituto Nacional de Padrões e Tecnologia dos Estados Unidos (NIST) descobriu que algoritmos de reconhecimento facial desenvolvidos antes do surgimento da pandemia COVID-19 têm “grande dificuldade” em identificar pessoas com precisão.

O estudo do NIST revela: “Mesmo o melhor dos 89 algoritmos comerciais de reconhecimento facial testados tiveram taxas de erro entre 5% e 50% ao combinar máscaras faciais aplicadas digitalmente com fotos da mesma pessoa sem máscara.”

Como resultado, o cliente fica com uma experiência de usuário desagradável que obriga a reverter para interfaces “manuais”, dificultando significativamente o processo de identificação.

Como a IA permanece relevante em um mundo pandêmico moderno?

Os modelos de IA usam dados para treinar, fazer suposições e, em seguida, fornecer uma resposta ao usuário. Esses dados constituem então o conjunto de dados, que é todo o lote de dados com o qual a operação atual é comparada.

Até recentemente, os modelos de IA eram treinados com dados que pertenciam a um mundo não pandêmico, onde os rostos eram totalmente visíveis e as vocalizações não eram obstruídas por máscaras.

A pandemia COVID-19 pegou nossas plataformas de IA desprevenidas e a IA precisará de tempo para se adaptar ao novo ambiente. Para que as experiências de voz e o reconhecimento facial permaneçam relevantes, os conjuntos de dados precisam se ajustar ao novo hoje.

Como a tecnologia de voz AI está sendo reprojetada?

Um hack rápido para mitigar palavras-chave e palavras problemáticas em um aplicativo acionado por voz é usar os dados coletados pelo próprio aplicativo para identificar as palavras que foram transcritas incorretamente; e permitir que o aplicativo faça suposições que corrijam a transcrição a fim de fornecer o significado pretendido ao usuário.

Por exemplo, um aplicativo alimentado por voz em um ambiente de fast food que transcreve "Posso comprar sapatos laranja?" deve levar em conta que o que o usuário muito provavelmente quis dizer é “suco de laranja” e reparar o erro do modelo em um nível de aplicativo ou pedir confirmação ao usuário final.

Em última análise, os desenvolvedores precisarão reprojetar o aplicativo para aumentar o conjunto de dados e coletar amostras de voz que, na verdade, imitam cenários da vida real; que, neste ponto, precisará incluir vozes de fala abafada em uma ampla variedade de ambientes.

Como o reconhecimento facial de IA está sendo reprojetado?

No momento, certas soluções alternativas estão sendo adotadas para evitar a dependência apenas do reconhecimento de rosto - por exemplo, os iPhones da Apple agora desabilitam a opção ID facial quando uma máscara é detectada.

“Se as empresas [de reconhecimento facial] não estão olhando para isso, não estão levando a sério, não prevejo que elas existam por muito mais tempo”, disse Shaun Moore, CEO da Trueface, que cria tecnologia de reconhecimento facial usada por a Força Aérea dos EUA.

Os resultados já estão se mostrando, a tecnologia Computer Vision agora é usada para reconhecer pessoas usando máscaras em locais públicos ou antes de entrarem em uma loja e por isso está mostrando que a tecnologia pode ser usada para a própria segurança também.

Conclusões

Para superar o desafio apresentado pela pandemia, os cientistas de dados estão coletando e analisando dados novos e relevantes para adaptar com sucesso seus modelos para atender adequadamente aos clientes finais.

Enquanto no passado a coleta de dados de voz de fala abafada era regulamentada em casos raros e específicos, agora está se tornando uma prioridade. O mesmo é verdade para conjuntos de dados de reconhecimento de rosto que estão se expandindo para reconhecer imagens de pessoas com máscaras, basicamente trabalhando com a área ao redor dos olhos.

Vai demorar, mas as empresas estão se movendo mais rápido para se adaptar a essa nova realidade. Conforme a quantidade de dados coletados aumenta, os modelos de IA se tornarão mais inteligentes e terão menos dificuldade em atender aos clientes finais e tornar a tecnologia facilmente acessível novamente.

Sergio Bruccoleri é arquiteto-chefe de tecnologia da Pactera EDGE.