Cómo COVID-19 está afectando la tecnología basada en inteligencia artificial

Publicado: 2020-10-13

Resumen de 30 segundos:

  • El advenimiento de COVID-19 ha comprometido la utilidad de los conjuntos de datos que se compilaron antes de la pandemia, lo que resultó en tasas de error significativas en las plataformas de inteligencia artificial que potencian.
  • Un área afectada por este fenómeno es la vocalización. Si bien los conjuntos de datos se desarrollaron para adaptarse a variables de la vida real, como los acentos y el ruido de fondo, no son lo suficientemente diversos como para distinguir los comandos de voz emitidos detrás de una máscara facial.
  • A modo de ejemplo, los modelos de voz experimentaron en promedio una pérdida de calidad del 50 por ciento de los usuarios que usaban máscaras faciales. Incluso el motor de mejor rendimiento experimentó una pérdida de calidad del 25 por ciento. El impacto se sintió más alto entre las personas con voces agudas, ya que las máscaras amortiguaron la inteligibilidad de los sonidos agudos.
  • Un truco rápido para mitigar palabras clave y palabras problemáticas en una aplicación de voz es utilizar los datos recopilados por la propia aplicación para identificar las palabras que se transcriben incorrectamente; y permitir que la aplicación haga suposiciones que corrijan la transcripción para entregar el significado deseado al usuario.
  • La solución a largo plazo consiste en aumentar el conjunto de datos y recopilar muestras de voz que en realidad imitan el escenario de la vida real; que en este momento necesitará incluir voces de habla apagadas en una amplia variedad de entornos
  • Los conjuntos de datos de reconocimiento facial están experimentando el mismo desafío por parte de los usuarios de mascarillas faciales.

Las formas en que interactuamos con la tecnología evolucionan continuamente. Todos recordamos cómo escribir comandos de DOS en un teclado dio paso a la simplicidad WYSIWYG de Windows navegado por mouse, y hoy en día, hay un uso creciente de las pantallas táctiles. El siguiente gran paso evolutivo en las interfaces de usuario, y es grande, incluye comandos de voz, tecnologías de reconocimiento facial e inteligencia artificial (IA).

Las máquinas habilitadas para IA utilizarán estas interfaces para anticipar, predecir y ejecutar una multitud de tareas, acelerando los procesos y minimizando el tiempo que los usuarios dedican al proceso de interconexión.

Si bien esto apunta a un futuro muy prometedor, recientemente se han aplicado los frenos a muchos proyectos basados ​​en IA. ¿Cómo? Porque los datos recopilados ya no son necesariamente limpios, precisos o confiables.

Se acumuló en un mundo anterior a COVID-19 y se basó en suposiciones extraídas de un mercado prepandémico.

Entonces, como un arquitecto que descubre que todas las medidas en el plano de su proyecto son incorrectas, vuelve a la mesa de dibujo para una serie de iniciativas de inteligencia artificial.

Echemos un vistazo más de cerca al desafío.

La accesibilidad es ante todo

El objetivo es facilitar el acceso a la información y los servicios para todos.

Con este fin, la tecnología de reconocimiento facial ha crecido exponencialmente, y ahora se está implementando ampliamente para los registros de aeropuerto, como una característica de seguridad para desbloquear nuestros teléfonos y tabletas, y para otorgar acceso a áreas restringidas.

Las experiencias habilitadas por voz también se están volviendo más comunes. Estamos viendo quioscos inteligentes activados por voz en nuestros restaurantes de comida rápida, por ejemplo, donde sus papas fritas se ordenan usando solo su voz y sus chatbots habilitados por voz, no trabajadores ocupados cumpliendo pedidos, que ahora ofrecen atención al cliente y todas esas ventas adicionales a gran tamaño.

Todas estas son excelentes formas de acceder a la información y, justo cuando comenzamos a asimilarlas en nuestras vidas normales, resulta que es posible que estas tecnologías deban cambiarse drásticamente, ya que fueron desarrolladas y capacitadas para un mundo prepandémico.

¿Cómo afecta la pandemia a la IA?

Las tecnologías de voz se desarrollaron bajo el supuesto de que el cliente proporcionaría un anuncio razonablemente claro.

Los modelos de inteligencia artificial que interpretan los datos vocales no fueron entrenados para manejar comandos amortiguados por una máscara facial, ya que funcionan principalmente comparando los sonidos recibidos con los cuerpos del habla con transcripciones vinculadas a muestras de voz claras.

Esto significa que en un mundo pandémico, una experiencia de cliente exitosa basada en voz es ahora mucho más difícil de ofrecer.

De manera similar, debido a que una máscara facial cubre la mayor parte del rostro de una persona, los modelos de visión por computadora ahora solo reciben información de la mitad superior del rostro del cliente ... un escenario de datos que no se esperaba que tuvieran que manejar.

De hecho, un estudio del Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. Ha descubierto que los algoritmos de reconocimiento facial desarrollados antes de la aparición de la pandemia de COVID-19 tienen una "gran dificultad" para identificar con precisión a las personas.

El estudio del NIST revela: "Incluso el mejor de los 89 algoritmos comerciales de reconocimiento facial probados tuvo tasas de error entre el 5% y el 50% al hacer coincidir las máscaras faciales aplicadas digitalmente con fotos de la misma persona sin máscara".

Como resultado, el cliente se queda con una experiencia de usuario desagradable que requiere que vuelva a las interfaces "manuales", lo que dificulta significativamente el proceso de identificación.

¿Cómo puede la IA seguir siendo relevante en un mundo moderno con pandemias?

Los modelos de IA usan datos para entrenar, hacer suposiciones y luego brindar una respuesta al usuario. Estos datos luego constituyen el conjunto de datos que es el lote completo de datos con el que se compara la operación actual.

Hasta hace poco, los modelos de IA habían sido entrenados con datos que pertenecían a un mundo no pandémico, donde los rostros eran completamente visibles y las vocalizaciones no estaban obstruidas por máscaras.

La pandemia de COVID-19 tomó por sorpresa a nuestras plataformas de IA y la IA necesitará tiempo para adaptarse al nuevo entorno. Para que las experiencias de voz y el reconocimiento facial sigan siendo relevantes, los conjuntos de datos deben adaptarse a lo nuevo hoy.

¿Cómo se está rediseñando la tecnología de voz de IA?

Un truco rápido para mitigar palabras clave y palabras problemáticas en una aplicación de voz es utilizar los datos recopilados por la propia aplicación para identificar las palabras que se transcriben incorrectamente; y permitir que la aplicación haga suposiciones que corrijan la transcripción para entregar el significado deseado al usuario.

Por ejemplo, una aplicación de voz en un entorno de comida rápida que transcribe "¿Puedo conseguir unos zapatos naranjas?" Se debe tener en cuenta que lo que el usuario probablemente quiso decir es “jugo de naranja” y reparar el error del modelo a nivel de aplicación, o pedir confirmación al usuario final.

En última instancia, los desarrolladores deberán rediseñar la aplicación para aumentar el conjunto de datos y recopilar muestras de voz que en realidad imitan escenarios de la vida real; que en este punto deberá incluir voces de habla apagadas en una amplia variedad de entornos.

¿Cómo se está rediseñando el reconocimiento facial de IA?

En este momento, se están adoptando ciertas soluciones para evitar depender únicamente del reconocimiento facial; por ejemplo, los iPhones de Apple ahora deshabilitan la opción Face ID cuando se detecta una máscara facial.

"Si las empresas [de reconocimiento facial] no están mirando esto, no se lo toman en serio, no preveo que sigan existiendo por mucho más tiempo", dijo Shaun Moore, director ejecutivo de Trueface, que crea la tecnología de reconocimiento facial que utilizan la Fuerza Aérea de los Estados Unidos.

Los resultados ya se están mostrando, la tecnología de visión por computadora ahora se usa para reconocer a las personas que usan máscaras en lugares públicos o antes de ingresar a una tienda, por lo que está demostrando que la tecnología también se puede usar para su propia seguridad.

Conclusiones

Para superar el desafío planteado por la pandemia, los científicos de datos están recopilando y analizando datos nuevos y relevantes para adaptar con éxito sus modelos a fin de brindar un servicio adecuado a sus clientes finales.

Si bien en el pasado, la recopilación de datos de voz del habla apagada se regulaba en casos raros y específicos, ahora se está convirtiendo en una prioridad. Lo mismo ocurre con los conjuntos de datos de reconocimiento facial que se están expandiendo para reconocer imágenes de personas con máscaras faciales, básicamente trabajando con el área alrededor de los ojos.

Llevará tiempo, pero las empresas se están moviendo más rápido para adaptarse a esta nueva realidad. A medida que aumenta la cantidad de datos recopilados, los modelos de IA se volverán más inteligentes y tendrán menos dificultades para atender a los clientes finales y harán que la tecnología vuelva a ser fácilmente accesible.

Sergio Bruccoleri es arquitecto líder de tecnología en Pactera EDGE.