Как COVID-19 влияет на технологии на основе искусственного интеллекта

Опубликовано: 2020-10-13

30-секундное резюме:

  • Появление COVID-19 поставило под угрозу полезность наборов данных, которые были собраны до пандемии, что привело к значительному количеству ошибок на платформах искусственного интеллекта, которые они расширяют.
  • Одна из областей, затронутых этим феноменом, - это вокализация. Хотя наборы данных были разработаны для учета реальных переменных, таких как акценты и фоновый шум, они недостаточно разнообразны, чтобы различать голосовые команды, исходящие из-за лицевой маски.
  • Например, голосовые модели испытали в среднем 50-процентную потерю качества из-за того, что пользователи носили маски. Даже самый эффективный двигатель потерял 25% качества. Воздействие ощущалось сильнее всего среди людей с высокими голосами, поскольку маски заглушали разборчивость высоких звуков.
  • Быстрый прием для смягчения проблемных ключевых слов и слов в голосовом приложении заключается в использовании данных, собранных самим приложением, для определения слов, которые неправильно транскрибируются; и позволить приложению делать предположения, которые исправляют транскрипцию, чтобы передать предполагаемое значение пользователю.
  • Долгосрочное решение заключается в увеличении набора данных и сборе голосовых образцов, которые фактически имитируют реальный сценарий; который на данный момент должен будет включать приглушенные речевые голоса в самых разных средах.
  • Наборы данных для распознавания лиц сталкиваются с той же проблемой со стороны владельцев лицевых масок.

Способы взаимодействия с технологиями постоянно развиваются. Все мы помним, как ввод команд DOS на клавиатуре уступил место WYSIWYG-простоте Windows с навигацией с помощью мыши, и сегодня все чаще используются сенсорные экраны. Следующий большой шаг эволюции пользовательских интерфейсов - и он большой - включает голосовые команды, технологии распознавания лиц и искусственный интеллект (AI).

Машины с поддержкой ИИ будут использовать эти интерфейсы для прогнозирования, прогнозирования и выполнения множества задач, ускоряя процессы и фактически сводя к минимуму время, затрачиваемое пользователями на процесс взаимодействия.

Хотя это указывает на очень многообещающее будущее, в последнее время тормоза были применены ко многим проектам, основанным на искусственном интеллекте. Как придешь? Потому что собранные данные больше не обязательно чистые, точные или надежные.

Он был накоплен в мире до COVID-19 и был основан на предположениях, сделанных на рынке до пандемии.

Подобно тому, как архитектор обнаруживает, что все измерения на чертеже проекта неверны, он возвращается на чертежную доску для ряда инициатив в области ИИ.

Давайте подробнее рассмотрим задачу.

Доступность прежде всего

Цель состоит в том, чтобы упростить доступ к информации и услугам для всех.

С этой целью технология распознавания лиц выросла в геометрической прогрессии и теперь широко используется для регистрации в аэропортах, в качестве средства безопасности для разблокировки наших телефонов и планшетов, а также для предоставления доступа в закрытые зоны.

Голосовое управление также становится все более распространенным. Мы видим, например, голосовые умные киоски в наших ресторанах быстрого питания, где ваш картофель фри заказывается только с помощью вашего голоса, и это голосовые чат-боты, а не рабочие, занятые выполнением заказов, которые теперь предлагают поддержку клиентов и все эти дополнительные продажи. большегрузный.

Все это отличные способы доступа к информации, и, как только мы начали ассимилировать их в нашей нормальной жизни, оказывается, что эти технологии, возможно, необходимо радикально изменить, поскольку они были разработаны и обучены для мира, предшествующего пандемии.

Как пандемия влияет на ИИ?

Голосовые технологии были разработаны с учетом того, что заказчик обеспечит достаточно четкое оповещение.

Модели искусственного интеллекта, которые интерпретируют голосовые данные, не были обучены обрабатывать команды, приглушенные лицевой маской, поскольку они в основном работают, сравнивая полученные звуки с речевыми корпусами с транскрипциями, привязанными к четким речевым образцам голоса.

Это означает, что в мире пандемии обеспечить успешное обслуживание клиентов с помощью голосовой связи стало намного сложнее.

Точно так же, поскольку маска закрывает большую часть лица человека, модели компьютерного зрения теперь получают информацию только от верхней половины лица клиента… сценарий данных, с которым они не ожидали, что им придется обрабатывать

Фактически, исследование Национального института стандартов и технологий США (NIST) показало, что алгоритмы распознавания лиц, разработанные до возникновения пандемии COVID-19, имеют «большие трудности» для точной идентификации людей.

Исследование NIST показывает: «Даже у лучших из 89 протестированных коммерческих алгоритмов распознавания лиц частота ошибок составляла от 5% до 50% при сопоставлении нанесенных цифровым способом лицевых масок с фотографиями того же человека без маски».

В результате у клиента возникает неприятный пользовательский опыт, который требует от него возврата к «ручным» интерфейсам, что значительно затрудняет процесс идентификации.

Как ИИ остается актуальным в современном мире пандемии?

Модели искусственного интеллекта используют данные для обучения, делают предположения, а затем предоставляют ответ пользователю. Затем эти данные составляют набор данных, который представляет собой весь пакет данных, с которым сравнивается текущая операция.

До недавнего времени модели искусственного интеллекта обучались с использованием данных, относящихся к непандемическому миру, где лица были полностью видны, а голоса не загораживались масками.

Пандемия COVID-19 застала наши платформы ИИ врасплох, и ИИ потребуется время, чтобы адаптироваться к новой среде. Чтобы голосовой опыт и распознавание лиц оставались актуальными, наборы данных должны адаптироваться к новому сегодняшнему дню.

Каким образом модернизируется голосовая технология искусственного интеллекта?

Быстрый прием для смягчения проблемных ключевых слов и слов в голосовом приложении заключается в использовании данных, собранных самим приложением, для определения слов, которые неправильно транскрибируются; и позволить приложению делать предположения, которые исправляют транскрипцию, чтобы передать предполагаемое значение пользователю.

Например, приложение с голосовым управлением в среде быстрого питания, расшифровывающее «Можно мне оранжевые туфли?» Следует принять во внимание, что пользователь, скорее всего, имел в виду «апельсиновый сок», и исправить ошибку модели на уровне приложения или запросить подтверждение у конечного пользователя.

В конечном итоге разработчикам необходимо будет перепроектировать приложение, чтобы увеличить набор данных и собрать образцы голоса, которые фактически имитируют сценарии из реальной жизни; который на этом этапе должен будет включать голоса приглушенной речи в самых разных средах.

Каким образом модернизируется распознавание лиц ИИ?

Прямо сейчас принимаются определенные обходные пути, чтобы не полагаться исключительно на распознавание лиц - например, Apple iPhone теперь отключает опцию Face ID при обнаружении маски лица.

«Если компании [распознавания лиц] не смотрят на это, не воспринимают это всерьез, я не предвижу, что они будут существовать еще долго», - сказал Шон Мур, генеральный директор Trueface, который создает технологию распознавания лиц, которую используют ВВС США.

Результаты уже демонстрируют: технология компьютерного зрения теперь используется для распознавания людей в масках в общественных местах или перед входом в магазин, и это показывает, что эту технологию можно использовать и для собственной безопасности.

Выводы

Чтобы преодолеть вызов, поставленный пандемией, специалисты по обработке данных собирают и анализируют новые актуальные данные, чтобы успешно адаптировать свои модели для надлежащего обслуживания конечных потребителей.

Если раньше сбор голосовых данных приглушенной речи регулировался в редких и особых случаях, то теперь это становится приоритетом. То же самое верно и для наборов данных распознавания лиц, которые расширяются для распознавания изображений людей в масках, в основном работая с областью вокруг глаз.

Это займет время, но компании быстрее адаптируются к этой новой реальности. По мере роста объема собираемых данных модели искусственного интеллекта станут умнее, им будет легче обслуживать конечных клиентов, а технологии снова станут легко доступными.

Серджио Брукколери - ведущий технологический архитектор Pactera EDGE.