Как COVID-19 влияет на технологии на основе искусственного интеллекта
Опубликовано: 2020-10-1330-секундное резюме:
- Появление COVID-19 поставило под угрозу полезность наборов данных, которые были собраны до пандемии, что привело к значительному количеству ошибок на платформах искусственного интеллекта, которые они расширяют.
- Одна из областей, затронутых этим феноменом, - это вокализация. Хотя наборы данных были разработаны для учета реальных переменных, таких как акценты и фоновый шум, они недостаточно разнообразны, чтобы различать голосовые команды, исходящие из-за лицевой маски.
- Например, голосовые модели испытали в среднем 50-процентную потерю качества из-за того, что пользователи носили маски. Даже самый эффективный двигатель потерял 25% качества. Воздействие ощущалось сильнее всего среди людей с высокими голосами, поскольку маски заглушали разборчивость высоких звуков.
- Быстрый прием для смягчения проблемных ключевых слов и слов в голосовом приложении заключается в использовании данных, собранных самим приложением, для определения слов, которые неправильно транскрибируются; и позволить приложению делать предположения, которые исправляют транскрипцию, чтобы передать предполагаемое значение пользователю.
- Долгосрочное решение заключается в увеличении набора данных и сборе голосовых образцов, которые фактически имитируют реальный сценарий; который на данный момент должен будет включать приглушенные речевые голоса в самых разных средах.
- Наборы данных для распознавания лиц сталкиваются с той же проблемой со стороны владельцев лицевых масок.
Способы взаимодействия с технологиями постоянно развиваются. Все мы помним, как ввод команд DOS на клавиатуре уступил место WYSIWYG-простоте Windows с навигацией с помощью мыши, и сегодня все чаще используются сенсорные экраны. Следующий большой шаг эволюции пользовательских интерфейсов - и он большой - включает голосовые команды, технологии распознавания лиц и искусственный интеллект (AI).
Машины с поддержкой ИИ будут использовать эти интерфейсы для прогнозирования, прогнозирования и выполнения множества задач, ускоряя процессы и фактически сводя к минимуму время, затрачиваемое пользователями на процесс взаимодействия.
Хотя это указывает на очень многообещающее будущее, в последнее время тормоза были применены ко многим проектам, основанным на искусственном интеллекте. Как придешь? Потому что собранные данные больше не обязательно чистые, точные или надежные.
Он был накоплен в мире до COVID-19 и был основан на предположениях, сделанных на рынке до пандемии.
Подобно тому, как архитектор обнаруживает, что все измерения на чертеже проекта неверны, он возвращается на чертежную доску для ряда инициатив в области ИИ.
Давайте подробнее рассмотрим задачу.
Доступность прежде всего
Цель состоит в том, чтобы упростить доступ к информации и услугам для всех.
С этой целью технология распознавания лиц выросла в геометрической прогрессии и теперь широко используется для регистрации в аэропортах, в качестве средства безопасности для разблокировки наших телефонов и планшетов, а также для предоставления доступа в закрытые зоны.
Голосовое управление также становится все более распространенным. Мы видим, например, голосовые умные киоски в наших ресторанах быстрого питания, где ваш картофель фри заказывается только с помощью вашего голоса, и это голосовые чат-боты, а не рабочие, занятые выполнением заказов, которые теперь предлагают поддержку клиентов и все эти дополнительные продажи. большегрузный.
Все это отличные способы доступа к информации, и, как только мы начали ассимилировать их в нашей нормальной жизни, оказывается, что эти технологии, возможно, необходимо радикально изменить, поскольку они были разработаны и обучены для мира, предшествующего пандемии.
Как пандемия влияет на ИИ?
Голосовые технологии были разработаны с учетом того, что заказчик обеспечит достаточно четкое оповещение.
Модели искусственного интеллекта, которые интерпретируют голосовые данные, не были обучены обрабатывать команды, приглушенные лицевой маской, поскольку они в основном работают, сравнивая полученные звуки с речевыми корпусами с транскрипциями, привязанными к четким речевым образцам голоса.
Это означает, что в мире пандемии обеспечить успешное обслуживание клиентов с помощью голосовой связи стало намного сложнее.
Точно так же, поскольку маска закрывает большую часть лица человека, модели компьютерного зрения теперь получают информацию только от верхней половины лица клиента… сценарий данных, с которым они не ожидали, что им придется обрабатывать
Фактически, исследование Национального института стандартов и технологий США (NIST) показало, что алгоритмы распознавания лиц, разработанные до возникновения пандемии COVID-19, имеют «большие трудности» для точной идентификации людей.
Исследование NIST показывает: «Даже у лучших из 89 протестированных коммерческих алгоритмов распознавания лиц частота ошибок составляла от 5% до 50% при сопоставлении нанесенных цифровым способом лицевых масок с фотографиями того же человека без маски».
В результате у клиента возникает неприятный пользовательский опыт, который требует от него возврата к «ручным» интерфейсам, что значительно затрудняет процесс идентификации.
Как ИИ остается актуальным в современном мире пандемии?
Модели искусственного интеллекта используют данные для обучения, делают предположения, а затем предоставляют ответ пользователю. Затем эти данные составляют набор данных, который представляет собой весь пакет данных, с которым сравнивается текущая операция.
До недавнего времени модели искусственного интеллекта обучались с использованием данных, относящихся к непандемическому миру, где лица были полностью видны, а голоса не загораживались масками.
Пандемия COVID-19 застала наши платформы ИИ врасплох, и ИИ потребуется время, чтобы адаптироваться к новой среде. Чтобы голосовой опыт и распознавание лиц оставались актуальными, наборы данных должны адаптироваться к новому сегодняшнему дню.
Каким образом модернизируется голосовая технология искусственного интеллекта?
Быстрый прием для смягчения проблемных ключевых слов и слов в голосовом приложении заключается в использовании данных, собранных самим приложением, для определения слов, которые неправильно транскрибируются; и позволить приложению делать предположения, которые исправляют транскрипцию, чтобы передать предполагаемое значение пользователю.
Например, приложение с голосовым управлением в среде быстрого питания, расшифровывающее «Можно мне оранжевые туфли?» Следует принять во внимание, что пользователь, скорее всего, имел в виду «апельсиновый сок», и исправить ошибку модели на уровне приложения или запросить подтверждение у конечного пользователя.
В конечном итоге разработчикам необходимо будет перепроектировать приложение, чтобы увеличить набор данных и собрать образцы голоса, которые фактически имитируют сценарии из реальной жизни; который на этом этапе должен будет включать голоса приглушенной речи в самых разных средах.
Каким образом модернизируется распознавание лиц ИИ?
Прямо сейчас принимаются определенные обходные пути, чтобы не полагаться исключительно на распознавание лиц - например, Apple iPhone теперь отключает опцию Face ID при обнаружении маски лица.
«Если компании [распознавания лиц] не смотрят на это, не воспринимают это всерьез, я не предвижу, что они будут существовать еще долго», - сказал Шон Мур, генеральный директор Trueface, который создает технологию распознавания лиц, которую используют ВВС США.
Результаты уже демонстрируют: технология компьютерного зрения теперь используется для распознавания людей в масках в общественных местах или перед входом в магазин, и это показывает, что эту технологию можно использовать и для собственной безопасности.
Выводы
Чтобы преодолеть вызов, поставленный пандемией, специалисты по обработке данных собирают и анализируют новые актуальные данные, чтобы успешно адаптировать свои модели для надлежащего обслуживания конечных потребителей.
Если раньше сбор голосовых данных приглушенной речи регулировался в редких и особых случаях, то теперь это становится приоритетом. То же самое верно и для наборов данных распознавания лиц, которые расширяются для распознавания изображений людей в масках, в основном работая с областью вокруг глаз.
Это займет время, но компании быстрее адаптируются к этой новой реальности. По мере роста объема собираемых данных модели искусственного интеллекта станут умнее, им будет легче обслуживать конечных клиентов, а технологии снова станут легко доступными.
Серджио Брукколери - ведущий технологический архитектор Pactera EDGE.