COVID-19 如何影響基於人工智能的技術
已發表: 2020-10-1330秒總結:
- COVID-19 的出現損害了在大流行前編譯的數據集的有用性——導致它們授權的 AI 平台出現顯著的錯誤率。
- 受這種現象影響的一個領域是發聲。 雖然開發數據集是為了適應現實生活中的變量,例如口音和背景噪音,但它們的多樣性不足以區分從面罩後面發出的語音命令。
- 舉例來說,語音模型在佩戴口罩的用戶中經歷了平均 50% 的質量損失。 即使是性能最好的引擎也會出現 25% 的質量損失。 聲音高的人感受到的影響最大,因為面具掩蓋了高音的可懂度
- 在語音驅動的應用程序中減少有問題的關鍵字和單詞的快速技巧是使用應用程序本身收集的數據來識別被錯誤轉錄的單詞; 並讓應用程序做出更正轉錄的假設,以便向用戶傳達預期的含義。
- 長期的解決方案是增加數據集並收集實際上模仿現實生活場景的語音樣本; 此時需要在各種環境中包含低沉的語音
- 面部識別數據集正面臨來自口罩佩戴者的相同挑戰。
我們與技術互動的方式在不斷發展。 我們都記得在鍵盤上輸入 DOS 命令如何讓位於鼠標導航 Windows 的所見即所得的簡單性,而今天,觸摸屏的使用越來越多。 用戶界面的下一個重大進化步驟——而且意義重大——包括語音命令、面部識別技術和人工智能 (AI)。
啟用 AI 的機器將使用這些接口來預測、預測和執行大量任務——加快流程並實際上最大限度地減少用戶用於接口流程的時間。
雖然這預示著一個非常有希望的未來,但最近剎車已經應用於許多基於人工智能的項目。 怎麼來的? 因為收集的數據不再一定是乾淨、準確或可靠的。
它是在 COVID-19 之前的世界中積累的,並基於大流行前市場的假設。
因此,就像建築師發現其項目藍圖上的所有測量結果都不正確一樣,許多 AI 計劃又回到了繪圖板上。
讓我們仔細看看挑戰。
可訪問性是首要的
目標是讓每個人都能更輕鬆地訪問信息和服務。
為此,人臉識別技術呈指數級增長,現已廣泛用於機場值機、解鎖手機和平板電腦以及授予進入禁區的安全功能。
支持語音的體驗也變得越來越普遍。 我們在我們的快餐店看到了語音激活的智能售貨亭,例如,在那裡你只用你的聲音訂購薯條,它是語音聊天機器人,而不是忙於完成訂單的工作人員,現在提供客戶支持和所有這些加售超大號。
這些都是獲取信息的好方法,正如我們已經開始將它們同化到我們的正常生活中一樣,事實證明這些技術可能需要進行重大改變,因為它們是為大流行前的世界開發和訓練的。
大流行如何影響人工智能?
語音技術是在客戶提供合理清晰的通知的假設下開發的。
解釋語音數據的 AI 模型沒有經過訓練來處理被面罩遮住的命令——因為它們主要是通過將接收到的聲音與語音語料庫進行比較,以及與清晰語音樣本相關的轉錄來工作。
這意味著在大流行的世界中,成功的基於語音的客戶體驗變得更加難以交付。
同樣,由於面罩覆蓋了人的大部分面部,因此計算機視覺模型現在只能從客戶的上半部面部接收信息……預計他們不必處理這種數據場景
事實上,美國國家標準與技術研究院 (NIST) 的一項研究發現,在 COVID-19 大流行出現之前開發的面部識別算法在準確識別人方面“非常困難”。
NIST 的研究表明:“即使是測試的 89 種商業面部識別算法中最好的,在將數字應用的口罩與沒有戴口罩的同一個人的照片相匹配時,錯誤率也在 5% 到 50% 之間。”
結果,給客戶留下了不愉快的用戶體驗,需要他們恢復到“手動”界面,從而大大阻礙了識別過程。
人工智能如何在現代大流行世界中保持相關性?
AI 模型使用數據進行訓練、做出假設,然後向用戶提供響應。 然後,這些數據構成了數據集,該數據集是與當前操作進行比較的整批數據。
直到最近,人工智能模型都使用屬於非大流行世界的數據進行訓練,在那里人臉是完全可見的,聲音也不會被面具遮擋。
COVID-19 大流行讓我們的人工智能平台措手不及,人工智能需要時間來適應新環境。 為了讓語音體驗和人臉識別保持相關性,數據集需要適應當今的新情況。
AI語音技術如何被重新設計?
在語音驅動的應用程序中減少有問題的關鍵字和單詞的快速技巧是使用應用程序本身收集的數據來識別被錯誤轉錄的單詞; 並讓應用程序做出更正轉錄的假設,以便向用戶傳達預期的含義。
例如,快餐環境中的語音驅動應用程序轉錄“我可以買一些橙色的鞋子嗎?” 應該考慮到用戶很可能的意思是“橙汁”,並在應用程序級別修復模型中的錯誤,或者請最終用戶確認。
最終,開發人員需要重新設計應用程序以增加數據集並收集實際上模仿現實生活場景的語音樣本; 此時需要在各種環境中包含低沉的語音。
AI人臉識別是如何被重新設計的?
目前,正在採用某些解決方法來避免僅依賴面部識別——例如,Apple iPhone 現在在檢測到口罩時禁用 Face ID 選項。
“如果 [面部識別] 公司不關注這一點,不認真對待它,我預計它們的存在時間不會更長,”Trueface 的首席執行官肖恩摩爾說,該公司創建了面部識別技術,供人們使用。美國空軍。
結果已經展示出來,計算機視覺技術現在被用於識別在公共場所或進入商店之前戴口罩的人,因此它表明該技術也可以用於自身安全。
結論
為了克服大流行帶來的挑戰,數據科學家正在收集和分析新的相關數據,以成功調整他們的模型以正確地為最終客戶提供服務。
過去,收集低沉語音的語音數據在罕見和特定的情況下受到監管,現在它正在成為優先事項。 人臉識別數據集也是如此,這些數據集正在擴展以識別戴口罩的人的圖像,基本上是處理眼睛周圍的區域。
這需要時間,但公司正在更快地適應這一新現實。 隨著收集到的數據量的增長,人工智能模型將變得更加智能,服務終端客戶的難度將降低,並使技術再次易於訪問。
Sergio Bruccoleri 是文思海輝 EDGE 的首席技術架構師。