COVID-19がAIベースのテクノロジーにどのように影響しているか
公開: 2020-10-1330秒の要約:
- COVID-19の出現により、パンデミック前にコンパイルされたデータセットの有用性が損なわれ、その結果、それらが強化するAIプラットフォームで重大なエラー率が発生しました。
- この現象の影響を受ける領域の1つは、発声です。 データセットは、アクセントやバックグラウンドノイズなどの実際の変数に対応するために開発されましたが、フェイスマスクの後ろから発行された音声コマンドを区別するのに十分なほど多様ではありません。
- 例として、音声モデルでは、フェイスマスクを着用しているユーザーから平均して50%の品質低下が見られました。 最高のパフォーマンスを発揮するエンジンでさえ、25%の品質低下を経験しました。 マスクが高音の明瞭度をこもったため、高音の人の間で最も衝撃が感じられました。
- 音声を利用したアプリケーションで問題のあるキーワードや単語を軽減するための簡単なハックは、アプリケーション自体が収集したデータを使用して、誤って文字起こしされた単語を特定することです。 そして、意図した意味をユーザーに提供するために、アプリケーションに文字起こしを修正する仮定を行わせる。
- 長期的な解決策は、データセットを増やし、実際のシナリオを実際に模倣している音声サンプルを収集することです。 この時点で、さまざまな環境でこもった音声を含める必要があります
- 顔認識データセットは、フェイスマスク着用者から同じ課題を経験しています。
私たちがテクノロジーとやり取りする方法は絶えず進化しています。 キーボードでDOSコマンドを入力することが、マウスでナビゲートされるWindowsのWYSIWYGのシンプルさにどのように取って代わったかを私たちは皆覚えています。そして今日、タッチスクリーンの使用が増えています。 ユーザーインターフェイスの次の大きな進化のステップは、音声コマンド、顔認識テクノロジー、人工知能(AI)などです。
AI対応のマシンは、これらのインターフェースを使用して、多数のタスクを予測、予測、実行します。プロセスを高速化し、ユーザーがインターフェースプロセスに費やす時間を実際に最小限に抑えます。
これは非常に有望な未来を示していますが、最近、ブレーキは多くのAIベースのプロジェクトに適用されています。 どうして? 収集されたデータは、必ずしもクリーン、正確、または信頼できるとは限らないためです。
それはCOVID-19以前の世界で蓄積され、パンデミック前の市場から引き出された仮定に基づいていました。
したがって、建築家がプロジェクトの青写真のすべての測定値が正しくないことを発見したように、それは多くのAIイニシアチブの設計図に戻ります。
課題を詳しく見てみましょう。
アクセシビリティは何よりもまずです
目標は、誰にとっても情報やサービスへのアクセスを容易にすることです。
この目的のために、顔認識技術は飛躍的に成長し、空港のチェックイン、携帯電話やタブレットのロックを解除するためのセキュリティ機能、および制限区域へのアクセスを許可するために広く展開されています。
音声対応のエクスペリエンスも一般的になりつつあります。 たとえば、ファーストフードレストランでは音声起動のスマートキオスクが見られます。フライドポテトは音声のみを使用して注文され、注文を処理するのに忙しい労働者ではなく、音声対応のチャットボットがカスタマーサポートとすべてのアップセルを提供します。スーパーサイズ。
これらはすべて情報にアクセスするための優れた方法であり、私たちが情報を通常の生活に取り入れ始めたのと同じように、これらのテクノロジーはパンデミック前の世界向けに開発およびトレーニングされているため、劇的に変更する必要があるかもしれません。
パンデミックはAIにどのように影響しますか?
音声技術は、合理的に明確な告知が顧客によって提供されることを前提として開発されました。
音声データを解釈するAIモデルは、フェイスマスクによってこもったコマンドを処理するようにトレーニングされていませんでした。主に、受信した音声を音声コーパスと比較し、音声サンプルに音声文字変換を関連付けて機能するためです。
これは、パンデミックの世界では、成功した音声ベースの顧客体験を提供することが非常に困難になったことを意味します。
同様に、フェイスマスクは人の顔の大部分をカバーするため、コンピュータービジョンモデルは現在、顧客の顔の上半分からのみ情報を受信しています…彼らが処理する必要がないと予想されていたデータシナリオ
実際、米国国立標準技術研究所(NIST)の調査によると、COVID-19パンデミックが発生する前に開発された顔認識アルゴリズムでは、人を正確に特定することが「非常に困難」であることがわかりました。
NISTの調査によると、「テストされた89の商用顔認識アルゴリズムの中で最高のものでさえ、デジタルで適用されたフェイスマスクをマスクなしの同じ人物の写真と照合する際のエラー率は5%から50%でした。」
その結果、顧客には不快なユーザーエクスペリエンスが残され、「手動」インターフェイスに戻す必要があり、識別プロセスが大幅に妨げられます。
現代のパンデミックの世界では、AIはどのように関連性を維持していますか?
AIモデルは、データを使用してトレーニングを行い、仮定を立ててから、ユーザーに応答を提供します。 このデータは、現在の操作が比較されるデータのバッチ全体であるデータセットを構成します。
最近まで、AIモデルは、顔が完全に見え、発声がマスクによって妨げられなかった非パンデミックの世界に属するデータでトレーニングされていました。
COVID-19のパンデミックにより、AIプラットフォームが不意を突かれ、AIは新しい環境に適応するために時間が必要になります。 音声体験と顔認識の関連性を維持するには、データセットを今日の新しいものに調整する必要があります。
AI音声技術はどのように再設計されていますか?
音声を利用したアプリケーションで問題のあるキーワードや単語を軽減するための簡単なハックは、アプリケーション自体が収集したデータを使用して、誤って文字起こしされた単語を特定することです。 そして、意図した意味をユーザーに提供するために、アプリケーションに文字起こしを修正する仮定を行わせる。
たとえば、「オレンジ色の靴をもらえますか?」と書かれたファーストフード環境の音声駆動アプリケーション。 ユーザーが意味する可能性が非常に高いのは「オレンジジュース」であることを考慮に入れて、アプリケーションレベルでモデルのエラーを修復するか、最終ユーザーに確認を依頼する必要があります。
最終的に、開発者は、データセットを増やし、実際のシナリオを実際に模倣している音声サンプルを収集するために、アプリケーションを再設計する必要があります。 この時点で、さまざまな環境でこもった音声を含める必要があります。
AIの顔認識はどのように再設計されていますか?
現在、顔認識のみに依存することを避けるために、特定の回避策が採用されています。たとえば、Apple iPhoneは、フェイスマスクが検出されたときにFaceIDオプションを無効にするようになりました。
「[顔認識]企業がこれを見ていない、真剣に受け止めていない、私は彼らがずっと長く存在するとは思わない」とTruefaceのCEO、ショーン・ムーアは言った。アメリカ空軍。
すでに成果が出ており、公共の場所や入店前にマスクを着用している人を認識するためにコンピュータービジョン技術が使われるようになり、自分の安全にも活用できることを示しています。
結論
パンデミックによって設定された課題を克服するために、データサイエンティストは、新しい関連データを収集および分析して、エンドカスタマーに適切にサービスを提供するためにモデルを適切に適応させています。
以前は、こもった音声の音声データの収集がまれで特定のケースで規制されていましたが、現在は優先事項になっています。 同じことが、基本的に目の周りの領域で作業する、フェイスマスクを持つ人々の画像を認識するために拡張されている顔認識データセットにも当てはまります。
時間はかかりますが、企業はこの新しい現実に適応するために、より速く動いています。 収集されるデータの量が増えるにつれて、AIモデルはよりスマートになり、エンドカスタマーにサービスを提供するのが難しくなり、テクノロジーに再び簡単にアクセスできるようになります。
Sergio Bruccoleriは、PacteraEDGEのリードテクノロジーアーキテクトです。