Wie COVID-19 die KI-basierte Technologie beeinflusst

Veröffentlicht: 2020-10-13

30-Sekunden-Zusammenfassung:

  • Das Aufkommen von COVID-19 hat die Nützlichkeit von Datensätzen beeinträchtigt, die vor der Pandemie zusammengestellt wurden – was zu erheblichen Fehlerraten auf den von ihnen unterstützten KI-Plattformen geführt hat.
  • Ein von diesem Phänomen betroffener Bereich ist die Vokalisierung. Obwohl Datensätze entwickelt wurden, um reale Variablen wie Akzente und Hintergrundgeräusche aufzunehmen, sind sie nicht vielfältig genug, um Sprachbefehle hinter einer Gesichtsmaske zu unterscheiden.
  • Zum Beispiel erlebten Sprachmodelle im Durchschnitt einen 50-prozentigen Qualitätsverlust durch Benutzer, die Gesichtsmasken trugen. Selbst die leistungsstärkste Engine erlitt einen Qualitätsverlust von 25 Prozent. Die Wirkung war bei Menschen mit hohen Stimmen am stärksten zu spüren, da die Masken die Verständlichkeit hoher Töne dämpften
  • Ein schneller Hack, um problematische Schlüsselwörter und Wörter in einer sprachgesteuerten Anwendung zu entschärfen, besteht darin, die von der Anwendung selbst gesammelten Daten zu verwenden, um die Wörter zu identifizieren, die falsch transkribiert werden. und die Anwendung Annahmen treffen zu lassen, die die Transkription korrigieren, um dem Benutzer die beabsichtigte Bedeutung zu liefern.
  • Bei der langfristigen Lösung geht es darum, den Datensatz zu vergrößern und Sprachproben zu sammeln, die tatsächlich reale Szenarien nachahmen. die zu diesem Zeitpunkt gedämpfte Sprachstimmen in einer Vielzahl von Umgebungen enthalten müssen
  • Gesichtserkennungsdatensätze erleben die gleiche Herausforderung bei Trägern von Gesichtsmasken.

Die Art und Weise, wie wir mit Technologie interagieren, entwickelt sich ständig weiter. Wir alle erinnern uns, wie die Eingabe von DOS-Befehlen auf einer Tastatur der WYSIWYG-Einfachheit von mausgesteuertem Windows wich, und heute werden Touchscreens immer häufiger verwendet. Der nächste große Evolutionsschritt bei Benutzeroberflächen – und er ist groß – umfasst Sprachbefehle, Gesichtserkennungstechnologien und künstliche Intelligenz (KI).

KI-fähige Maschinen werden diese Schnittstellen verwenden, um eine Vielzahl von Aufgaben zu antizipieren, vorherzusagen und auszuführen – Prozesse zu beschleunigen und tatsächlich die Zeit zu minimieren, die Benutzer für den Schnittstellenprozess aufwenden.

Dies deutet zwar auf eine sehr vielversprechende Zukunft hin, aber in letzter Zeit wurden viele KI-basierte Projekte gebremst. Woher? Denn die gesammelten Daten sind nicht mehr unbedingt sauber, genau oder zuverlässig.

Es wurde in einer Welt vor COVID-19 angesammelt und basierte auf Annahmen aus einem Markt vor der Pandemie.

So wie ein Architekt feststellt, dass alle Maße auf dem Bauplan seines Projekts falsch sind, ist er für eine Reihe von KI-Initiativen wieder am Reißbrett.

Schauen wir uns die Herausforderung genauer an.

Barrierefreiheit steht an erster Stelle

Ziel ist es, allen den Zugang zu Informationen und Diensten zu erleichtern.

Zu diesem Zweck ist die Gesichtserkennungstechnologie exponentiell gewachsen und wird heute häufig für Check-ins am Flughafen, als Sicherheitsfunktion zum Entsperren unserer Telefone und Tablets und für die Gewährung des Zugangs zu gesperrten Bereichen eingesetzt.

Auch sprachgesteuerte Erlebnisse werden immer häufiger. Wir sehen zum Beispiel sprachaktivierte intelligente Kioske in unseren Fastfood-Restaurants, wo Ihre Pommes nur mit Ihrer Stimme bestellt werden und es sind sprachgesteuerte Chatbots, die jetzt Kundensupport und all diese Upselling-Angebote bieten, und nicht Mitarbeiter, die mit der Ausführung von Bestellungen beschäftigt sind Übergröße.

Dies sind alles großartige Möglichkeiten, auf Informationen zuzugreifen, und gerade als wir begonnen haben, sie in unser normales Leben zu integrieren, stellt sich heraus, dass diese Technologien möglicherweise dramatisch geändert werden müssen, da sie für eine Welt vor der Pandemie entwickelt und trainiert wurden.

Wie wirkt sich die Pandemie auf KI aus?

Sprachtechnologien wurden unter der Annahme entwickelt, dass eine einigermaßen klare Ansage durch den Kunden erfolgen würde.

KI-Modelle, die die Stimmdaten interpretieren, wurden nicht darauf trainiert, Befehle zu verarbeiten, die von einer Gesichtsmaske gedämpft werden – da sie hauptsächlich empfangene Geräusche mit Sprachkörpern mit Transkriptionen vergleichen, die an klare Sprach-Stimmproben gebunden sind.

Dies bedeutet, dass in einer Pandemiewelt ein erfolgreiches sprachbasiertes Kundenerlebnis viel schwieriger zu liefern ist.

Da eine Gesichtsmaske den größten Teil des Gesichts einer Person bedeckt, erhalten Computer Vision-Modelle jetzt nur noch Informationen aus der oberen Gesichtshälfte des Kunden… ein Datenszenario, mit dem sie nicht umgehen mussten

Tatsächlich hat eine Studie des US-amerikanischen National Institute of Standards and Technology (NIST) ergeben, dass Gesichtserkennungsalgorithmen, die vor dem Auftreten der COVID-19-Pandemie entwickelt wurden, „große Schwierigkeiten“ haben, Personen genau zu identifizieren.

Die NIST-Studie zeigt: „Selbst die besten der 89 getesteten kommerziellen Gesichtserkennungsalgorithmen hatten Fehlerraten zwischen 5 und 50 % beim Abgleich von digital aufgebrachten Gesichtsmasken mit Fotos derselben Person ohne Maske.“

Als Ergebnis bleibt dem Kunden eine unangenehme Benutzererfahrung, die ihn dazu zwingt, auf „manuelle“ Schnittstellen zurückzugreifen, was den Identifizierungsprozess erheblich behindert.

Wie bleibt KI in einer modernen Pandemiewelt relevant?

KI-Modelle verwenden Daten, um zu trainieren, Annahmen zu treffen und dann dem Benutzer eine Antwort zu geben. Diese Daten bilden dann den Datensatz, bei dem es sich um den gesamten Datenstapel handelt, mit dem die aktuelle Operation verglichen wird.

Bis vor kurzem wurden KI-Modelle mit Daten trainiert, die zu einer nicht-pandemischen Welt gehörten, in der Gesichter vollständig sichtbar waren und Vokalisationen nicht durch Masken behindert wurden.

Die COVID-19-Pandemie hat unsere KI-Plattformen überrascht und KI wird Zeit brauchen, um sich an die neue Umgebung anzupassen. Damit Spracherlebnisse und Gesichtserkennung relevant bleiben, müssen sich Datensätze heute an das Neue anpassen.

Wie wird die KI-Sprachtechnologie überarbeitet?

Ein schneller Hack, um problematische Schlüsselwörter und Wörter in einer sprachgesteuerten Anwendung zu entschärfen, besteht darin, die von der Anwendung selbst gesammelten Daten zu verwenden, um die Wörter zu identifizieren, die falsch transkribiert werden. und die Anwendung Annahmen treffen zu lassen, die die Transkription korrigieren, um dem Benutzer die beabsichtigte Bedeutung zu liefern.

Zum Beispiel eine sprachgesteuerte Anwendung in einer Fast-Food-Umgebung, die „Darf ich orange Schuhe bekommen?“ transkribiert. sollten berücksichtigen, dass der Benutzer sehr wahrscheinlich „Orangensaft“ meinte und den Fehler aus dem Modell auf Anwendungsebene beheben oder den Endbenutzer um Bestätigung bitten.

Letztendlich müssen Entwickler die Anwendung neu entwickeln, um den Datensatz zu vergrößern und Sprachproben zu sammeln, die tatsächlich reale Szenarien nachahmen. die zu diesem Zeitpunkt gedämpfte Sprachstimmen in einer Vielzahl von Umgebungen enthalten müssen.

Wie wird die KI-Gesichtserkennung überarbeitet?

Im Moment werden bestimmte Workarounds eingeführt, um zu vermeiden, sich ausschließlich auf die Gesichtserkennung zu verlassen – zum Beispiel deaktivieren Apple iPhones jetzt die Face ID-Option, wenn eine Gesichtsmaske erkannt wird.

„Wenn die [Gesichtserkennungs-]Firmen sich das nicht ansehen und es nicht ernst nehmen, gehe ich davon aus, dass es sie nicht mehr lange gibt“, sagte Shaun Moore, CEO von Trueface, das Gesichtserkennungstechnologie entwickelt, die von . verwendet wird der US-Luftwaffe.

Die Ergebnisse zeigen bereits, dass Computer Vision-Technologie jetzt verwendet wird, um Menschen mit Masken an öffentlichen Orten oder vor dem Betreten eines Geschäfts zu erkennen, und zeigt so, dass die Technologie auch für die eigene Sicherheit eingesetzt werden kann.

Schlussfolgerungen

Um die Herausforderung durch die Pandemie zu meistern, sammeln und analysieren Datenwissenschaftler neue und relevante Daten, um ihre Modelle erfolgreich anzupassen, um ihre Endkunden richtig zu bedienen.

Während in der Vergangenheit die Erfassung von Sprachdaten gedämpfter Sprache in seltenen und spezifischen Fällen geregelt war, wird dies jetzt zu einer Priorität. Das gleiche gilt für Gesichtserkennungsdatensätze, die sich erweitern, um Bilder von Menschen mit Gesichtsmasken zu erkennen, wobei im Wesentlichen mit dem Bereich um die Augen gearbeitet wird.

Es wird einige Zeit dauern, aber Unternehmen bewegen sich schneller, um sich an diese neue Realität anzupassen. Mit wachsender Datenmenge werden KI-Modelle intelligenter und haben weniger Schwierigkeiten, Endkunden zu bedienen und Technologie wieder leicht zugänglich zu machen.

Sergio Bruccoleri ist leitender Technologiearchitekt bei Pactera EDGE.