KI-Trainingsdaten: Experte für maschinelles Lernen und CEO von TechSpeed enthüllt, wie Datenqualität Ihr KI-Produkt verbessern oder zerstören kann
Veröffentlicht: 2020-06-26
Bis 2021 werden über 80 % der neuen Technologien KI-basiert sein.
Doch obwohl diese Technologie fast jedem neuen technischen Produkt zugrunde liegt, das auf den Markt kommt, wird überraschend wenig darüber gesprochen, was unsere künstlich intelligenten Systeme prägt: die Datenqualität.
KI oder maschinelles Lernen (ML), Trainingsdaten werden normalerweise mit Lehrbüchern verglichen; Diese bilden die künstlich-intelligenten Systeme aus und geben ihnen Kontext sowie das Prisma, durch das Konzepte verstanden werden können.
Dies bedeutet, dass KI-gestützte Technologie nur so ausgereift und genau ist, wie die Daten, aus denen sie lernt.
Wir haben uns mit Vidya Plainfield, einem Fachexperten und CEO der Datendienstleistungsagentur TechSpeed, zusammengesetzt, um die Bedeutung von KI-Trainingsdaten, die Folgen unzureichender oder schlecht ausgewählter Datensätze und einige der Trends zu besprechen, die wir in diesem Bereich erwarten können.

1. Hallo Vidya, bevor wir zu den technischen Details kommen, erzählen Sie uns etwas über TechSpeed und Ihren Hintergrund in AI/ML und dem Datengeschäft?
Vidya: TechSpeed wurde 2002 in Portland, Oregon, von einem Datenfreak (meine Mutter) und einem Erfinder (mein Vater) gegründet.
Obwohl sie beide im Ruhestand sind, sind ihr Erfindergeist, ihr Unternehmertum und ihre Familie in unserem wachsenden Team von über 100 Technikern, Entwicklern und Managern immer noch sehr lebendig.
Im Laufe unserer 18-jährigen Geschichte hatten wir die Möglichkeit, die Datenindustrie mit unseren Kundenpartnern zu entwickeln und zu gestalten, während wir Daten sammeln, sortieren und Erkenntnisse gewinnen.
Was die meisten Leute nicht wissen, ist, dass hinter dem glänzenden Frontend der KI eine riesige Datenmaschine steckt und diese Terabyte an Daten von sorgfältig konstruierten Informationen angetrieben werden.
Wenn Sie mit Ihren Backend-Daten nicht vorsichtig sind, können Sie einem KI-Tool versehentlich etwas beibringen, was Sie nicht beabsichtigt haben.
TechSpeed versteht Daten grundlegend und das war die Grundlage dafür, wie wir mit Kunden zusammengearbeitet haben, um sie beim Training und Audit ihrer KI zu unterstützen.
2. Lassen Sie uns Datenqualität im Kontext von KI/ML definieren: Wie qualifiziert TechSpeed Daten?
Vidya: Natürlich ist Qualität König; Müll rein ist Müll raus.
Es ist sicherlich mühsam, Rohdaten zu bereinigen, fehlende Variablen neu zu kodieren und qualitative in quantitative Variablen umzuwandeln.
Es gibt ein Sprichwort: „Data Scientists verbringen 80 % ihrer Zeit damit, Daten zu bereinigen und 20 % mit der Erstellung eines Modells.“
Die größte Falle, die wir sehen, ist, dass Unternehmen saubere Qualitätsdaten unterschätzen und unterfinanzieren.
Diese Unterschätzung bedeutet, dass sie beim Aufbau ihres Programms vor die Wahl gestellt werden müssen zwischen einem ausreichend großen Datensatz oder einem qualitativ hochwertigen Datensatz.
Der Schlüssel ist, dass Sie sowohl Qualität als auch Quantität brauchen.
TechSpeeds arbeitet mit Kunden zusammen, um ihre Datensätze kostengünstig zu skalieren, damit sie keinen Kompromiss eingehen müssen. Wir bieten eine breite Palette von Dienstleistungen, einschließlich Einzel-, Mehrfach- und DEQA-Verarbeitung, um sicherzustellen, dass die Daten entsprechend den Anforderungen des Programms qualifiziert werden.
3. Wie würden Sie den Ansatz der Branche zur Datenqualität bewerten? Wenn Sie sich Ihre Kollegen und Kunden ansehen, was sind einige der häufigsten Fehler oder Missverständnisse in Bezug auf KI/ML-Training, auf die Sie gestoßen sind?
Vidya: Es gibt viele Firmen, die gutmeinenden Unternehmen eine breite Palette von Versprechen anbieten.
Einige Anbieter fangen an, erwarten aber, dass Unternehmen die schwere Arbeit in Bezug auf Schulungen und das laufende Ausnahmemanagement übernehmen.
Die größten Fehler, die Unternehmen bei der Verwaltung ihres Datenplans machen, sind:
1. Unzureichendes Volumen
Um eine gleichmäßige Gewichtung der Daten sowohl für Mehrheits- als auch für Minderheitsparameter zu gewährleisten, sind große Datensätze über alle Kategorien hinweg erforderlich. Andernfalls übergewichten die Algorithmen die Mehrheitsdaten, wenn sie versuchen, auf eine Minderheitensituation zu reagieren.
Angenommen, Sie möchten Bilder von Bäumen kategorisieren. Nehmen wir an, Sie haben viele gute Daten über alle verschiedenen Baumarten und alle Arten von Beleuchtung und Lebensphasen. Sie haben jedoch nicht viel davon, wie Bäume nach einem Hurrikan aussehen.
Natürlich werden dies die Minderheiteninstanzen sein, aber wenn Sie nur für die Mehrheitsdaten robuste Datenzählungen haben, wird das Tool beim Betrachten eines Bildes eines Baumes nach einem Hurrikan Daten aus den mehrheitlich gesunden Baumdaten verwenden und übermäßig gewichten einstellen. Dies kann zu Fehlern führen.
2. Unzureichende Vielfalt
Ein Mangel an robusten Daten über eine Vielzahl von Kategorien hinweg ist erforderlich, um sicherzustellen, dass das Tool in der Lage ist, laufende Änderungen in der Datensatzumgebung zu bewältigen.
Angenommen, Sie erstellen ein visuelles Analysetool, das Bilder von Lagerbehältern betrachtet. Dann wurde plötzlich ein Upgrade des Kamerasystems vorgenommen. Unweigerlich wird die Werkzeugausgabe beeinflusst.
Die Welt ist ein dynamischer Ort. Aktuelle und zukünftige Attribute von Kunden, Umgebungen, Einstellungen usw. müssen berücksichtigt werden, um sicherzustellen, dass die Tools diese Änderungen aufnehmen können.
3. Die Schwierigkeit der Datenbeschaffung unterschätzen
Unternehmen haben oft viele der Mehrheitsdaten, die sie klassifizieren möchten, und eine Herausforderung kann sich ergeben, wenn sie nach Minderheitendaten suchen müssen.
Angenommen, Sie erstellen ein visuelles Analysetool, das Smartphone-Bilder untersucht. Sie haben vielleicht eine Million Bilder aus sozialen Medien in einer Vielzahl von Kategorien, aber was Sie nicht haben, sind all die Bilder, die die Leute nicht hochladen.
Was ich meine, ist, dass die Leute im Allgemeinen Bilder in sozialen Medien posten, die ihnen gefallen, mit relativ guter Qualität und Klarheit.
Wenn Ihr Tool jedoch Handybilder überprüfen möchte, gibt es viele Bilder, die verschwommen, überbelichtet, geneigt usw. sind. Diese Bilder sind schwer zu beschaffen, denn wo finden Sie Minderheitentestbilder, die nicht gepostet werden?
Unternehmen unterschätzen oft die Anzahl der Lücken in ihren Daten, deren Füllung Ressourcen erfordern wird. Auf diese Weise hilft Ihnen ein guter Partner für maschinelles Lernen nicht nur beim Organisieren der Daten, die Sie haben, sondern hilft Ihnen auch, die Daten zu beschaffen, die Sie nicht haben.
4. Schließlich der „Ron Popeil“-Trugschluss
Mit anderen Worten: Der „Einstellen und vergessen“-Trugschluss.
Unternehmen vergessen oft, dass das menschliche Auge für die laufende Verwaltung und Wartung immer noch benötigt wird.
Ob Ergebnisse mit niedriger Konfidenz, Ausnahmebehandlung, Auditing oder Optimierung mit Verstärkungsdaten, diese fortlaufenden Arbeitsabläufe sind der Schlüssel, um das Tool aktuell zu halten und anhaltenden Erfolg zu ermöglichen.

4. Was sind die Folgen eines schlecht gehandhabten KI-Trainings?
Vidya: Ich habe nicht genug Finger und Zehen, um zu zählen, wie oft ein Kunde zu uns gekommen ist, weil er die Planung, die Kosten und den Umfang der Entwicklung seines Machine-Learning-Tools unterschätzt hat.
Das Schlimmste daran ist, dass Kunden wertvolle Zeit und Geld verlieren können, da die Grundlage jedes Programms Daten sind, da sie ihre ursprünglichen Datensätze abreißen und von vorne beginnen müssen.
Wenn Sie eine Gruppe von CEOs fragen, werden Ihnen alle sagen, dass sie der Meinung sind, dass die Nutzung von KI der Schlüssel zur zukünftigen Wettbewerbsfähigkeit ist.

Davon abgesehen budgetiert ein sehr kleiner Prozentsatz der Unternehmen tatsächlich für KI oder bezieht sie in den strategischen Planungsprozess ein.
Für Unternehmen, die Geld beiseite gelegt haben, haben sie normalerweise nur eine Chance, damit es funktioniert.
Ein schlecht gehandhabtes KI-Training kann manchmal dazu führen, dass ein Unternehmen nach einem fehlgeschlagenen Versuch nicht in der Lage ist, zu reinvestieren. Dies kann bedeuten, dass sie ständig versuchen, ihre Konkurrenz einzuholen.
5. Was sind Ihrer Meinung nach einige der wichtigsten Beispiele dafür, wie sich KI-Trainingsdaten auf gesellschaftlicher Ebene auswirken?
Vidya: Wir befinden uns in einer Zeit unserer Geschichte, in der ein Bewusstsein für die Voreingenommenheit, die in unserer Gesellschaft programmiert wurde, aufkeimt.
Rasse, Geschlecht, Alter und viele weitere falsche Datenpunkte wurden viel zu lange verwendet, um Entscheidungen zu treffen, und ich würde argumentieren, suboptimierte Entscheidungen, die uns daran gehindert haben, gemeinsame Erfolge zu erzielen.
Nehmen wir zum Beispiel ein Finanzunternehmen, das mithilfe eines maschinellen Lerntools das Bewerberfeld eingrenzen möchte.
Nehmen wir an, das Unternehmen hat 20 Jahre seiner historischen Mitarbeiterdaten verwendet, um die Mitarbeiter zu identifizieren, die am meisten befördert wurden, die die höchsten Leistungsbewertungen hatten und dann untersuchten, wo sie zur Schule gingen, welche Erfahrungen sie vor ihrem Eintritt in das Unternehmen hatten usw.
Auf den ersten Blick mag dies sehr sinnvoll sein: „Mal sehen, wer in unserer Firma erfolgreich war und mehr solche Leute einstellen“.
Wofür Ihr HR-Tool blind ist, ist die institutionelle Voreingenommenheit, die sich in der Vergangenheit auf Einstellungs- und Beförderungsentscheidungen ausgewirkt haben könnte.
- Männer werden häufiger befördert als Frauen.
- Kaukasier werden eher interviewt und letztendlich eingestellt als farbige Menschen.
- Und historisch gesehen sind einkommensschwache Minderheiten in der Hochschulbildung unterrepräsentiert und in Bezug auf die Hochschulzulassung an Tier-1-Schulen in mehreren Merkmalen benachteiligt.
In diesem Beispiel war der Datensatz unvollständig und externe Leistungsdaten müssen zusammen mit anderen Auswahlvariablen wie Potenzial enthalten sein.
Die Magie der absichtlich entworfenen KI, die von einem absichtlich diversifizierten Team erstellt wird, kann uns helfen, Vorurteile und blinde Flecken zu überwinden.
Es ist eine machtvolle und befreiende Sache zu erkennen, dass wir Maschinen intelligenter machen können als wir, wenn wir uns dafür entscheiden.
6. Unterscheidet sich die Tatsache, dass Sie ein von Frauen geführtes Unternehmen sind, von Ihren Mitbewerbern?
Vidya: TechSpeed war schon immer eine von Frauen geführte Minderheitenorganisation.
Frauen machen nur 5 % aller Minderheitsfrauen auf CEO- und Führungsebene in der Technologiebranche aus.
Genau aus diesem Grund differenzieren wir uns als ein von Frauen in Minderheiten geführtes Unternehmen. In einer stark von Männern dominierten Branche sind wir stolz darauf, beispielhaft zu zeigen, wie weibliche Führungskräfte unterschiedliche Perspektiven und Lösungen einbringen können.
Wir sind im Datengeschäft tätig; Wir bringen Maschinen bei, die Welt so zu sehen, wie sie ist, mit all ihren Farben und Formen.
Unsere Organisation spiegelt die Vielfalt der Perspektiven wider, die wir in unserer Arbeit widerspiegeln wollen.
Ich bin Mutter von drei rassisch unterschiedlichen Mädchen in einem gemischten Haushalt.
Diversity und Female Empowerment ist nicht etwas, worüber wir sprechen, sondern darüber, wer wir sind und wie wir leben.

7. Nun, zurück zu den Trainingsdaten und die positive Seite betrachtend, wie profitieren qualitativ hochwertige Trainingsdaten dem KI-Produkt, dh Unternehmen, die es besitzen?
Vidya: Grundsätzlich bedeuten gut durchdachte Trainingsdaten weniger Ausnahmen und Fehler.
Der Hauptgrund für Investitionen in maschinelles Lernen und KI-Tools besteht darin, Probleme schneller und zuverlässiger lösen zu können.
Es gibt eine falsche Bezeichnung von Leuten, die neu in der Branche sind, dass KI selbstantreibend und vollständig autonom sein kann. Die Wahrheit ist jedoch, dass es für die meisten Unternehmen immer noch 10-20% Fehler und Ausnahmen geben wird.
Dieser Eimer mit geringen Vertrauens- oder Ausnahmedatensätzen ist kein Fluch, sondern eine Chance. Ausnahmen können „manuell“ bearbeitet und analysiert und dann in neue oder bessere Regeln oder Logiken umgewandelt werden.
8. Welchen Prozess würden Sie für die kontinuierliche Datenqualitätssicherung empfehlen? Wann, wenn überhaupt, würden Sie empfehlen, maschinelles Lernen hin zu vollständig autonomen Funktionen zu verlagern? Endet das Training für eine KI jemals?
Vidya: Sicherlich unterscheidet sich die schwere Arbeit, die bei der Ersteinrichtung eines KI- oder Machine-Learning-Programms erforderlich ist, stark von der, die für die laufende Wartung erforderlich ist.
Was wir sehen ist, dass die effektivsten laufenden Programme eine Art laufendes Auditing und Ausnahmeverarbeitung beinhalten.
Kontinuierliche Überprüfung von Verarbeitungsausnahmen und laufende Audits werden Chancen und Schwächen im Programm identifizieren.
Ausnahmslos jedes Projekt und jeder Datensatz weist Nuancen auf, die ursprünglich nicht geplant waren und manchmal brauchen diese Nuancen Zeit, um zu entstehen.
So ist Planung alles und doch ist der Plan nichts. Durch die Integration von Auditing bleibt der Plan flexibel und das Tool wendig.
Zwar gibt es bei ganz einfachen Tools natürlich Ausnahmen, aber bei KI ist die Arbeit meistens nie wirklich zu Ende, sie entwickelt sich einfach weiter.
9. Was sind Ihrer Meinung nach die kommenden Trends bei der Optimierung von KI-Trainingsdaten? Worauf sollten Unternehmen achten, die auf KI setzen?
Vidya: Es gibt eine Welle von KI/Maschinenlernen von der Stange und täglich kommen mehr auf den Markt.
Der Zugriff auf Tools zur Selbstbedienung ermöglicht es allen Arten von Unternehmen, zu experimentieren und mit der Nutzung ihrer Daten zu beginnen.
Das ist natürlich großartig für die Industrie und Unternehmen. Wie bereits erwähnt, kann es jedoch ohne Qualitätsdaten und fortlaufenden Support für Heimwerker problematisch sein.
Unternehmen möchten ihr eigenes Programm ausführen, haben aber selten die Kraft, sich zu organisieren und Lerndatensätze zu verarbeiten.
Dies kann manchmal zu kleinen oder anderweitig unzureichenden Datensätzen und letztendlich zu schlechten Modellen führen.
Hier kann ein guter Datensupport-Partner sowohl eine perspektivische als auch skalierbare Unterstützung bieten, um zu helfen, von hinten zu führen.
Unter Forschern gibt es ein altes Sprichwort: Je mehr Fragen man stellt, desto mehr Fragen stellt man fest, dass man auch Antworten braucht.
Da Unternehmen immer komplexere Machine-Learning-Programme entwickeln möchten, werden sie weiterhin feststellen, dass die Datensätze, die sie für den Einstieg zur Verfügung hatten, einfach nicht mehr ausreichen.
Der Bedarf an Data Mining, um die KI-Logik auszufüllen, wird weiter zunehmen. Je reifer die Branche ist, desto größer ist das Bewusstsein für die Daten, die wir nicht haben.
Obwohl dies nicht nur für KI oder maschinelles Lernen gilt, denke ich, dass wir uns in einer Zeit in der Geschichte befinden, in der die Menschen neu bewerten, wie sie über ihr Unternehmen, ihre Kunden und ihre Community denken.
Die Annahmen und Erwartungen, die das Rückgrat bestehender Produkte, Programme und Strategien waren, werden alle neu bewertet.
Jetzt ist es für Unternehmen an der Zeit, bestehende und zukünftige KI- und Machine-Learning-Tools mit frischen und integrativen Augen zu betrachten.
Früher war es optional, aber jetzt wird es erwartet, und Unternehmen, die sich nicht weiterentwickeln, werden von Verbrauchern zurückgelassen, die ihre Erwartungen unwiderruflich erhöht haben.
Danke, Vidya!
Möchten Sie Ihre KI/ML-Lösung auf die nächste Stufe heben? Kontaktieren Sie TechSpeed über [email protected] oder rufen Sie 503-291-0027 an.