Données de formation en IA : un expert en apprentissage automatique et le PDG de TechSpeed ​​révèlent comment la qualité des données peut faire ou défaire votre produit d'IA

Publié: 2020-06-26
ai training data
Les données d'entraînement de l'IA sont ce qui détermine le niveau de sophistication et de précision d'un système d'IA

D'ici 2021, plus de 80 % des technologies émergentes seront basées sur l'IA.

Cependant, même si cette technologie sous-tend presque tous les nouveaux produits technologiques qui arrivent sur le marché, il y a étonnamment peu de discussions sur ce qui façonne nos systèmes artificiellement intelligents : la qualité des données.

AI, ou machine learning (ML), les données de formation sont généralement comparées aux manuels ; Ceux-ci éduquent les systèmes artificiellement intelligents, leur donnant un contexte ainsi que le prisme à travers lequel comprendre les concepts.

Cela signifie que la technologie alimentée par l'IA n'est aussi sophistiquée et précise que les données à partir desquelles elle apprend.

Nous avons rencontré Vidya Plainfield, experte en la matière et PDG de l'agence de services de données TechSpeed, pour discuter de l'importance des données de formation en IA, des conséquences d'ensembles de données insuffisants ou mal sélectionnés et de certaines des tendances que nous pouvons nous attendre à voir sur le terrain.

Profile image of Vidya Plainfield, CEO @TechSpeed
Vidya Plainfield, PDG @TechSpeed

1. Bonjour Vidya, avant d'entrer dans les détails techniques, parlez-nous un peu de TechSpeed ​​et de votre expérience en IA/ML et dans le domaine des données ?

Vidya : TechSpeed ​​a été fondée à Portland, dans l'Oregon, en 2002 par un geek des données (ma mère) et un inventeur (mon père).

Bien qu'ils soient tous les deux à la retraite maintenant, leur esprit d'invention, d'entrepreneuriat et de famille est toujours bien vivant dans notre équipe grandissante de plus de 100 techniciens, développeurs et gestionnaires.

Au cours de nos 18 ans d'histoire, nous avons eu la chance d'évoluer et de façonner l'industrie des données avec nos partenaires clients alors que nous extrayons, trions et récoltons des informations à partir des données.

Ce que la plupart des gens ne réalisent pas, c'est qu'il existe un énorme moteur de données derrière l'interface brillante de l'IA et que ces téraoctets de données sont alimentés par des informations soigneusement construites.

Si vous ne faites pas attention à vos données backend, vous pouvez accidentellement enseigner à un outil d'IA quelque chose que vous n'aviez pas l'intention de faire.

TechSpeed ​​comprend fondamentalement les données et cela a été le fondement de notre partenariat avec les clients pour les aider à former et à auditer leur IA.

Les meilleures sociétés de développement de logiciels classées !
Retrouvez-les ici

2. Définissons la qualité des données dans le contexte de l'IA/ML : comment TechSpeed ​​qualifie-t-il les données ?

Vidya : Bien sûr, la qualité est reine ; Les ordures entrantes sont les ordures sortantes.

Il est certes fastidieux de nettoyer des données brutes, de recoder des variables manquantes et de transformer des variables qualitatives en variables quantitatives.

Il y a un dicton : « Les data scientists passent 80 % de leur temps à nettoyer les données et 20 % à construire un modèle. »

Le plus gros écueil que nous voyons est que les entreprises sous-estiment et sous-financent les données de qualité propre.

Cette sous-estimation signifie que lorsqu'il s'agit de développer leur programme, ils doivent choisir entre disposer d'un ensemble de données suffisamment important ou disposer d'un ensemble de données de qualité.

La clé est que vous avez besoin à la fois de qualité ET de quantité.

TechSpeeds travaille avec ses clients pour les aider à faire évoluer leurs ensembles de données de manière abordable afin qu'ils n'aient pas à faire de compromis. Nous offrons une large gamme de services, y compris le traitement unique, multiple et DEQA pour garantir que les données sont qualifiées de manière à répondre aux besoins du programme.

3. Comment évalueriez-vous l'approche de l'industrie en matière de qualité des données ? En regardant vos pairs et vos clients, quelles sont les erreurs ou les idées fausses les plus courantes concernant la formation en IA/ML que vous avez rencontrées ?

Vidya : Il existe de nombreuses entreprises offrant un large éventail de promesses à des entreprises bien intentionnées.

Certains fournisseurs démarrent les choses, mais s'attendent à ce que les entreprises fassent le gros du travail en matière de formation et de gestion continue des exceptions.

Les plus grosses erreurs que les entreprises commettent lors de la gestion de leur plan de données sont :

1. Volume insuffisant

De grands ensembles de données dans toutes les catégories sont nécessaires pour garantir qu'une pondération uniforme des données est disponible pour les paramètres majoritaires et minoritaires. Sans cela, les algorithmes surpondéreront les données majoritaires lorsqu'ils tenteront de répondre à une situation minoritaire.

Par exemple, supposons que vous cherchiez à catégoriser des images d'arbres. Disons que vous avez beaucoup de bonnes données sur toutes les différentes espèces d'arbres et toutes sortes d'éclairage et d'étape de la vie. Cependant, vous n'avez pas beaucoup de volume sur ce à quoi ressemblent les arbres après un ouragan.

Bien sûr, ce seront les instances minoritaires, mais si vous disposez de données robustes pour uniquement les données majoritaires, lorsque l'outil examine l'image d'un arbre après un ouragan, il s'appuiera sur les données de la majorité des arbres sains et les pondérera excessivement. ensemble. Cela peut conduire à des erreurs.

2. Variété insuffisante

Un manque de données solides dans un large éventail de catégories est nécessaire pour garantir que l'outil est capable de gérer les changements en cours dans l'environnement de l'ensemble de données.

Par exemple, supposons que vous créiez un outil d'analyse visuelle qui examinait des images de conteneurs de stockage. Puis, tout d'un coup, une mise à niveau du système de caméra a été effectuée. Invariablement, la sortie de l'outil sera impactée.

Le monde est un endroit dynamique. Les attributs actuels et futurs des clients, des environnements, des attitudes, etc. doivent être pris en compte pour garantir que les outils peuvent s'adapter à ces changements.

3. Sous-estimer la difficulté de s'approvisionner en données

Souvent, les entreprises ont beaucoup de données majoritaires qu'elles souhaitent classer et un défi peut survenir lorsqu'elles doivent extraire des données minoritaires.

Par exemple, supposons que vous créiez un outil d'analyse visuelle qui examine les images des smartphones. Vous pouvez avoir un million d'images provenant des médias sociaux, dans une grande variété de catégories, mais ce que vous n'avez pas, ce sont toutes les images que les gens ne téléchargent pas.

Ce que je veux dire, c'est que les gens publient généralement des images sur les réseaux sociaux qu'ils aiment, avec une qualité et une clarté relativement bonnes.

Cependant, si votre outil cherche à examiner les images de téléphones portables, il y a beaucoup d'images floues, surexposées, inclinées, etc. Ces images sont difficiles à trouver car où trouvez-vous des images de test minoritaires que les gens ne publient pas ?

Les entreprises sous-estiment souvent le nombre de lacunes dans leurs données qu'il faudra des ressources pour combler. De cette façon, un bon partenaire d'apprentissage automatique vous aidera non seulement à organiser les données dont vous disposez, mais vous aidera également à rechercher les données que vous n'avez pas.

4. Enfin, le sophisme de « Ron Popeil »

En d'autres termes : le sophisme du « réglez-le et oubliez-le ».

Les entreprises oublient souvent que l'œil humain est toujours nécessaire pour la gestion et l'entretien continus.

Qu'il s'agisse de résultats peu fiables, de gestion des exceptions, d'audit ou d'optimisation avec des données de renforcement, ces flux de travail continus sont essentiels pour maintenir l'outil à jour et permettre un succès continu.

organization harvesting data for AI training
Certains des problèmes courants dans la formation à l'IA sont un volume insuffisant et une variété insuffisante

4. Quelles sont les conséquences d'une formation à l'IA mal gérée ?

Vidya : Je n'ai pas assez de doigts et d'orteils pour compter le nombre de fois qu'un client est venu nous voir, car il a sous-estimé la planification, le coût et la portée nécessaires pour développer son outil d'apprentissage automatique.

Le pire, c'est que parce que les données sont à la base de tout programme, les clients peuvent perdre un temps et de l'argent précieux car ils doivent détruire leurs ensembles de données d'origine et recommencer.

Si vous demandez à un panel de PDG, ils vous diront tous qu'ils pensent que tirer parti de l'IA est la clé de la compétitivité à l'avenir.

Cela étant dit, un très faible pourcentage d'entreprises budgétisent réellement l'IA ou l'incluent dans le cadre du processus de planification stratégique.

Ainsi, pour les entreprises qui ont mis de l'argent de côté, elles n'ont généralement qu'une seule chance de le faire fonctionner.

Une formation à l'IA mal gérée peut parfois signifier qu'une entreprise n'a pas la capacité de réinvestir après une tentative infructueuse. Cela peut signifier qu'ils sont toujours en train de rattraper leurs concurrents.

5. À votre avis, quels sont les exemples les plus importants de l'impact des données de formation sur l'IA sur la société ?

Vidya : Nous sommes à un moment de notre histoire où il y a une prise de conscience émergente des préjugés qui ont été programmés dans notre société.

La race, le sexe, l'âge et bien d'autres faux points de données ont été utilisés pendant trop longtemps pour orienter les décisions, et je dirais, des choix sous-optimisés qui nous ont empêchés de réussir collectivement.

Prenons l'exemple d'une société financière qui souhaite utiliser un outil d'apprentissage automatique pour aider à affiner le champ des candidats.

Disons que l'entreprise a utilisé 20 ans de ses données historiques sur les employés pour identifier les employés qui ont été le plus promus, qui ont eu les évaluations de performance les plus élevées, puis a regardé où ils sont allés à l'école, quelles expériences ils ont eues avant de rejoindre l'entreprise, etc.

À première vue, cela peut sembler très logique, « voyons qui a réussi dans notre entreprise et embauchons plus de personnes comme ça ».

Ce à quoi votre outil RH est aveugle, c'est le biais institutionnel qui peut avoir eu un impact historique sur les décisions d'embauche et de promotion.

  • Les hommes sont plus susceptibles d'être promus que les femmes.
  • Les Caucasiens sont plus susceptibles d'être interviewés et finalement embauchés que les personnes de couleur.
  • Et historiquement, les minorités à faible revenu sont sous-représentées dans l'enseignement supérieur et sont désavantagées sur plusieurs aspects en ce qui concerne l'admission à l'université dans les écoles de niveau 1.

Dans cet exemple, l'ensemble de données était incomplet et des données de performance externes doivent être incluses avec d'autres variables de sélection comme le potentiel.

La magie de l'IA conçue intentionnellement et créée à partir d'une équipe volontairement diversifiée peut nous aider à éliminer les biais et les angles morts.

C'est une chose puissante et libératrice de réaliser que nous pouvons rendre les machines plus intelligentes que nous si nous le choisissons.

6. Est-ce que et comment le fait que vous soyez une entreprise dirigée par des femmes vous différencie de vos concurrents ?

Vidya : TechSpeed ​​a toujours été une organisation dirigée par des femmes minoritaires.

Les femmes ne représentent que 5% de tous les PDG et les femmes appartenant à des minorités de niveau exécutif dans la technologie sont pratiquement inexistantes.

Le fait d'être une entreprise détenue par des femmes minoritaires nous différencie précisément pour cette raison. Dans une industrie fortement dominée par les hommes, nous sommes fiers de montrer comment le leadership féminin peut apporter différentes perspectives et solutions.

Nous sommes dans le business des données ; Nous enseignons aux machines à voir le monde tel qu'il est avec toutes les couleurs et les formes qu'il a à offrir.

Notre organisation reflète la diversité des perspectives que nous cherchons à refléter dans notre travail.

Je suis mère de trois filles de diverses origines raciales dans un foyer mixte.

La diversité et l'autonomisation des femmes ne sont pas quelque chose dont nous parlons, c'est qui nous sommes et comment nous vivons.

Poorly selected data can transfer human bias onto an artificially intelligent system
Des données mal sélectionnées peuvent transférer les préjugés humains sur un système artificiellement intelligent

7. Maintenant, revenons aux données de formation et regardons le côté positif, comment les données de formation de qualité profitent-elles au produit d'IA, c'est-à-dire aux entreprises qui en sont propriétaires ?

Vidya : Fondamentalement, des données d'entraînement bien pensées signifient moins d'exceptions et d'erreurs.

La principale raison d'investir dans l'apprentissage automatique et les outils d'IA est de pouvoir résoudre les problèmes plus rapidement et de manière plus fiable.

Il y a un terme impropre par les nouveaux venus dans l'industrie selon lequel l'IA est autopropulsée et peut être entièrement autonome. Cependant, la vérité est que pour la plupart des entreprises, une erreur et des exceptions de 10 à 20 % existeront toujours.

Ce seau d'enregistrements de faible confiance ou d'exception n'est pas une malédiction, ils sont une opportunité. Les exceptions peuvent être traitées et analysées « manuellement », puis peuvent être converties en règles ou logiques nouvelles ou meilleures.

8. Quel processus recommanderiez-vous pour une assurance qualité continue des données ? Quand, le cas échéant, recommanderiez-vous que l'apprentissage automatique passe à un fonctionnement entièrement autonome ? La formation s'arrête-t-elle un jour pour une IA ?

Vidya : Il est certain que le gros du travail nécessaire lors de la configuration initiale d'un programme d'IA ou d'apprentissage automatique est très différent de ce qui est nécessaire pour la maintenance continue.

Ce que nous voyons, c'est que les programmes continus les plus efficaces incluent une sorte d'audit continu et de traitement des exceptions.

Un examen continu des exceptions de traitement et un audit continu permettront d'identifier les opportunités et les faiblesses du programme.

Sans exception, chaque projet et chaque ensemble de données révèle des nuances qui n'étaient pas prévues à l'origine et parfois ces nuances ont besoin de temps pour émerger.

De cette façon, la planification est tout et pourtant le plan n'est rien. L'intégration de l'audit permet au plan de rester flexible et à l'outil agile.

S'il existe bien sûr des exceptions pour des outils très simples, la plupart du temps en ce qui concerne l'IA, le travail n'est jamais vraiment terminé, il évolue simplement.

Les meilleures entreprises de l'Internet des objets (IoT) classées !
Retrouvez-les ici

9. Enfin, quelles sont, selon vous, les tendances à venir en matière d'optimisation des données de formation à l'IA ? À quoi doivent faire attention les entreprises qui s'appuient sur l'IA ?

Vidya : Il y a une vague d'outils d'IA/machine learning prêts à l'emploi et de plus en plus de lancements chaque jour.

L'accès à des outils de service vous-même permet à toutes sortes d'entreprises d'expérimenter et de commencer à exploiter leurs données.

Ceci, bien sûr, est excellent pour l'industrie et les entreprises. Cependant, comme nous en avons discuté précédemment, sans données de qualité et soutien continu, cela peut être problématique pour les bricoleurs.

Les entreprises veulent gérer leur propre programme, mais elles ont rarement la puissance nécessaire pour s'organiser et traiter les ensembles de données d'apprentissage.

Cela peut parfois entraîner des ensembles de données petits ou insuffisants et finalement de mauvais modèles.

C'est là qu'un bon partenaire de support de données peut fournir à la fois une perspective et un support évolutif pour aider à diriger par derrière.

Il y a un vieil adage parmi les chercheurs : plus vous posez de questions, plus vous réalisez que vous avez besoin de réponses.

Alors que les entreprises cherchent à créer des programmes d'apprentissage automatique de plus en plus complexes, elles continueront de constater que les ensembles de données dont elles disposaient et qu'elles utilisaient pour démarrer ne suffisent tout simplement plus.

Le besoin d'exploration de données pour aider à remplir la logique de l'IA continuera de se développer. Plus l'industrie est mature, plus la connaissance des données que nous n'avons pas est grande.

Bien que cela ne soit pas propre à l'IA ou à l'apprentissage automatique, je pense que nous sommes à un moment de l'histoire où les gens réévaluent leur perception de leur entreprise, de leurs clients et de leur communauté.

Les hypothèses et les attentes qui étaient l'épine dorsale des produits, programmes et stratégies existants sont toutes réévaluées.

Il est maintenant temps pour les entreprises d'examiner les outils d'IA et d'apprentissage automatique existants et futurs avec un regard neuf et inclusif.

Avant c'était facultatif, mais maintenant c'est attendu et les entreprises qui n'évoluent pas seront laissées pour compte par les consommateurs qui ont irréversiblement augmenté leurs attentes.


Merci Vidya !

Vous voulez faire passer votre solution d'IA/ML au niveau supérieur ? Contactez TechSpeed ​​via [email protected] ou appelez le 503-291-0027.