Dati di formazione sull'intelligenza artificiale: esperto di machine learning e CEO di TechSpeed rivela come la qualità dei dati può creare o distruggere il tuo prodotto di intelligenza artificiale
Pubblicato: 2020-06-26Entro il 2021, oltre l'80% delle tecnologie emergenti sarà basato sull'intelligenza artificiale.
Tuttavia, anche se questa tecnologia è alla base di quasi tutti i nuovi prodotti tecnologici che arrivano sul mercato, c'è sorprendentemente poca conversazione su ciò che modella i nostri sistemi di intelligenza artificiale: la qualità dei dati.
AI, o machine learning (ML), i dati di formazione vengono solitamente confrontati con i libri di testo; Questi educano i sistemi di intelligenza artificiale, fornendo loro il contesto e il prisma attraverso il quale comprendere i concetti.
Ciò significa che la tecnologia basata sull'intelligenza artificiale è tanto sofisticata e accurata quanto i dati da cui apprende.
Ci siamo incontrati con un esperto in materia e CEO dell'agenzia di servizi dati TechSpeed, Vidya Plainfield, per discutere dell'importanza dei dati di addestramento dell'IA, delle conseguenze di set di dati insufficienti o mal selezionati e di alcune delle tendenze che possiamo aspettarci di vedere sul campo.
1. Ciao Vidya, prima di entrare nei tecnicismi, parlaci un po' di TechSpeed e del tuo background in AI/ML e nel business dei dati?
Vidya: TechSpeed è stata fondata a Portland, Oregon, nel 2002 da un'appassionata di dati (mia madre) e da un inventore (mio padre).
Anche se ora sono entrambi in pensione, il loro spirito di invenzione, imprenditorialità e famiglia è ancora molto vivo nel nostro team in crescita di oltre 100 tecnici, sviluppatori e manager.
Nel corso dei nostri 18 anni di storia abbiamo avuto la possibilità di evolvere e modellare il settore dei dati con i nostri partner clienti mentre estraiamo, ordiniamo e raccogliamo informazioni dai dati.
Quello che la maggior parte delle persone non si rende conto è che c'è un enorme motore di dati dietro il brillante frontend dell'intelligenza artificiale e quei terabyte di dati sono alimentati da informazioni attentamente costruite.
Se non stai attento con i tuoi dati di backend, puoi accidentalmente insegnare a uno strumento di intelligenza artificiale qualcosa che non avevi intenzione di fare.
TechSpeed comprende i dati in modo fondamentale e questo è stato il fondamento del modo in cui abbiamo collaborato con i clienti per aiutare a formare e controllare la loro intelligenza artificiale.
2. Definiamo la qualità dei dati nel contesto dell'AI/ML: in che modo TechSpeed qualifica i dati?
Vidya: Ovviamente la qualità è il re; La spazzatura dentro è spazzatura fuori.
È certamente noioso pulire i dati grezzi, ricodificare le variabili mancanti e trasformare le variabili qualitative in quantitative.
C'è un detto: "I data scientist passano l'80% del loro tempo a pulire i dati e il 20% a costruire un modello".
La più grande trappola che vediamo è che le aziende sottovalutano e finanziano in modo insufficiente i dati sulla qualità pulita.
Questa sottovalutazione significa che quando si tratta di costruire il loro programma, devono scegliere tra avere un set di dati sufficientemente grande o avere un set di dati di qualità.
La chiave è che hai bisogno sia di qualità che di quantità.
TechSpeeds lavora con i clienti per aiutare a scalare in modo conveniente i loro set di dati in modo che non debbano fare compromessi. Offriamo una vasta gamma di servizi tra cui l'elaborazione singola, multipla e DEQA per garantire che i dati siano qualificati in modo da soddisfare le esigenze del programma.
3. Come valuteresti l'approccio del settore alla qualità dei dati? Guardando i tuoi colleghi e clienti, quali sono alcuni degli errori o delle idee sbagliate più comuni riguardo alla formazione AI/ML che hai riscontrato?
Vidya: Ci sono molte aziende là fuori che offrono una vasta gamma di promesse alle aziende ben intenzionate.
Alcuni fornitori iniziano, ma si aspettano che le aziende gestiscano il lavoro pesante quando si tratta di formazione e gestione continua delle eccezioni.
Gli errori più grandi che vediamo commettere dalle aziende durante la gestione del loro piano dati sono:
1. Volume insufficiente
Sono necessari grandi set di dati in tutte le categorie per garantire che sia disponibile una ponderazione uniforme dei dati sia per i parametri di maggioranza che di minoranza. Senza di ciò, gli algoritmi sovrapeseranno i dati della maggioranza quando proveranno a rispondere a una situazione di minoranza.
Ad esempio, supponiamo che tu stia cercando di classificare le immagini degli alberi. Supponiamo che tu abbia molti buoni dati su tutte le diverse specie di alberi e tutti i tipi di illuminazione e fase della vita. Tuttavia non hai molto volume di come appaiono gli alberi dopo un uragano.
Naturalmente, queste saranno le istanze minoritarie, ma se si dispone di dati robusti che contano solo per i dati di maggioranza, quando lo strumento guarda l'immagine di un albero dopo un uragano, si baserà e soppeserà eccessivamente i dati dalla maggioranza dei dati dell'albero sano set. Questo può portare a errori.
2. Varietà insufficiente
È necessaria una mancanza di dati affidabili in un'ampia gamma di categorie per garantire che lo strumento sia in grado di gestire i cambiamenti in corso nell'ambiente del set di dati.
Ad esempio, supponiamo che tu stia creando uno strumento di analisi visiva che esaminasse le immagini dei contenitori di stoccaggio. Poi, all'improvviso, è stato effettuato un aggiornamento al sistema di telecamere. Invariabilmente l'output dello strumento sarà influenzato.
Il mondo è un luogo dinamico. È necessario considerare gli attributi attuali e futuri dei clienti, degli ambienti, delle attitudini ecc. per garantire che gli strumenti possano adattarsi a tali cambiamenti.
3. Sottovalutare la difficoltà di reperire dati
Spesso le aziende hanno molti dei dati di maggioranza che vogliono classificare e può sorgere una sfida quando devono estrarre dati di minoranza.
Ad esempio, supponiamo che tu stia creando uno strumento di analisi visiva che esamina le immagini dello smartphone. Potresti avere un milione di immagini provenienti dai social media, in un'ampia varietà di categorie, ma quello che non hai sono tutte le immagini che le persone non caricano.
Quello che intendo è che le persone generalmente pubblicano immagini sui social media che preferiscono, con qualità e chiarezza relativamente buone.
Tuttavia, se il tuo strumento cerca di rivedere le immagini dei telefoni cellulari, ci sono molte immagini sfocate, sovraesposte, inclinate ecc. Queste immagini sono difficili da reperire perché dove trovi immagini di test di minoranza che le persone non pubblicano?
Le aziende spesso sottovalutano il numero di lacune nei loro dati che richiederanno risorse per essere colmate. In questo modo, un buon partner per l'apprendimento automatico non solo ti aiuterà a organizzare i dati che hai, ma ti aiuterà anche a reperire i dati che non hai.
4. Infine, l'errore di "Ron Popeil"
In altre parole: l'errore del "impostalo e dimenticalo".
Le aziende spesso dimenticano che l'occhio umano è ancora necessario per la gestione e la manutenzione continua.
Che si tratti di risultati a bassa confidenza, gestione delle eccezioni, auditing o ottimizzazione con dati di rinforzo, questi flussi di lavoro in corso sono fondamentali per mantenere lo strumento aggiornato e consentire un successo continuo.
4. Quali sono le conseguenze di una formazione AI mal gestita?
Vidya: Non ho abbastanza mani e piedi per contare le volte che un cliente è venuto da noi perché ha sottovalutato la pianificazione, i costi e l'ambito necessari per sviluppare il loro strumento di apprendimento automatico.
La parte peggiore è che, poiché la base di qualsiasi programma sono i dati, i clienti possono perdere tempo e denaro preziosi poiché devono eliminare i loro set di dati originali e ricominciare da capo.
Se chiedi a un gruppo di CEO, ti diranno tutti che pensano che sfruttare l'IA sia la chiave per la competitività in futuro.
Detto questo, una percentuale molto piccola di aziende ha effettivamente budget per l'IA o la include come parte del processo di pianificazione strategica.
Quindi, per quelle aziende che hanno messo da parte i soldi, di solito hanno solo una possibilità per farlo funzionare.
Una formazione sull'intelligenza artificiale mal gestita a volte può significare che un'azienda non ha la capacità di reinvestire dopo un tentativo fallito. Questo può significare che stanno sempre giocando al passo con la loro concorrenza.
5. Secondo te, quali sono alcuni degli esempi più importanti di come i dati di formazione dell'IA influiscano su di noi a livello sociale?
Vidya: Siamo in un momento della nostra storia in cui c'è una consapevolezza emergente del pregiudizio che è stato programmato nella nostra società.
Razza, genere, età e tanti altri dati falsi sono stati usati per troppo tempo per guidare decisioni e, direi, scelte sub-ottimizzate che ci hanno impedito di ottenere risultati collettivi.
Prendiamo ad esempio una società finanziaria che desidera utilizzare uno strumento di apprendimento automatico per restringere il campo dei candidati.
Supponiamo che l'azienda abbia utilizzato 20 anni di dati storici sui dipendenti per identificare i dipendenti che sono stati promossi di più, che hanno avuto le valutazioni delle prestazioni più elevate e quindi hanno guardato dove sono andati a scuola, quali esperienze hanno avuto prima di entrare in azienda, ecc.
A prima vista questo può avere molto senso, “vediamo chi ha avuto successo nella nostra azienda e assumiamo più persone così”.
Ciò a cui il tuo strumento HR è cieco è il pregiudizio istituzionale che potrebbe aver avuto un impatto storicamente sulle decisioni di assunzione e promozione.
- Gli uomini hanno maggiori probabilità di essere promossi rispetto alle donne.
- I caucasici hanno maggiori probabilità di essere intervistati e infine assunti rispetto alle persone di colore.
- E storicamente, le minoranze a basso reddito sono sottorappresentate nell'istruzione superiore e sono svantaggiate per diversi aspetti quando si tratta di ammissione al college nelle scuole di livello 1.
In questo esempio, il set di dati era incompleto e i dati sul rendimento esterno devono essere inclusi insieme ad altre variabili di selezione come il potenziale.
La magia di un'intelligenza artificiale progettata intenzionalmente creata da un team volutamente diversificato può aiutarci a superare i pregiudizi e i punti ciechi.
È una cosa potente e liberatoria rendersi conto che possiamo rendere le macchine più intelligenti di noi se lo scegliamo.
6. Il fatto che tu sia un'azienda guidata da donne ti differenzia e in che modo dai tuoi concorrenti?
Vidya: TechSpeed è sempre stata un'organizzazione guidata da una minoranza di donne.
Le donne costituiscono solo il 5% di tutti gli amministratori delegati e le donne appartenenti a minoranze a livello dirigenziale nella tecnologia sono praticamente inesistenti.
Essere un'azienda di proprietà di una minoranza di donne ci differenzia esattamente per questo motivo. In un settore fortemente dominato dagli uomini, siamo orgogliosi di esemplificare come la leadership femminile possa portare sul tavolo prospettive e soluzioni diverse.
Siamo nel business dei dati; Insegniamo alle macchine a vedere il mondo così com'è con tutti i colori e le forme che ha da offrire.
La nostra organizzazione riflette la diversità di prospettive che cerchiamo di rispecchiare nel nostro lavoro.
Sono una madre di tre ragazze di razza diversa in una famiglia mista.
La diversità e l'empowerment femminile non sono qualcosa di cui parliamo, ma chi siamo e come viviamo.
7. Ora, tornando ai dati di formazione e guardando il lato positivo, in che modo i dati di formazione di qualità avvantaggiano il prodotto AI, ovvero le aziende che lo possiedono?
Vidya: Fondamentalmente, dati di addestramento ben congegnati significano meno eccezioni ed errori.
Il motivo principale per investire nell'apprendimento automatico e negli strumenti di intelligenza artificiale è essere in grado di risolvere i problemi in modo più rapido e affidabile.
C'è un termine improprio da parte di persone nuove nel settore che l'intelligenza artificiale è semovente e può essere completamente autonoma. Tuttavia, la verità è che per la maggior parte delle aziende esisteranno ancora errori ed eccezioni del 10-20%.
Questo secchio di record di scarsa confidenza o eccezione non è una maledizione, sono un'opportunità. Le eccezioni possono essere elaborate e analizzate “manualmente” e quindi possono essere convertite in regole o logiche nuove o migliori.
8. Quale processo consiglieresti per la garanzia continua della qualità dei dati? Quando, se mai, consiglieresti di spostare l'apprendimento automatico su un funzionamento completamente autonomo? La formazione finisce mai per un'IA?
Vidya: Certamente il lavoro pesante necessario durante la configurazione iniziale di un programma di intelligenza artificiale o di apprendimento automatico è molto diverso da quello necessario per la manutenzione continua.
Quello che vediamo è che i programmi in corso più efficaci includono una sorta di controllo in corso e l'elaborazione delle eccezioni.
La revisione continua delle eccezioni di elaborazione e l'audit in corso identificheranno opportunità e punti deboli nel programma.
Senza eccezioni, ogni progetto e ogni set di dati rivela sfumature che non erano originariamente previste e talvolta queste sfumature hanno bisogno di tempo per emergere.
In questo modo, la pianificazione è tutto e tuttavia il piano non è nulla. Costruire nell'auditing consente al piano di rimanere flessibile e allo strumento agile.
Sebbene ci siano ovviamente eccezioni per strumenti molto semplici, per la maggior parte quando si tratta di AI il lavoro non è mai veramente finito, si evolve semplicemente.
9. Infine, quali prevedi saranno le tendenze imminenti nell'ottimizzazione dei dati di addestramento AI? A cosa dovrebbero prestare attenzione le aziende che si affidano all'intelligenza artificiale?
Vidya: C'è un'ondata di strumenti di apprendimento automatico e di intelligenza artificiale disponibili e ne vengono lanciati di nuovi ogni giorno.
L'accesso a strumenti self-service consente a tutti i tipi di aziende di sperimentare e iniziare a sfruttare i propri dati.
Questo, ovviamente, è ottimo per l'industria e le imprese. Tuttavia, come abbiamo discusso in precedenza, senza dati di qualità e supporto continuo, può essere problematico per i fai-da-te.
Le aziende vogliono eseguire il proprio programma, ma raramente hanno la potenza necessaria per organizzarsi e far elaborare i set di dati di apprendimento.
Questo a volte può portare a set di dati piccoli o comunque insufficienti e, in definitiva, a modelli non validi.
È qui che un buon partner di supporto dati può fornire sia una prospettiva che un supporto scalabile per aiutare a guidare da dietro.
C'è un vecchio detto tra i ricercatori: più domande fai, più domande ti rendi conto che anche tu hai bisogno di risposte.
Mentre le aziende cercano di creare programmi di apprendimento automatico sempre più complessi, continueranno a scoprire che i set di dati che avevano a disposizione e che usavano per iniziare, semplicemente non sono più sufficienti.
La necessità di data mining per aiutare a riempire la logica AI continuerà ad espandersi. Più maturo è il settore, maggiore è la consapevolezza dei dati che non abbiamo.
Sebbene non sia esclusivo dell'intelligenza artificiale o dell'apprendimento automatico, penso che siamo in un momento storico in cui le persone stanno rivalutando il modo in cui pensano alla loro attività, ai loro clienti e alla loro comunità.
I presupposti e le aspettative che erano la spina dorsale dei prodotti, dei programmi e delle strategie esistenti vengono tutti rivalutati.
Ora è il momento per le aziende di guardare agli strumenti di intelligenza artificiale e machine learning esistenti e futuri con occhi nuovi e inclusivi.
Prima era facoltativo, ma ora è previsto e le aziende che non si evolvono saranno lasciate indietro dai consumatori che hanno irrimediabilmente alzato le loro aspettative.
Grazie, Vidia!
Vuoi portare la tua soluzione AI/ML al livello successivo? Mettiti in contatto con TechSpeed tramite [email protected] o chiama il 503-291-0027.