Dados de treinamento de IA: o especialista em aprendizado de máquina e o CEO da TechSpeed ​​revelam como a qualidade dos dados pode fazer ou quebrar seu produto de IA

Publicados: 2020-06-26
ai training data
Os dados de treinamento de IA são o que determina o nível de sofisticação e precisão de um sistema de IA

Em 2021, mais de 80% das tecnologias emergentes serão baseadas em IA.

No entanto, embora essa tecnologia seja a base de quase todos os novos produtos de tecnologia que chegam ao mercado, surpreendentemente, há pouca conversa sobre o que molda nossos sistemas artificialmente inteligentes: a qualidade dos dados.

Os dados de treinamento de IA, ou aprendizado de máquina (ML), geralmente são comparados aos livros didáticos; Eles educam os sistemas artificialmente inteligentes, dando-lhes contexto, bem como o prisma através do qual entender os conceitos.

Isso significa que a tecnologia alimentada por IA é tão sofisticada e precisa quanto os dados com os quais ela aprende.

Sentamos com um especialista no assunto e CEO da agência de serviço de dados TechSpeed, Vidya Plainfield, para discutir a importância dos dados de treinamento de IA, as consequências de conjuntos de dados insuficientes ou mal selecionados e algumas das tendências que podemos esperar ver no campo.

Profile image of Vidya Plainfield, CEO @TechSpeed
Vidya Plainfield, CEO da @TechSpeed

1. Olá, Vidya, antes de entrarmos nos detalhes técnicos, conte-nos um pouco sobre o TechSpeed ​​e sua experiência em AI / ML e o negócio de dados.

Vidya: TechSpeed ​​foi fundada em Portland, Oregon, em 2002 por um geek de dados (minha mãe) e um inventor (meu pai).

Embora ambos estejam aposentados agora, seu espírito de invenção, empreendedorismo e família ainda está muito vivo em nossa equipe crescente de mais de 100 técnicos, desenvolvedores e gerentes.

Ao longo de nossa história de 18 anos, tivemos a chance de evoluir e moldar a indústria de dados com nossos parceiros clientes, à medida que mineramos, classificamos e coletamos insights dos dados.

O que a maioria das pessoas não percebe é que há um enorme mecanismo de dados por trás do front-end brilhante da IA ​​e esses terabytes de dados são alimentados por informações cuidadosamente construídas.

Se você não tiver cuidado com seus dados de back-end, pode acidentalmente ensinar a uma ferramenta de IA algo que não pretendia.

O TechSpeed ​​entende os dados de maneira fundamental e isso tem sido o alicerce de como nos associamos aos clientes para ajudar a treinar e auditar sua IA.

As melhores empresas de desenvolvimento de software classificadas!
Encontre-os aqui

2. Vamos definir a qualidade dos dados no contexto de AI / ML: Como o TechSpeed ​​qualifica os dados?

Vidya: Claro que a qualidade é rei; Lixo que entra é lixo que sai.

Certamente é tedioso limpar dados brutos, recodificar variáveis ​​ausentes e transformar variáveis ​​qualitativas em quantitativas.

Existe um ditado: “Cientistas de dados gastam 80% de seu tempo limpando dados e 20% construindo um modelo.”

A maior armadilha que vemos é que as empresas subestimam e subfinanciam os dados de qualidade limpa.

Essa subestimação significa que, quando se trata de desenvolver seu programa, eles precisam escolher entre ter um conjunto de dados grande o suficiente ou um conjunto de dados de qualidade.

A chave é que você precisa de qualidade E quantidade.

A TechSpeeds trabalha com os clientes para ajudar a dimensionar de forma econômica seus conjuntos de dados para que eles não tenham que fazer a troca. Oferecemos uma ampla gama de serviços, incluindo processamento único, múltiplo e DEQA para garantir que os dados sejam qualificados de forma a atender às necessidades do programa.

3. Como você avalia a abordagem do setor em relação à qualidade dos dados? Olhando para seus colegas e clientes, quais são alguns dos erros ou equívocos mais comuns com relação ao treinamento de AI / ML que você encontrou?

Vidya: Existem muitas empresas que oferecem uma ampla gama de promessas a empresas bem-intencionadas.

Alguns provedores dão o pontapé inicial, mas esperam que as empresas lidem com o trabalho pesado quando se trata de treinamento e gerenciamento contínuo de exceções.

Os maiores erros que vemos as empresas cometendo ao gerenciar seus planos de dados são:

1. Volume insuficiente

Grandes conjuntos de dados em todas as categorias são necessários para garantir que uma ponderação uniforme dos dados esteja disponível para os parâmetros majoritários e minoritários. Sem isso, os algoritmos sobrecarregarão os dados da maioria ao tentar responder a uma situação minoritária.

Por exemplo, suponha que você esteja procurando categorizar imagens de árvores. Digamos que você tenha muitos dados bons sobre todas as diferentes espécies de árvores e todos os tipos de iluminação e estágio da vida. No entanto, você não tem muito volume da aparência das árvores depois de um furacão.

Claro, essas serão as instâncias minoritárias, mas se você tiver contagens de dados robustas apenas para a maioria dos dados, quando a ferramenta olhar para a imagem de uma árvore após um furacão, ela confiará e pesará excessivamente os dados dos dados da árvore saudável majoritária definir. Isso pode levar a erros.

2. Variedade insuficiente

A falta de dados robustos em uma ampla gama de categorias é necessária para garantir que a ferramenta seja capaz de lidar com as mudanças contínuas no ambiente do conjunto de dados.

Por exemplo, digamos que você esteja construindo uma ferramenta de análise visual que examina imagens de contêineres de armazenamento. Então, de repente, foi feita uma atualização do sistema de câmeras. Invariavelmente, a saída da ferramenta será afetada.

O mundo é um lugar dinâmico. Atributos atuais e futuros para clientes, ambientes, atitudes etc. precisam ser considerados para garantir que as ferramentas possam acomodar essas mudanças.

3. Subestimando a dificuldade de fornecer dados

Freqüentemente, as empresas têm muitos dados majoritários que desejam classificar e pode surgir um desafio quando precisam minerar dados minoritários.

Por exemplo, digamos que você esteja construindo uma ferramenta de análise visual que analisa imagens de smartphones. Você pode ter um milhão de imagens provenientes de mídias sociais, em uma ampla variedade de categorias, mas o que você não tem são todas as imagens que as pessoas não carregam.

O que quero dizer é que as pessoas geralmente postam imagens nas redes sociais de que gostam, com qualidade e clareza relativamente boas.

No entanto, se sua ferramenta procura revisar imagens de telefones celulares, há muitas imagens desfocadas, superexpostas, inclinadas, etc. Essas imagens são difíceis de encontrar porque onde você encontra imagens de teste de minorias que as pessoas não postam?

As empresas frequentemente subestimam o número de lacunas em seus dados que exigirão recursos para serem preenchidas. Dessa forma, um bom parceiro de aprendizado de máquina não ajudará apenas a organizar os dados que você possui, mas também a fornecer os dados que não possui.

4. Finalmente, a falácia de “Ron Popeil”

Em outras palavras: A falácia “configure e esqueça”.

As empresas freqüentemente esquecem que o olho humano ainda é necessário para o gerenciamento e manutenção contínuos.

Sejam resultados de baixa confiança, tratamento de exceções, auditoria ou otimização com dados de reforço, esses fluxos de trabalho contínuos são essenciais para manter a ferramenta atualizada e permitir o sucesso contínuo.

organization harvesting data for AI training
Alguns dos problemas comuns no treinamento de IA são volume insuficiente e variedade insuficiente

4. Quais são as consequências de um treinamento de IA mal conduzido?

Vidya: Não tenho dedos das mãos e dos pés suficientes para contar as vezes que um cliente nos procurou porque eles subestimaram o planejamento, o custo e o escopo necessários para desenvolver sua ferramenta de aprendizado de máquina.

A pior parte é que, como a base de qualquer programa são os dados, os clientes podem perder tempo e dinheiro valiosos, pois precisam demolir seus conjuntos de dados originais e começar de novo.

Se você perguntar a um painel de CEOs, todos dirão que acham que alavancar a IA é a chave para a competitividade no futuro.

Dito isso, uma porcentagem muito pequena de empresas realmente faz um orçamento para IA ou inclui-a como parte do processo de planejamento estratégico.

Portanto, para as empresas que colocaram dinheiro de lado, elas geralmente têm apenas uma chance de fazer o trabalho funcionar.

Um treinamento de IA mal conduzido às vezes pode significar que uma empresa não tem a capacidade de reinvestir após uma tentativa fracassada. Isso pode significar que eles estão sempre tentando alcançar seus concorrentes.

5. Em sua opinião, quais são alguns dos exemplos mais importantes de como os dados de treinamento de IA nos afetam em nível social?

Vidya: Estamos em um momento de nossa história em que existe uma consciência emergente do preconceito que foi programado em nossa sociedade.

Raça, gênero, idade e muitos outros dados falsos têm sido usados ​​por muito tempo para orientar decisões, e eu diria, escolhas subotimizadas que nos impediram de realizações coletivas.

Considere, por exemplo, uma empresa financeira que deseja usar uma ferramenta de aprendizado de máquina para ajudar a restringir o campo de candidatos.

Digamos que a empresa usou 20 anos de seus dados históricos de funcionários para identificar os funcionários que foram mais promovidos, que tiveram as avaliações de desempenho mais altas e, em seguida, olhou para onde eles estudaram, quais experiências tiveram antes de ingressar na empresa, etc.

À primeira vista isso pode fazer muito sentido, “vamos ver quem tem tido sucesso em nossa empresa e contratar mais gente assim”.

O que sua ferramenta de RH cega é o viés institucional que pode ter impactado historicamente as decisões de contratação e promoção.

  • Os homens são mais propensos a serem promovidos do que as mulheres.
  • Os caucasianos são mais propensos a serem entrevistados e, em última análise, contratados em comparação com as pessoas de cor.
  • E, historicamente, as minorias de baixa renda estão sub-representadas no ensino superior e em desvantagem em vários atributos quando se trata de admissão na faculdade em escolas de nível 1.

Neste exemplo, o conjunto de dados estava incompleto e os dados de desempenho externos devem ser incluídos junto com outras variáveis ​​de seleção, como potencial.

A magia da IA ​​intencionalmente projetada, criada a partir de uma equipe propositalmente diversa, pode nos ajudar a superar o preconceito e os pontos cegos.

É uma coisa poderosa e libertadora perceber que podemos fazer máquinas mais inteligentes do que nós, se quisermos.

6. Como o fato de você ser uma empresa liderada por mulheres o diferencia de seus concorrentes?

Vidya: TechSpeed ​​sempre foi uma organização liderada por mulheres de uma minoria.

As mulheres representam apenas 5% de todos os CEOs e as mulheres da minoria executiva em tecnologia são virtualmente inexistentes.

Ser uma empresa pertencente a uma minoria de mulheres nos diferencia exatamente por esse motivo. Em um setor fortemente dominado por homens, temos orgulho de exemplificar como a liderança feminina pode trazer diferentes perspectivas e soluções para a mesa.

Estamos no negócio de dados; Estamos ensinando máquinas a ver o mundo como ele é, com todas as cores e formas que ele tem a oferecer.

Nossa organização reflete a diversidade de perspectivas que buscamos refletir em nosso trabalho.

Eu sou mãe de três meninas racialmente diversas em uma casa mista.

Diversidade e empoderamento feminino não é algo sobre o que falamos, é quem somos e como vivemos.

Poorly selected data can transfer human bias onto an artificially intelligent system
Dados mal selecionados podem transferir preconceitos humanos para um sistema artificialmente inteligente

7. Agora, de volta aos dados de treinamento e olhando para o lado positivo, como os dados de treinamento de qualidade beneficiam o produto de IA, ou seja, as empresas que os possuem?

Vidya: Basicamente , dados de treinamento bem elaborados significam menos exceções e erros.

O principal motivo para investir em aprendizado de máquina e ferramentas de IA é ser capaz de resolver problemas de maneira mais rápida e confiável.

Há um equívoco por pessoas novas no setor de que a IA é autopropulsora e pode ser totalmente autônoma. No entanto, a verdade é que, para a maioria das empresas por aí, 10-20% de erros e exceções ainda existirão.

Esse balde de baixa confiança ou registros de exceção não são uma maldição, são uma oportunidade. As exceções podem ser processadas e analisadas “manualmente” e, em seguida, podem ser convertidas em regras ou lógicas novas ou melhores.

8. Que processo você recomendaria para garantir a qualidade contínua dos dados? Quando, se isso acontecer, você recomendaria que o aprendizado de máquina fosse alterado para um funcionamento totalmente autônomo? O treinamento sempre termina para uma IA?

Vidya: Certamente, o trabalho pesado necessário durante a configuração inicial de uma IA ou programa de aprendizado de máquina é muito diferente do que é necessário para a manutenção contínua.

O que vemos é que os programas contínuos mais eficazes incluem algum tipo de auditoria contínua e processamento de exceções.

A revisão contínua das exceções de processamento e a auditoria contínua identificarão oportunidades e pontos fracos no programa.

Sem exceção, cada projeto e cada conjunto de dados revela nuances que não foram planejadas originalmente e, às vezes, essas nuances precisam de tempo para emergir.

Dessa forma, o planejamento é tudo, mas o plano não é nada. A inclusão da auditoria permite que o plano permaneça flexível e a ferramenta ágil.

Embora haja exceções para ferramentas muito simples, na maioria das vezes, quando se trata de IA, o trabalho nunca termina, simplesmente evolui.

Melhores empresas de Internet das Coisas (IoT) classificadas!
Encontre-os aqui

9. Finalmente, o que você prevê que serão as tendências futuras na otimização de dados de treinamento de IA? O que as empresas que dependem de IA devem procurar?

Vidya: Há uma onda de ferramentas de IA / aprendizado de máquina prontas para uso e mais lançamentos todos os dias.

O acesso a ferramentas para servir a si mesmo está permitindo que todos os tipos de empresas experimentem e comecem a aproveitar seus dados.

Isso, é claro, é ótimo para a indústria e as empresas. No entanto, como discutimos antes, sem dados de qualidade e suporte contínuo, pode ser problemático para os que fazem você mesmo.

As empresas desejam executar seu próprio programa, mas raramente têm o poder de se organizar e processar os conjuntos de dados de aprendizagem.

Isso às vezes pode resultar em conjuntos de dados pequenos ou insuficientes e, em última instância, modelos ruins.

É aí que um bom parceiro de suporte de dados pode fornecer perspectiva e suporte escalonável para ajudar a liderar por trás.

Existe um velho ditado entre os pesquisadores: Quanto mais perguntas você faz, mais perguntas você percebe que também precisa de respostas.

À medida que as empresas buscam criar programas de aprendizado de máquina cada vez mais complexos, elas continuarão a descobrir que os conjuntos de dados que tinham em mãos e que usaram para começar simplesmente não são mais suficientes.

A necessidade de mineração de dados para ajudar a preencher a lógica da IA ​​continuará a se expandir. Quanto mais madura for a indústria, maior será o conhecimento dos dados que não temos.

Embora não seja exclusivo da IA ​​ou do aprendizado de máquina, acho que estamos em um momento da história em que as pessoas estão reavaliando como pensam sobre seus negócios, clientes e comunidade.

As suposições e expectativas que eram a espinha dorsal dos produtos, programas e estratégias existentes estão sendo reavaliadas.

Agora é a hora de as empresas olharem para as ferramentas de aprendizagem de máquina e IA existentes e futuras com olhos novos e inclusivos.

Antes era opcional, mas agora é esperado e as empresas que não evoluem serão deixadas para trás por consumidores que aumentaram irreversivelmente suas expectativas.


Obrigada, Vidya!

Quer levar sua solução de AI / ML para o próximo nível? Entre em contato com TechSpeed ​​via [e-mail protegido] ou ligue 503-291-0027.