Os 10 principais algoritmos de aprendizado de máquina: por que são tão importantes em 2021?
Publicados: 2019-06-10Índice
Descendo a toca do coelho do aprendizado de máquina
Aplicativos da vida real
O que se entende por algoritmos de aprendizado de máquina?
Tipos de aprendizado de máquina
Os 10 principais algoritmos de aprendizado de máquina
Embrulhar
Em 2021, os computadores podem não apenas ver , mas também ler e escrever por conta própria.
Bem, vamos dar uma olhada na história de terror moderna em que realmente vivemos.
Por exemplo, como você reagiria se alguém lhe dissesse que em breve 30% dos empregos serão substituídos pela automação? É ultrajante, não é?
E o que isso tem a ver com algoritmos de aprendizado de máquina ?
Felizmente, há uma luz no fim do túnel. Deixe-me guiá-lo.
Em 2021, os computadores podem:
- Reconhecer vozes, rostos e caligrafia. (Estilo CSI ...)
- Legendar fotos automaticamente.
- Aprenda a reconhecer o conteúdo de uma imagem e classificá-la de acordo com uma característica específica.
- Faça tarefas para você. (E crie os algoritmos necessários para retirá-los.)
A lista continua, é claro.
Todos os dias fazemos pesquisas na web, visitamos sites e redes sociais. E nunca nos perguntamos a questão fundamental:
Até onde foi a tecnologia de IA?
Aqui vamos nós!
As conquistas da tecnologia estão levantando questões sobre o futuro da humanidade.
Talvez esses fatos nos dêem algumas dicas:
(Fonte: Futurismo , Dezyre )
- Na Coreia do Sul, de cada 100 trabalhadores, 4,78 em média são robôs .
- 88% dos funcionários na Etiópia correm o risco de perder seus empregos para robôs.
- Na cidade de Nova York, os funcionários em risco são 40,7% .
- São necessárias 9 linhas de código para escrever um programa de aprendizado de máquina.
- 97% dos empregos na cozinha de fast food serão substituídos por máquinas.
- 98% dos agricultores perderão seus empregos para as máquinas.
- O aprendizado de máquina pode gerar até US $ 1 bilhão por ano na indústria farmacêutica.
- Nos próximos 10 anos, estima-se que o aprendizado de máquina substitua 25% dos empregos.
Em 2021, podemos ter um robô em casa.
Você pode ter uma conversa fluente com Jibo ou Tapia . Eles são chamados de robôs sociais por um motivo.
Eles se lembram dos nomes, rostos e vozes de seus amigos e familiares (o que não é nem um pouco assustador!), Eles podem cuidar do seu filho (ah, sim!), E se você tiver um acidente em casa, eles vão ligar para o 911 para tu. Este último pode ser especialmente útil quando não há ninguém por perto. Mas vamos chegar a isso mais tarde.
Hoje em dia, os algoritmos podem “aprender por si mesmos” línguas e até traduzir o inglês falado para o chinês escrito simultaneamente com a fluência do falante nativo chinês médio. Mais cedo ou mais tarde, estudar línguas estrangeiras se tornará inevitavelmente obsoleto.
E que tal isso:
Nossos smartphones estão literalmente nos espionando ... Tenho certeza de que você sabe exatamente do que estou falando! Imagine - no almoço do escritório você menciona (verbalmente!) Que deseja começar a assistir Lúcifer . De volta à sua mesa, você abre o Pinterest ou o Facebook no seu telefone e lá está ele - o próprio Diabo ... (Sim, Tom Ellis é um sonho, mas esse não é o ponto!)
Os sistemas de recomendação estão ao nosso redor. Se você inserir uma pesquisa por “Lego”, as imagens relacionadas que aparecem e são classificadas como Lego foram reconhecidas como tal por uma IA. Em outras palavras, eles não foram anotados manualmente como blocos de Lego por um humano ...
O algoritmo aprendeu sozinho o que é isso observando milhões de imagens.
Arrepio!
Todos esses recursos e muito mais, já estão sendo utilizados pelas empresas.
As implicações aqui são:
Primeiro, os computadores Ensinem-se , pessoal! Pense em todos os trabalhadores de robôs no futuro. Eles aprenderão e executarão tarefas muito mais rápido do que trabalhadores humanos.
E em segundo lugar - eu sei o que você está pensando - OMG, a humanidade está tão condenada!
Muitas pessoas reagem dessa forma.
Muitos autores no século passado escreveram sobre um futuro em que os robôs dominarão os humanos. A inteligência artificial está florescendo, os robôs governarão o mundo e se alimentarão de humanos. A singularidade está próxima.
OK, este é um bom lugar para parar.
Agora que tiramos isso de nosso sistema, vamos realmente ver o que é realmente verdade.
Descendo a toca do coelho do aprendizado de máquina
Precisamos de algum contexto primeiro.
15.000 anos atrás, um dos jogos mais amados do mundo foi inventado. Em algum lugar entre os séculos 12 e 14, esse jogo ficou conhecido como xadrez .
Tem 10 elevado a 40 resultados possíveis (isso é 1 com 40 zeros no final).
Em 2017, o algoritmo AlphaZero do Google usou aprendizado de máquina para aprender a jogar E vencer o jogo.
Todo o processo, desde a introdução do jogo ao algoritmo, até vencer seu primeiro jogo contra o Stockfish - um dos motores de xadrez mais fortes do mundo, levou:
(prepara-te!)
4 horas.
Ai!
Sim, estamos à beira de uma revolução no aprendizado de máquina .
Olhando para trás, esta não é a primeira interrupção desse tipo. A revolução industrial no final do século 19 e no início do século 20 causou também desordem social, mas, eventualmente, a humanidade e as máquinas alcançaram um equilíbrio.
Sim, as coisas estão mudando e isso é realmente uma coisa boa!
O software de aprendizado de máquina possui o poder de examinar um problema com novos olhos e navegar por ambientes desconhecidos.
Portanto, como veremos, não é uma história de terror, afinal.
Mais como um milagre tecnológico.
Agora:
Por que a classificação é tão importante?
Para começar, o que é aprendizado de máquina por definição ?
Basicamente, uma máquina é programada para ensinar a si mesma como produzir um programa e criar soluções. O aprendizado de máquina sempre produz os números mais precisos (e, se necessário, previsões) possíveis.
Pense em uma tecnologia que pode resolver uma ampla gama de problemas completamente diferentes.
E essa é a beleza disso!
O principal objetivo do sistema é classificar . Isso também é chamado de visão computacional . Ele aprenderá por si mesmo a fazer distinções. E o número de problemas diferentes no mundo que podem ser reduzidos à tarefa aparentemente simples de classificação é absolutamente estonteante.
Imagine a capacidade de classificar entre:
- Boas e más posições de xadrez (jogos)
- Frases gramaticalmente corretas e incorretas (tradução)
- Uma estrada vazia e outra com carros ou pedestres (carros autônomos)
- Uma célula saudável e uma célula cancerosa (diagnóstico médico)
É exatamente por isso que especialistas em muitas áreas se tornarão obsoletos. Você não precisa ser um especialista para criar um código que realizará essas tarefas. Os caras que escreveram o programa de tradução simultânea de inglês para chinês não falavam uma palavra de chinês.
O algoritmo aprenderá a ser um especialista.
E sim, é importante aprender sobre eles e conhecê-los ... da mesma forma que conhecemos os computadores no começo.
Somos bons com computadores agora. Tão bons que tendemos a antropomorfizá-los (ou talvez seja só eu?).
Parece que é hora de nos perguntarmos:
O que acontecerá com todas essas pessoas, que eventualmente perderão seus empregos para programas de IA e de aprendizado de máquina?
Você já ouviu falar de uma coisinha chamada Renda Básica Universal?
Aqui vai:
No futuro, os cidadãos terão uma renda que não os envolverá em nenhum trabalho. O dinheiro virá da eficiência insana que a automação fornecerá e da economia que advém disso.
Ou isso ou - um cenário um pouco mais realista - muitos novos tipos de empregos surgirão. No final do século 19, cerca de 50% da população dos Estados Unidos estava envolvida na agricultura. Agora, graças a máquinas potentes, menos de 2% são agricultores e, no entanto, há pessoas empregadas.
Agora, para que o aprendizado de máquina pode ser usado ?
Aplicativos da vida real
O aprendizado de máquina pode ser usado para deduzir novos fatos de um banco de dados.
Vamos ver algumas das áreas onde a aprendizagem de máquina vai fazer uma grande diferença:
- Direção assistida - os carros podem pisar no freio automaticamente para você, quando você se aproxima do veículo à sua frente. E assim, em algum ponto no futuro, a humanidade quase esquecerá o que significa acidente de carro . Carros sem motorista estão a caminho.
- Saúde - aumenta a eficiência dos profissionais médicos. O reconhecimento e o diagnóstico de doenças se tornarão muito mais fáceis e precisos com a ajuda do aprendizado de máquina. Por exemplo, os programas podem não apenas escanear e identificar imagens de tecido canceroso melhor do que humanos, mas também calcular as taxas de sobrevivência de pacientes com base em enormes bancos de dados de registros médicos. (Confira o trabalho de Jeremy Howard e seu projeto chamado Enlitic . É incrível!)
- Invenção de medicamentos - com a ajuda do aprendizado de máquina, cada paciente pode receber um tratamento projetado especificamente para ele.
- Agricultura - a agricultura será automatizada com visão computacional e controle robótico: qualidade e previsão da colheita, detecção de doenças, bem-estar do gado e produção.
- Recursos de linguagem com tecnologia de IA - em um futuro próximo, seremos capazes de nos comunicar verbalmente com tradução em tempo real usando IA .
O aprendizado de máquina é apenas uma ferramenta e permanecerá assim no futuro próximo.
Então não precisa se preocupar. Sente-se e relaxe.
Agora que vimos o que é aprendizado de máquina, vamos fazer a próxima pergunta:
O que se entende por algoritmos de aprendizado de máquina?
Portanto, depois de estabelecermos o quão importante e benéfico para nosso futuro aprendizado de máquina, vamos dar uma olhada mais de perto nos algoritmos que fazem a mágica acontecer.
Uma ótima maneira de explicar algoritmos de aprendizado de máquina é compará- los à programação tradicional.
Na programação tradicional , o programador trabalha em equipe com um especialista na área, para o qual o software está sendo desenvolvido. Quanto mais complexa for a tarefa - mais longo será o código e mais difícil será sua escrita.
Os algoritmos de aprendizado de máquina funcionam de maneira bem diferente. O algoritmo recebe um conjunto de dados para entrada - e um opcional para a saída. Em seguida, analisa-o (ou eles) e elabora o processo que deve ocorrer para que ocorra um resultado útil. Hoje, esse é um trabalho reservado para um programador humano. No futuro, isso também mudará.
Tipos de aprendizado de máquina
Existem 4 tipos diferentes de algoritmos de aprendizado de máquina .
Aqui estão eles:
1. Aprendizagem Supervisionada
Os dados de entrada em algoritmos de aprendizado supervisionado são rotulados e a saída é conhecida e precisa. Para usar essa classe de algoritmos, você precisaria de uma grande quantidade de dados rotulados. E isso nem sempre é uma tarefa fácil.
Os algoritmos supervisionados se enquadram em duas categorias - regressão e classificação . Cada um examina diferentes conjuntos de dados.
Os algoritmos de regressão são aqueles que fazem previsões e previsões. Entre outros, incluem previsões do tempo, crescimento populacional e estimativas de expectativa de vida, previsões de mercado.
Os algoritmos de classificação são usados para diagnósticos, detecção de fraude de identidade, retenção de clientes e, como o nome sugere - classificação de imagens.
2. Aprendizagem não supervisionada
Ocorre quando os dados de entrada não são rotulados. Eles organizam os dados em estruturas de clusters. Assim, qualquer dado de entrada está imediatamente pronto para análise.
Uma vez que os dados não são rotulados, não há como avaliar a precisão do resultado. Dito isso, não é a precisão que os algoritmos não supervisionados são projetados para buscar. Os clusters que o algoritmo cria não são familiares ao programa. Portanto, a ideia é inserir dados, analisá-los e agrupá-los em clusters.
Assim como os algoritmos supervisionados, seus primos não supervisionados são divididos em 2 categorias - redução de dimensionalidade e agrupamento .
Os próprios algoritmos de clustering são obviamente uma parte de tudo isso. É útil agrupar dados em categorias, para que você não tenha que lidar com cada parte por conta própria. Esses algoritmos são usados principalmente para segmentação de clientes e marketing direcionado.
Algoritmos de redução de dimensionalidade são usados para descoberta de estrutura, visualização de big data, elicitação de recursos e compactação significativa. Se o agrupamento é um lado da moeda, a redução da dimensionalidade seria o outro. Ao agrupar dados em clusters, os algoritmos inevitavelmente reduzem o número de variáveis significativas (dimensões) que descrevem o conjunto de dados.
Agora, há uma classe de algoritmos de aprendizado de máquina que combina as 2 classes anteriores:
3. Aprendizagem Semi-Supervisionada
Ele fica entre o supervisionado com dados rotulados e algoritmos não supervisionados com dados não rotulados .
Algoritmos semissupervisionados usam uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados. Isso pode levar a uma melhoria na precisão do aprendizado.
Também é um grande alívio em termos de coleta de dados, uma vez que são necessários muitos recursos para gerar dados rotulados.
4. Aprendizagem por reforço
Ao contrário dos 3 tipos anteriores, os algoritmos de reforço escolhem uma ação com base em um conjunto de dados. Em seguida, eles avaliam o resultado e mudam a estratégia, se necessário.
Em algoritmos de reforço, você cria uma rede e um loop de ações e é isso. Sem criar um banco de dados, você tem um vencedor. Porque?
Bem, foram os algoritmos de reforço que descobriram os jogos de damas, xadrez e go.
O aprendizado por reforço funciona com base no princípio de tentativa e erro. O sistema receberá algum tipo de recompensa que o ajudará a medir sua taxa de sucesso. No caso de jogos - a recompensa será o placar. Sempre que o sistema ganha um ponto, ele avalia isso como um movimento bem-sucedido e o status desse movimento torna-se mais alto. Ele continuará repetindo o loop até que todos os seus movimentos sejam bem-sucedidos.
E é assim que temos um algoritmo que pode dominar o jogo de xadrez em 4 horas.
Agora sabemos!
Tudo bem. Vamos dar uma olhada nos próprios algoritmos:
Os 10 principais algoritmos de aprendizado de máquina
Agora, antes de começar, vamos dar uma olhada em um dos principais conceitos do aprendizado de máquina. A regressão , quando se trata de algoritmos de regressão de aprendizado de máquina , significa que o algoritmo tentará estabelecer uma relação entre duas variáveis.
Existem muitos tipos de regressão - linear, logística, polinomial, regressão de mínimos quadrados ordinários e assim por diante. Hoje, cobriremos apenas os 2 primeiros tipos, porque, do contrário, será melhor publicado como um livro, em vez de um artigo.
Como veremos em breve, a maioria dos 10 principais algoritmos são algoritmos de aprendizado supervisionado e são mais bem usados com Python.
Aqui está a lista dos 10 principais algoritmos de aprendizado de máquina :
1. Regressão Linear
Ele está entre os algoritmos de aprendizado de máquina mais populares. Funciona para estabelecer uma relação entre duas variáveis ajustando uma equação linear através dos dados observados.
Em outras palavras, esse tipo de algoritmo observa várias características para chegar a uma conclusão. Se o número de variáveis for maior que dois - o algoritmo será chamado de regressão linear múltipla.
A regressão linear também é um dos algoritmos de aprendizado de máquina supervisionado que funcionam bem em Python . É uma ferramenta estatística poderosa e pode ser aplicada para prever o comportamento do consumidor, estimar previsões e avaliar tendências. Uma empresa pode se beneficiar da realização de análises lineares e previsões de vendas para um período futuro.
Portanto, se temos duas variáveis, uma delas é explicativa e a outra é dependente . A variável dependente representa o valor que você deseja pesquisar ou fazer uma previsão. A variável explicativa é independente. A variável dependente sempre conta com o explicativo.
O objetivo do aprendizado de máquina linear é ver se há uma relação significativa entre as duas variáveis e, se houver, ver exatamente o que ela representa.
A regressão linear é considerada um algoritmo de aprendizado de máquina simples e, portanto, é popular entre os cientistas.
Agora, há regressão linear e há regressão logística. Vamos dar uma olhada na diferença:
2. Regressão Logística
Este é um dos algoritmos básicos de aprendizado de máquina . É um classificador binomial que tem apenas 2 estados, ou 2 valores - para o qual você pode atribuir os significados de Os dados de entrada são compactados e depois analisados.
Ao contrário da regressão linear, os algoritmos logísticos fazem previsões usando uma função não linear. Os algoritmos de regressão logística são usados para classificação e não para tarefas de regressão. A “regressão” no nome sugere que os algoritmos usam um modelo linear e o incorporam ao espaço futuro.
A regressão logística é um algoritmo de aprendizado de máquina supervisionado que, como a regressão linear, funciona bem em Python. Do ponto de vista matemático, se espera-se que os dados de saída da pesquisa sejam em termos de doença / saúde ou câncer / sem câncer, então uma regressão logística é o algoritmo perfeito a ser usado.
Ao contrário da regressão linear, onde os dados de saída podem ter valores diferentes, a regressão logística pode ter como saída apenas 1 e 0.
Existem 3 tipos de regressão logística, com base na resposta categórica. Estes são:
- Regressão logística binária - este é o tipo mais frequentemente usado se a saída for alguma variedade de “sim” / “não”.
- Regressão logística multi-nominal - quando existe a possibilidade de 3 ou mais respostas sem ordenação.
- Regressão logística ordinal - novamente 3 ou mais respostas, mas com ordenação. Por exemplo, quando os resultados esperados estão em uma escala de 1 a 10.
Vamos ver outro ótimo algoritmo de classificação:
3. Análise Discriminante Linear
Este método encontra combinações lineares de recursos, que separam diferentes dados de entrada. O objetivo de um algoritmo LDA é examinar uma variável confiável como uma união linear de recursos. É uma ótima técnica de classificação .
Este algoritmo examina as qualidades estatísticas dos dados de entrada e faz cálculos para cada classe. Ele mede o valor da classe e, em seguida, a variação entre todas as classes.
Durante o processo de modelagem das diferenças entre as classes, o algoritmo examina os dados de entrada de acordo com variáveis independentes.
Os dados de saída contêm informações sobre a classe com o valor mais alto. Os algoritmos de Análise Discriminante Linear funcionam melhor para separar categorias conhecidas . Quando vários fatores precisam ser divididos matematicamente em categorias, usamos um algoritmo LDA.
4. K- vizinhos mais próximos
O algoritmo kNN é um dos melhores algoritmos de aprendizado de máquina para iniciantes . Eles fazem previsões com base em dados disponíveis antigos, a fim de classificar os dados em categorias com base em características diferentes.
Ele está na lista de algoritmos de aprendizado de máquina supervisionado, que é mais usado para classificação. Ele armazena os dados disponíveis e os usa para medir semelhanças em novos casos.
O K em kNN é um parâmetro que denota o número de vizinhos mais próximos que serão incluídos no “processo de votação por maioria”. Dessa forma, os vizinhos de cada elemento “votam” para determinar sua classe.
Uma das melhores maneiras de usar o algoritmo kNN é quando você tem um conjunto de dados pequeno e sem ruído e todos os dados rotulados. O algoritmo não é rápido e não se ensina a reconhecer dados impuros. Quando o conjunto de dados é maior, não é uma boa ideia usar kNN.
O algoritmo kNN funciona assim: primeiro, o parâmetro K é especificado, após o qual o algoritmo faz uma lista de entradas, que está próxima à nova amostra de dados. Em seguida, ele encontra a classificação mais comum das entradas e, por fim, fornece uma classificação para a nova entrada de dados.
Em termos de aplicativos da vida real, os algoritmos kNN são usados pelos mecanismos de pesquisa para estabelecer se os resultados da pesquisa são relevantes para a consulta. Eles são os heróis não celebrados que economizam o tempo dos usuários quando fazem uma pesquisa.
Em seguida, vem o Tree-Trio: Regression Trees , Random Forest e AdaBoost .
Aqui vamos nós:
5. Árvores de regressão (também conhecidas como árvores de decisão)
Sim, eles são chamados de árvores , mas já que estamos falando de algoritmos de aprendizado de máquina, imagine-os com as raízes no topo e os galhos e folhas na parte inferior.
Árvores de regressão são um tipo de algoritmo de aprendizado supervisionado , que - surpresa, funciona bem em Python. (A propósito, a maioria dos algoritmos de ML o faz.)
Essas “árvores” também são chamadas de árvores de decisão e são usadas para modelagem preditiva . Eles exigem relativamente pouco esforço do usuário em termos de quantidade de dados de entrada.
Sua representação é uma árvore binária e eles resolvem problemas de classificação. Como o nome sugere, esse tipo de algoritmo usa um modelo de decisões em árvore. Eles executam triagem variável ou seleção de recursos. Os dados de entrada podem ser numéricos e categóricos.
Tradução por favor!
Certo. Sempre que você toma uma decisão, você faz a transição para uma nova situação - com novas decisões a serem tomadas. Cada uma das rotas possíveis que você pode tomar é um “ramo”, enquanto as próprias decisões são os “nós”. Seu ponto de partida inicial é o nó primário.
É assim que um algoritmo de árvore de decisão cria uma série de nós e folhas. O importante aqui é que todos eles vêm de um nó. (Em contraste, algoritmos de floresta aleatórios produzem várias árvores, cada uma com seu nó primário.)
Em termos de aplicação na vida real, as árvores de regressão podem ser usadas para prever as taxas de sobrevivência, prêmios de seguro e o preço do imóvel, com base em vários fatores.
As árvores de regressão “criam” ramos de decisões até que um critério de parada seja alcançado. Funciona melhor com pequenas quantidades de dados de entrada, caso contrário, você pode obter um conjunto de dados de saída tendencioso.
O algoritmo decide onde dividir e formar uma nova ramificação de uma decisão, com base em vários algoritmos. Os dados são divididos em regiões de subnotas, que se agrupam em torno de todas as variáveis disponíveis.
6. Floresta Aleatória
O algoritmo de floresta aleatória é outra forma de aprendizado de máquina supervisionado . Ele produz várias árvores de decisão, em vez de apenas uma, como as Árvores de Regressão. Os nós são espalhados aleatoriamente e sua ordem não é significativa para os dados de saída. Quanto maior a quantidade de árvores, mais preciso será o resultado.
Este tipo de algoritmo pode ser usado para classificação e regressão. Um dos recursos incríveis do algoritmo de floresta aleatória é que ele pode funcionar quando uma grande parte dos dados está faltando . Ele também tem o poder de trabalhar com um grande conjunto de dados.
No caso da regressão, esses algoritmos não são a melhor escolha, pois não têm muito controle sobre o que o modelo faz.
Algoritmos de floresta aleatória podem ser muito úteis no comércio eletrônico. Se você precisa estabelecer se seus clientes vão gostar de um determinado par de sapatos, você só precisa coletar informações sobre suas compras anteriores.
Você inclui o tipo de calçado, se eles tinham salto ou não, o sexo do comprador e a faixa de preço dos pares anteriores que ele encomendou. Estes serão seus dados de entrada.
O algoritmo irá gerar árvores suficientes para fornecer uma estimativa precisa.
Você é bem vindo!
E aí vem o último algoritmo do sistema de árvore:
7. AdaBoost
AdaBoost é a abreviação de Adaptive Boosting. O algoritmo ganhou o Prêmio Gõdel em 2003 para seus criadores.
Como os dois anteriores, este também usa o sistema de árvores. Só que em vez de vários nós e folhas, as árvores em AdaBoost produzem apenas 1 nó e 2 folhas, também conhecido como um toco .
Os algoritmos AdaBoost diferem substancialmente das árvores de decisão e florestas aleatórias .
Vamos ver:
Um algoritmo de árvore de decisão usará muitas variáveis antes de produzir uma saída. Um toco só pode usar uma variável para tomar uma decisão.
No caso de algoritmos de floresta aleatórios , todas as árvores são igualmente importantes para a decisão final. Os algoritmos AdaBoost definem a prioridade de alguns tocos em relação a outros.
E por último, mas não menos importante, as árvores florestais aleatórias são mais caóticas , por assim dizer. O que significa que a sequência de árvores é irrelevante. O resultado não depende da ordem em que as árvores foram produzidas. Em contraste, para algoritmos AdaBoost - a ordem é essencial.
O resultado de cada árvore é a base para a próxima. Portanto, se houver um erro ao longo do caminho, todas as árvores subsequentes serão afetadas.
Tudo bem, então o que esse algoritmo pode fazer na vida real?
Os algoritmos AdaBoost já brilham na área da saúde, onde os pesquisadores os utilizam para medir os riscos de doenças. Você tem os dados, mas fatores diferentes têm gravidades diferentes. (Imagine que você caiu no braço e seus médicos usam um algoritmo para determinar se ele está quebrado ou não. Se os dados de entrada contiverem o raio-x de seu braço e uma foto de sua unha quebrada ... bem, é bastante óbvio qual coto terá mais importância.)
Agora, estamos fora da floresta, por assim dizer, então vamos dar uma olhada em três outros tipos de algoritmos de aprendizado de máquina:
8. Naive Bayes
Este é útil quando você tem um problema de classificação de texto . É o algoritmo de aprendizado de máquina usado quando é necessário lidar com conjuntos de dados de alta dimensão, como filtragem de spam ou classificação de artigos de notícias.
O algoritmo carrega esse nome de assinatura porque considera cada variável como independente. Em outras palavras, ele considera os diferentes recursos dos dados de entrada como completamente não relacionados. Isso o torna um classificador probabilístico simples e eficaz.
A parte “Bayes” do nome refere-se ao homem que inventou o teorema usado para o algoritmo, a saber - Thomas Bayes. Seu teorema, como você pode suspeitar, examina a probabilidade condicional de eventos.
As probabilidades são calculadas em dois níveis. Primeiro, a probabilidade de cada classe. E em segundo lugar, a probabilidade condicional de acordo com um determinado fator.
9. Aprendendo a quantização vetorial
O algoritmo Learning Vector Quantization, ou LVQ, é um dos algoritmos de aprendizado de máquina mais avançados .
Ao contrário do kNN, o algoritmo LVQ representa um algoritmo de rede neural artificial . Em outras palavras, visa recriar a neurologia do cérebro humano.
O algoritmo LVQ usa uma coleção de vetores de livro de código como uma representação. Essas são basicamente listas de números, que têm as mesmas qualidades de entrada e saída de seus dados de treinamento.
10. Máquinas de vetor de suporte
Esses são um dos algoritmos de aprendizado de máquina mais populares .
O algoritmo Support Vector Machines é adequado para casos extremos de classificações . Significado - quando o limite de decisão dos dados de entrada não é claro. O SVM serve como uma fronteira que melhor segregará as classes de entrada.
Os SVMs podem ser usados em conjuntos de dados multidimensionais. O algoritmo transforma o espaço não linear em um espaço linear. Em 2 dimensões você pode visualizar as variáveis como uma linha e assim ter mais facilidade para identificar as correlações.
SVMs já foram usados em uma variedade de campos na vida real:
- Em imagens médicas e tarefas de classificação médica
- Para estudar a qualidade do ar em áreas amplamente povoadas
- Para ajudar na análise financeira
- Em algoritmos de classificação de página para mecanismos de pesquisa
- Para reconhecimento de texto e objeto.
Parece o canivete dos algoritmos de ML, não é?
Embrulhar
Humanos e computadores podem trabalhar juntos com sucesso.
Os investigadores asseguram-nos que isso pode parceria, e vai dar resultados surpreendentes. Algoritmos de aprendizado de máquina já estão ajudando a humanidade de várias maneiras.
Uma das funções mais importantes do aprendizado de máquina e dos algoritmos de IA é a classificação.
Vamos ver os 10 principais algoritmos de aprendizado de máquina mais uma vez em poucas palavras:
- Regressão Linear - usada para estabelecer a relação entre 2 variáveis - uma variável Regressão logística - um classificador binomial, existem apenas 2 resultados possíveis de cada consulta.
- Análise discriminante linear - funciona melhor para classificar dados entre categorias conhecidas.
- K-vizinho mais próximo - classifica os dados em categorias.
- Árvores de regressão - usadas para modelagem preditiva.
- Floresta aleatória - usada com grandes conjuntos de dados e quando uma grande proporção dos dados de entrada está faltando.
- AdaBoost - classificações binárias.
- Naive Bayes - modelagem preditiva.
- Learning Vector Quantization - um algoritmo de rede neural artificial.
- Support Vector Machines - casos extremos de classificação em um conjunto de dados multidimensional.
Todos esses algoritmos (mais os novos que ainda estão por vir) estabelecerão as bases para uma nova era de prosperidade para a humanidade. Isso tornará possível (e até mesmo necessária) uma renda básica universal para garantir a sobrevivência das pessoas menos capazes. (Quem de outra forma se revoltará e bagunçará nossa sociedade. Oh, bem.)
Bem, quem teria pensado que um artigo sobre algoritmos de aprendizado de máquina seria tão doozy. Bem, era isso por hoje.
Vejo vocês em breve, pessoal!
Perguntas frequentes
O aprendizado de máquina é incrível e lança luz sobre o futuro da tecnologia. Isso tem alguns custos. Por exemplo, os computadores que hospedam programas de aprendizado de máquina consomem quantidades absurdas de eletricidade e recursos. Outra deficiência do aprendizado de máquina até agora foi a desambiguação ocasional de entidades. Às vezes, as máquinas não conseguem distinguir entre, digamos, o nome de Anne Hathaway e o valor das ações da Berkshire Hathaway. Cada vez que a atriz recebe alguma atenção da mídia, a empresa ganha dinheiro ...
O aprendizado de máquina é um método de computação. Enquanto algoritmos “tradicionais” precisam de um programador para escrevê-los, os de aprendizado de máquina basicamente treinam a si próprios. Sim, não brinca!
Isso depende da tarefa que você precisa realizar. A escolha do melhor algoritmo para a tarefa em questão depende do tamanho, qualidade e diversidade de sua entrada, bem como do tipo de dados de saída que o usuário está solicitando.
Como todas as outras coisas, o processo começa conhecendo os fundamentos do algoritmo que você escolheu para o seu problema. Você precisará consultar diferentes fontes de aprendizagem e escolher aquela que funciona melhor para você. Em seguida, comece dividindo o algoritmo em pequenas unidades. Comece com um exemplo simples e, quando tiver controle sobre as coisas, valida com uma implementação confiável. E então você completa todo o processo. Provavelmente parece mais difícil do que é. Mas vale a pena tentar!