Definición de destino
Publicado: 2015-08-21Los métodos de aprendizaje automático se pueden clasificar en dos grandes categorías: supervisados y no supervisados. El aprendizaje supervisado aprende de un conjunto etiquetado de observaciones, donde se sabe que las observaciones pertenecen a ciertas clases (para problemas de clasificación) o tienen ciertos valores (problema de regresión). El aprendizaje no supervisado aprende de un conjunto de observaciones no etiquetadas, donde no se conoce nada más aparte de las observaciones mismas.
Para los métodos de aprendizaje supervisado, esencialmente decimos que "observe estos datos 'verdaderos' y dígame saber para conocer la 'verdad' de los datos invisibles". Para los métodos de aprendizaje no supervisados, esto es equivalente a "mira estos datos y dime algo interesante que no sepa". Si bien la dicotomía clara es útil, en esta publicación hablaremos sobre variantes interesantes en las que definir el objetivo puede convertirse en sí mismo en una tarea muy interesante.
Semi-supervisado
Este es un término medio entre los datos supervisados y no supervisados, donde las etiquetas "verdaderas" existen solo para algunas de las observaciones, pero no para todas. Ignorar la información disponible es una injusticia para la calidad de los modelos analíticos, pero usar esta información puede hacer que el problema sea inusual. En el mundo donde la generación de datos es fácil (piense en Internet) y el etiquetado es costoso, muchos problemas caen en un dominio semisupervisado.
Un enfoque podría ser no incluir información de la etiqueta para el modelado, sino solo para la validación del modelo y la comparación del rendimiento. Por ejemplo, podemos segmentar los datos en k grupos mediante la agrupación en clústeres no supervisada y luego verificar la competencia de nuestro modelo comparando el grupo predicho con el grupo real. Esto puede ayudarnos a decidir mejor entre múltiples soluciones de agrupamiento.
Otro enfoque podría ser utilizar esta información para el modelado. Hablamos sobre la agrupación en clústeres semisupervisada en una publicación de blog anterior.
Discreto versus Continuo
Si bien muchas situaciones caen obviamente en categorías de clasificación o regresión, donde el valor 'verdadero' es una clase discreta o un valor continuo, hay instancias en las que la transformación del objetivo tiene sentido.
Considere los ingresos a nivel de cliente en función del comportamiento demográfico y de transacciones pasadas del cliente. Este es un problema bastante común en las industrias minorista, bancaria, de seguros y de telecomunicaciones. Los ingresos, a menudo de los últimos N meses, son obviamente números continuos. ¡Una regresión (lineal, quizás) puede encajar aquí, dice usted! Pero existen métodos más complejos y sofisticados disponibles para los problemas de clasificación, como las redes neuronales, que potencialmente pueden hacer un mejor trabajo pero no se aplicarán a un objetivo continuo. Según el contexto comercial, es posible que no necesite predecir los ingresos reales, sino solo si los ingresos serán altos, medios o bajos. Si es así, puede revisar la distribución de ingresos para todos los clientes y definir límites para alto-medio y medio-bajo, ¡y listo! Ha convertido un problema objetivo continuo en un problema de clasificación discreta de tres clases.
Si su objetivo continuo es un porcentaje, digamos una fracción de estudiantes que aprueban el examen por escuela, y desea predecir el porcentaje también para la escuela nueva/no vista, entonces tiene otra opción además del modelo de regresión. ¡Puedes empaquetar los datos! Parceling convierte fracciones continuas en clases binarias al replicar las observaciones. Para una observación con un valor objetivo del 40 %, usted replica la observación 100 veces y para 40 de ellas asigna una clase de 1 y para las 60 restantes asigna una clase de 60. Dado que la observación es la misma y el conjunto de características es el mismo, el modelo intentará diferenciar 1 de 0 y concluya que este tipo de observación tiene un 40 % de probabilidad de ser 1 y un 60 % de probabilidad de ser 0. Puede hacer lo mismo para todas las observaciones. (Sí, esto aumentará el tamaño de la variedad de datos de entrenamiento). De todos modos, los modelos de clasificación más comunes producen una probabilidad de clase = 1 como resultado, ¡y ese es el resultado que desea de todos modos!
¿Podría haber un caso para convertir clases discretas en valor continuo? Mayormente no, pero hay ejemplos. Cuando intenta predecir la edad de alguien en años, que es esencialmente un número entero discreto de 0 a 100 (más o menos), puede tratar la edad como un objetivo continuo. De manera similar, si tiene categorías de ingresos lo suficientemente granulares, digamos, 0-50k, 50k-100k, 100k-150k, etc., entonces puede beneficiarse al tratar los ingresos como una variable continua en lugar de resolver el problema de 20 clases.
Caso de No Clase
Todos los datos están etiquetados o no etiquetados. Cuando los datos están etiquetados (supongamos, binarios), pertenecen a una clase u otra. Pero en la práctica, los datos pueden no pertenecer a ninguna clase.
Por ejemplo, entre un montón de reclamos de seguros, es posible que sepa con certeza que ciertos reclamos son fraudulentos y otros que no lo son, pero es posible que no conozca muchos que nunca se investigaron. Considere, entre los solicitantes de tarjetas de crédito que son aceptados o que fueron rechazados como parte del modelo de calificación de solicitudes en la banca. Pero hay muchos clientes que no solicitaron nada y no se sabe si habrían sido aceptados o no. A menudo, no podemos manejar datos sin etiqueta y debemos excluirlos de nuestra población de desarrollo. Sin embargo, debemos tener en cuenta si esto induce sesgos en el modelado. En el ejemplo de seguros anterior, tal vez las reclamaciones que se investigaron eran sospechosas para empezar (incluso aquellas que no eran fraude), o en el ejemplo bancario, los clientes que no solicitaron no fueron solicitados por la fuerza de ventas, lo que excluyó una categoría demográfica por completo.
Si realiza la transformación de destino como se describe en la sección anterior, puede crear datos sin clase usted mismo. Suponga que define ingresos de más de 5000/- por año como máximo y menos de 5000/- por año como mínimo para convertir un objetivo continuo en un objetivo binario. Sin embargo, esto será un mal diseño, porque hay un corte arbitrario en 5000. Un cliente con ingresos de 4999/- no es muy diferente de uno con ingresos de 5001/-, pero los pones a mundos de distancia. Su definición implicará que los ingresos de 5001/- son más similares a los ingresos de 10000/- que a los de 4999/-. ¿Ves el problema? Puede hacerlo, técnicamente, pero el modelo resultante no será bueno ni sólido, ya que le está pidiendo que aprenda las diferencias de clientes similares.
Lo que suele ser una buena práctica es incluir una zona de amortiguamiento/sin clase. Por lo tanto, puede definir ingresos de 6000/- o más como altos y 4000/- o menos como bajos, e ignorar las observaciones con ingresos entre 4000/- y 6000/-. Si bien pierde algunos datos, el modelo funcionará mucho mejor, ya que lo que define como diferente es realmente diferente.
Si bien se presta mucha atención a la preparación de datos, la generación de funciones y el método de aprendizaje automático, la definición del objetivo correcto también puede ser útil para la calidad del resultado analítico general.