52 ¿Hay que etiquetar siempre los datos?
¿Hay que etiquetar siempre los datos?
No, no siempre. Una buena parte de los algoritmos de AA son algoritmos de aprendizaje supervisado o algoritmos de aprendizaje no supervisado.
Cuando quieres clasificar una foto de un perro, un gato o un gorila, puedes alimentar la máquina con fotos etiquetadas como perro, gato o gorila. Cuando se quiere calificar una redacción, se podría alimentar con un montón de redacciones corregidas, etiquetadas con sus respectivas calificaciones. En cada caso, sabríamos cómo sería la salida: perro, gato, gorila, A+, A, A-, D…
Dados los datos etiquetados durante el entrenamiento, el algoritmo intenta encontrar una función o una receta matemática, si se quiere, que haga coincidir la salida con la entrada. A menudo, esto también significa que el programador prueba diferentes algoritmos para ver cuál da con la mejor función de correspondencia. Pero mientras los datos tengan etiquetas, estas actúan como un supervisor o una guía que verifica que la función seleccionada por el algoritmo funcione1. Si la función da una salida diferente a la de la etiqueta, el algoritmo tiene que encontrar una mejor.
Pero etiquetar datos es un proceso largo y costoso, que a menudo implica contratar a seres humanos. Además, si solo buscamos patrones en los datos y no tenemos una idea clara de qué patrón vamos a encontrar, ni siquiera conocemos el resultado. Por tanto, los datos no pueden etiquetarse. Aquí es donde entran en juego los algoritmos no supervisados.
En lugar de tratar de emparejar la entrada con la salida, estos algoritmos tratan de encontrar regularidades en los datos que ayuden a agrupar la entrada en categorías1. Los bancos utilizan el AA no supervisado para detectar actividades fraudulentas en las transacciones con tarjetas de crédito. Dado que hay un gran número de transacciones en un minuto dado, y no sabemos cómo detectar patrones y etiquetar una actividad como fraude, confiamos en el AA para encontrar el patrón automáticamente. Agrupar a un conjunto determinado de estudiantes en un número fijo también es un problema en el que a menudo se utiliza el aprendizaje no supervisado. También lo es encontrar actividad terrorista si se da actividad celular en una red.
Kelleher, J. D., & Tierney, B. (2018). Data science. MIT Press.