Aprendizaje activo (aprendizaje automático)
El aprendizaje activo es un caso especial de aprendizaje automático en el que un algoritmo de aprendizaje puede interactuar de manera interactiva con un usuario (u otra fuente de información) para etiquetar nuevos puntos de datos con las salidas deseadas.[1][2][3] En la literatura estadística, a veces también se le llama diseño experimental óptimo.[4] La fuente de información también se llama profesor u oráculo.
Existen situaciones en las que los datos sin etiquetar son abundantes pero la etiquetación manual es costosa. En dicho escenario, los algoritmos de aprendizaje pueden consultar activamente al usuario/profesor para obtener etiquetas. Este tipo de aprendizaje supervisado iterativo se llama aprendizaje activo. Dado que el aprendiz elige los ejemplos, el número de ejemplos necesarios para aprender un concepto a menudo puede ser mucho menor que el necesario en el aprendizaje supervisado normal. Con este enfoque, existe el riesgo de que el algoritmo sea abrumado por ejemplos poco informativos. Los desarrollos recientes se dedican al aprendizaje activo de múltiples etiquetas,[5] al aprendizaje activo híbrido[6] y al aprendizaje activo en un contexto de una sola pasada (en línea),[7] combinando conceptos del campo del aprendizaje automático (por ejemplo, conflicto e ignorancia) con políticas de aprendizaje adaptativo e incremental en el campo del aprendizaje automático en línea.
Los proyectos de aprendizaje activo a gran escala pueden beneficiarse de marcos de crowdsourcing como Amazon Mechanical Turk, que incluyen a muchos seres humanos en el ciclo de aprendizaje activo.
Definiciones
editarSea T el conjunto total de todos los datos en consideración. Por ejemplo, en un problema de ingeniería de proteínas, T incluiría todas las proteínas conocidas que tienen una cierta actividad interesante y todas las proteínas adicionales que se puedan querer probar para esa actividad.
Durante cada iteración, i, T se divide en tres subconjuntos:
- : Puntos de datos cuya etiqueta es conocida.
- : Puntos de datos cuya etiqueta es desconocida.
- : Un subconjunto de que se elige para ser etiquetado.
La mayor parte de la investigación actual en aprendizaje activo se centra en el mejor método para elegir los puntos de datos para .
Escenarios
editar- Síntesis de consulta de membresía (en inglés: Membership Query Synthesis): El aprendiz genera su propia instancia a partir de una distribución natural subyacente. Por ejemplo, si el conjunto de datos son imágenes de humanos y animales, el aprendiz podría enviar una imagen recortada de una pierna al profesor y preguntar si este apéndice pertenece a un animal o un humano. Esto es particularmente útil si el conjunto de datos es pequeño.[8]
- Muestreo basado en fondo (en inglés: Pool-Based Sampling): En este escenario se toman instancias de todo el conjunto de datos y se les asigna un puntaje de confianza, una medida de cuán bien el aprendiz "comprende" los datos. Luego, el sistema selecciona las instancias para las cuales tiene menos confianza y consulta al profesor las etiquetas.
- Muestreo selectivo basado en flujo (en inglés: Stream-Based Selective Sampling): Se examina cada punto de datos no etiquetado, uno a la vez, con la máquina evaluando el grado de informatividad de cada elemento según sus parámetros de consulta. El aprendiz decide por sí mismo si asignar una etiqueta o consultar al profesor para cada punto de datos.
Estrategias de consulta
editarLos algoritmos para determinar cuáles puntos de datos deben ser etiquetados pueden organizarse en varias categorías diferentes, según su propósito:[1]
- Equilibrar exploración y explotación (en inglés: Balance exploration and explotation): la elección de ejemplos para etiquetar se ve como un dilema entre la exploración y la explotación en la representación del espacio de datos. Esta estrategia gestiona este compromiso al modelar el problema de aprendizaje activo como un problema de bandit contextual. Por ejemplo, Bouneffouf et al.[9] proponen un algoritmo secuencial llamado Muestreo Activo de Thompson (en inglés: Active Thompson Sampling, ATS), que, en cada ronda, asigna una distribución de muestreo en el conjunto de datos, extrae un punto de esta distribución y consulta al oráculo para la etiqueta de este punto de muestra.
- Cambio esperado en el modelo (en inglés: Expected model change): etiquetar aquellos puntos que cambiarían más el modelo actual.
- Reducción del error esperado (en inglés: Expected error reduction): etiquetar aquellos puntos que reducirían más el error de generalización del modelo.
- Exploración del Gradiente Exponenciado para Aprendizaje Activo (en inglés: Exponentiated Gradient Exploration for Active Learning): En este documento,[9] el autor propone un algoritmo secuencial llamado gradiente exponenciado (EG)-activo que puede mejorar cualquier algoritmo de aprendizaje activo mediante una exploración aleatoria óptima.
- Muestreo aleatorio (en inglés: Random sampling): se selecciona una muestra al azar.[10]
- Muestreo incierto (en inglés: Uncertainty sampling): etiquetar aquellos puntos para los cuales el modelo actual tiene menos certeza sobre cuál debería ser la salida correcta.
- Muestreo de Entropía (en inglés: Entropy sampling): se utiliza la fórmula de entropía en cada muestra y se considera que la muestra con la entropía más alta es la menos segura.[10]
- Muestreo de Margen (en inglés: Margin sampling): se considera que la muestra con la menor diferencia entre las dos probabilidades de clase más altas es la más incierta.[10]
- Muestreo Menos Confiable (en inglés: Least Confident Sampling): se considera que la muestra con la menor mejor probabilidad es la más incierta.[10]
- Consulta por comité (en inglés: Query by committee): se entrenan varios modelos con los datos etiquetados actuales y votan por la salida de los datos no etiquetados; se etiquetan aquellos puntos en los que el "comité" está en desacuerdo en mayor medida.
- Consulta desde subespacios o particiones diversos (en inglés: Querying from diverse subspaces or partitions):[11] cuando el modelo subyacente es un conjunto de árboles, los nodos hoja pueden representar particiones (superpuestas) del espacio de características original. Esto ofrece la posibilidad de seleccionar instancias de particiones no superpuestas o mínimamente superpuestas para etiquetar.
- Reducción de la varianza (en inglés: Variance reduction): etiquetar aquellos puntos que minimizarían la varianza de la salida, que es uno de los componentes del error.
- Predicción Conforme (en inglés: Conformal prediction): predice que un nuevo punto de datos tendrá una etiqueta similar a los puntos de datos antiguos de alguna manera especificada y utiliza el grado de similitud dentro de los ejemplos antiguos para estimar la confianza en la predicción.[12]
- Trayecto del más lejano primero con desajuste (en inglés: Mismatch-first farthest-traversal): el criterio de selección principal es el desajuste de predicción entre el modelo actual y la predicción del vecino más cercano. Se dirige a los puntos de datos incorrectamente predichos. El segundo criterio de selección es la distancia a los datos seleccionados previamente, el más lejano primero. Su objetivo es optimizar la diversidad de datos seleccionados.[13]
- Estrategias de Etiquetado Centradas en el Usuario (en inglés: User Centered Labeling Strategies): el aprendizaje se lleva a cabo aplicando la reducción de dimensionalidad a gráficos y figuras como gráficos de dispersión. Luego se le pide al usuario que etiquete los datos compilados (categóricos, numéricos, puntuaciones de relevancia, relación entre dos instancias).[14]
Se han estudiado una amplia variedad de algoritmos que se encuadran en estas categorías.[1][4]
Hiperplano marginal mínimo
editarAlgunos algoritmos de aprendizaje activo se basan en máquinas de soporte vectorial (SVM) y aprovechan la estructura de la SVM para determinar qué puntos de datos deben etiquetarse. Tales métodos generalmente calculan el margen, de cada dato no etiquetado en y tratan como una distancia -dimensional desde ese dato hasta el hiperplano separador.
Los métodos de Hiperplano marginal mínimo asumen que los datos con el valor más pequeño de son aquellos sobre los cuales la SVM tiene más incertidumbre y, por lo tanto, deberían colocarse en para ser etiquetados. Otros métodos similares, como el Hiperplano marginal máximo, eligen datos con el valor más grande de . Los métodos de compensación eligen una combinación de los valores más pequeños y más grandes de .
Véase también
editarReferencias
editar- ↑ a b c Settles, Burr (2010). «Active Learning Literature Survey». University of Wisconsin–Madison (en inglés). Computer Sciences Technical Report 1648. Consultado el 18 de noviembre de 2014.
- ↑ Rubens, Neil; Elahi, Mehdi; Sugiyama, Masashi; Kaplan, Dain (2016). «Active Learning in Recommender Systems». En Ricci, Francesco; Rokach, Lior, Shapira, Bracha, eds. Recommender Systems Handbook (en inglés) (2 edición). Springer US. ISBN 978-1-4899-7637-6. doi:10.1007/978-1-4899-7637-6.
- ↑ Das, Shubhomoy; Wong, Weng-Keen; Dietterich, Thomas; Fern, Alan; Emmott, Andrew (2016). «Incorporating Expert Feedback into Active Anomaly Discovery». En Bonchi Francesco, Domingo-Ferrer Josep, Baeza-Yates Ricardo, Zhou Zhi-Hua, Wu Xindong, ed. IEEE 16th International Conference on Data Mining (en inglés). IEEE. pp. 853-858. ISBN 978-1-5090-5473-2. doi:10.1109/ICDM.2016.0102.
- ↑ a b Olsson, Fredrik (Abril, 2009). «A literature survey of active machine learning in the context of natural language processing» (en inglés). SICS Technical Report T2009:06.
- ↑ Yang, Bishan; Sun, Jian-Tao; Wang, Tengjiao; Chen, Zheng (2009). «Effective multi-label active learning for text classification». Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '09: 917. ISBN 978-1-60558-495-9. doi:10.1145/1557019.1557119. 1979173.
- ↑ Lughofer, Edwin (2012). «Hybrid active learning for reducing the annotation effort of operators in classification systems». Pattern Recognition 45 (2): 884-896. doi:10.1016/j.patcog.2011.08.009.
- ↑ Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (5 de enero de 2015). «Active learning via query synthesis and nearest neighbour search». Neurocomputing: 426-434. doi:10.1016/j.neucom.2014.06.042.
- ↑ Wang, Liantao; Hu, Xuelei; Yuan, Bo; Lu, Jianfeng (2015). «Active learning via query synthesis and nearest neighbour search». Neurocomputing (en inglés) 147: 426-434.
- ↑ a b Bouneffouf, Djallel (8 de febrero de 2016). «Exponentiated Gradient Exploration for Active Learning». Computers (en inglés) 5 (1): 1. doi:10.3390/computers5010001.
- ↑ a b c d Faria, Bruno; Perdigão, Bryan; Brás, Joana; Macedo, Luis (2022). «The Joint Role of Batch Size and Query Strategy in Active Learning-Based Prediction - A Case Study in the Heart Attack Domain». Progress in Artificial Intelligence. Lecture Notes in Computer Science (en inglés) 13566: 464-475. ISBN 978-3-031-16473-6. doi:10.1007/978-3-031-16474-3_38.
- ↑ https://github.com/shubhomoydas/ad_examples#query-diversity-with-compact-descriptions. Github. Recuperado el 12 de abril de 2018.
- ↑ Makili, Lázaro Emílio; Sánchez, Jesús A.; Vega, Dormido-Canto, Sebastián (1 de octubre de 2012). «Active Learning Using Conformal Predictors: Application to Image Classification». Fusion Science and Technology 62 (2): 347-355. ISSN 1536-1055. doi:10.13182/FST12-A14626.
- ↑ Zhao, Shuyang; Heittola, Toni; Virtanen, Tuomas (2020). «Active learning for sound event detection». IEEE/ACM Transactions on Audio, Speech, and Language Processing (en inglés).
- ↑ Bernard, Jürgen; Zeppelzauer, Matthias; Lehmann, Markus; Müller, Martin; Sedlmair, Michael (2018). «Towards User-Centered Active Learning Algorithms». Computer Graphics Forum (en inglés) 37 (3): 121-132. ISSN 0167-7055. doi:10.1111/cgf.13406.