Teoría del aprendizaje estadístico

un marco para el aprendizaje automático basado en los campos de la estadística y el análisis funcional

La teoría del aprendizaje estadístico, fundamentada en la estadística y el análisis funcional.[1] Es un marco que brinda las bases para muchos de los algoritmos de aprendizaje automático. Desarrollada en un inicio en Rusia durante la década de 1960,[2] ganó popularidad en los años noventa tras la creación de las máquina de vectores de soporte,[3][4] de modo que se consolidó como el marco estándar para el estudio del reconocimiento de patrones.

Desarrollo durante el siglo XX

editar

La historia del de la investigación sobre el problema del aprendizaje en el siglo XX pueden dividirse en tres períodos, caracterizados por tres acontecimientos destacados:[5]

  • La construcción de las primeras máquinas de aprendizaje
  • El desarrollo de los fundamentos teóricos
  • El desarrollo de las redes neuronales

Desarrollo de las primeras máquinas de aprendizaje

editar

En 1958 Frank Rosenblatt propuso el primer modelo de máquina de aprendizaje, llamado perceptrón.[6] Inspirado en modelos neurofisiológicos de McCulloch y Pitts, el perceptrón fue diseñado para resolver problemas de reconocimiento de patrones. En su forma más simple, este problema consiste en construir una regla capaz de separar los datos de dos categorías distintas utilizando ejemplos previamente proporcionados.

Perceptrón de una sola capa

En 1962, Novikoff demostró el primer teorema sobre el perceptrón[7] el cual establece que, bajo ciertas condiciones, los modelos de una capa basados en el perceptrón puede construir un hiperplano que separe los datos para su clasificación. Este teorema marcó el inicio de la teoría del aprendizaje.

Aunque el perceptrón tuvo una gran recepción inicial, en 1969 Marvin Minsky y Seymour Papert publicaron un famoso libro en el que demostraban que los modelos de una sola capa basados en el perceptrón no pueden resolver ciertos problemas de clasificación, como el de la compuerta XOR.[8]

Esta etapa se caracterizó por el desarrollo de técnicas para la aplicación a problemas, en este sentido Vapnik señala que la filosofía del análisis aplicado del proceso de aprendizaje se basaba en que:

Para obtener una buena generalización, basta con elegir los coeficientes de la neurona que proporcionen el número mínimo de errores en el entrenamiento. El principio de minimizar el número de errores de entrenamiento es un principio inductivo evidente por sí mismo y, desde un punto de vista práctico, no requiere justificación adicional. El objetivo principal del Análisis Aplicado es encontrar métodos para construir simultáneamente los coeficientes de todas las neuronas de modo que la superficie de separación produzca el mínimo número de errores en los datos de entrenamiento.[9]

Desarrollo de los fundamentos teóricos

editar

A diferencia del análisis aplicado, en el que desde la creación del perceptrón hasta la implementación de la retropropagación en 1986.[10] no hubo grandes avances. Sin embargo, durante ese mismo período el desarrollo de la teoría del aprendizaje estadístico fue sumamente fructífero. En contraste con el enfoque aplicado, Vapnik sostiene que la filosofía del análisis teórico de los procesos de aprendizaje se fundamenta en la búsqueda de principios inductivos no trivial, que garanticen la mayor capacidad de generalización posible:

El principio de minimizar el número de errores de entrenamiento no es evidente por sí mismo y requiere justificación. Es posible que exista otro principio inductivo que proporcione un mayor nivel de capacidad de generalización. El objetivo principal del Análisis Teórico de los procesos de aprendizaje es encontrar el principio inductivo con el nivel más alto de capacidad de generalización y construir algoritmos que materialicen dicho principio inductivo.[10]

A inicios de 1968, Vapnik y Chervonenkis introdujeron los conceptos centrales de la teoría del aprendizaje estadístico: la entropía VC y la dimensión VC[2] Con estos conceptos, se describieron los procesos de aprendizaje en el conjunto de funciones características y se obtuvieron los principales criterios para lgarantizar convergencia de los algoritmos. Entre 1976 y 1981, dichos resultados —inicialmente obtenidos para el conjunto de funciones indicadoras— fueron generalizados al conjunto de funciones reales..

Finalmente, en 1989 se encontraron las condiciones necesarias y suficientes para la consistencia del principio inductivo de minimización del riesgo empírico y del método de máxima verosimilitud, completando así el análisis de inferencia inductiva basada en la minimización del riesgo empírico.

El desarrollo de las redes neuronales

editar
Modelo multi-capa basado en el perceptrón

Por los resultados de Marvin Minsky y Seymour Papert, se sabía que los modelos de una sola capa basados en el perceptrón eran muy limitados. La extensión natural de esta idea fue aumentar el número de capas. Sin embargo, debido a las propiedades lineales del perceptrón, un modelo multicapa construido únicamente a partir de perceptrones simples resulta equivalente a un modelo de una sola capa. Esto implica que añadir más capas no incrementa la capacidad de aprendizaje. Para superar esta limitación, fue necesario incorporar funciones de activación no lineales en el perceptrón.

En 1986, de manera independiente un método para construir perceptrones multi-capa con efectos no lineales. Mediante el denominado método de retropropagación (o Back-Propagation en inglés) combinado con el método de descenso del gradiente, es posible entrenar redes multi-capa. Este avance dio origen a lo que hoy se conoce como aprendizaje profundo (o deep learnig).

Introducción

editar

Los objetivos del aprendizaje son la comprensión y la predicción. El aprendizaje se divide en muchas categorías: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje en línea y aprendizaje por refuerzo. Desde el punto de vista de la teoría del aprendizaje estadístico, el aprendizaje supervisado es el que mejor se entiende.[11] Cada punto del entrenamiento es un par de entrada-salida, en el que la entrada se asigna a una salida. El problema de aprendizaje consiste en inferir la función que relaciona la entrada y la salida, de forma que la función aprendida pueda utilizarse para predecir la salida a partir de entradas futuras.

Dependiendo del tipo de salida, los problemas de aprendizaje supervisado son problemas de regresión o problemas de clasificación. Si la salida toma un rango continuo de valores, se trata de un problema de regresión. Utilizando la ley de Ohm[12] como ejemplo, se podría realizar una regresión con el voltaje como entrada y la corriente como salida. La regresión encontraría que la relación funcional entre el voltaje y la corriente es . de forma que:

Los problemas de clasificación son aquellos para los que la salida será un elemento de un conjunto discreto de etiquetas. La clasificación es muy común en las aplicaciones de aprendizaje automático.[13] En el reconocimiento facial, por ejemplo, una imagen de la cara de una persona sería la entrada, y la etiqueta de salida sería el nombre de esa persona. La entrada estaría representada por un gran vector multidimensional cuyos elementos representan píxeles de la imagen.

Después de aprender una función basada en los datos del conjunto de entrenamiento, esa función se valida en un conjunto de datos de prueba, datos que no aparecían en el conjunto de entrenamiento.

Descripción formal

editar

Un problema de aprendizaje consiste en aproximar una función desconocida que relaciona entradas y salidas a partir de ejemplos observados. Sea la entrada, y sea la función objetivo desconocida, donde es el conjunto de todas las posibles entradas y es el conjunto de todas las posibles salidas. Además, tanto como son espacios medibles.

El proceso de generación de los datos puede describirse mediante tres componentes fundamentales:

  1. Generador : produce vectores aleatorio extraídos de manera independiente de una distribución de probabilidad fija pero desconocida
  2. Supervisor : asigna un valor de salida a cada entrada , de acuerdo con una distribución condicional . Este es el caso general, que incluye como situación particular el caso determinista .
  3. Máquina de aprendizaje : implementa un conjunto de funciones donde es un conjunto de parámetros (que pueden ser vectores o entidades más abstractas). Este conjunto de funciones constituye el conjunto de hipótesis .

El conjunto de datos de entrenamiento está formado por observaciones independientes e idénticamente distribuidas i.i.d. generadas según la distribución conjunta de modo que se tiene el conjunto , donde cada par se denomina punto de datos y representa un ejemplo entrada–salida.

El objetivo del aprendizaje consiste en seleccionar, dentro del conjunto de hipótesis , la función que mejor aproxime la respuesta del supervisor, es decir a la función objetivo desconocida . Para evaluar la calidad de una hipótesis, se define una función de pérdida que mide la discrepancia entre la salida verdadera y la salida predicha por el modelo.

El rendimiento esperado del modelo se cuantifica mediante el funcional de riesgo:

que representa el valor esperado de la pérdida sobre la distribución de datos.

Dado que la distribución es desconocida, la máquina de aprendizaje debe estimar, a partir del conjunto de entrenamiento , el parámetro y por tanto la función que minimice el riesgo esperado.

Principio inductivo de Minimización del Riesgo Empírico (ERM)

editar

Sea una medida de probabilidad definida en el espacio medible . Consideremos el conjunto de funciones , con . El objetivo es minimizar el funcional de riesgo

donde la medida de probabilidad es desconocida, pero se dispone de una muestra i.i.d. donde y es la función de pérdida específica. Para minimizar el funcional de riesgo con una función de distribución desconocida , puede aplicarse el siguiente principio inductivo:

  1. El funcional de riesgo se reemplaza por el llamado funcional de riesgo empírico

  1. Se aproxima la función , que minimiza el riesgo , mediante la función que minimiza el riesgo empírico .

Este principio se denomina principio inductivo de Minimización del Riesgo Empírico o ERM por sus siglas en inglés (Empirical Risk Minimization).

Decimos que un principio inductivo define un proceso de aprendizaje si, para un conjunto dado de observaciones, la máquina de aprendizaje elige la aproximación utilizando dicho principio inductivo. En la teoría del aprendizaje, el principio ERM desempeña un papel fundamental. El principio ERM es bastante general. Los métodos clásicos para resolver problemas específicos de aprendizaje, como el método de mínimos cuadrados en el problema de estimación de regresión o el método de máxima verosimilitud en el problema de estimación de densidad, son realizaciones del principio ERM para las funciones de pérdida respectivas.

Problemas principales

editar

Como se mencionó, la elección de la función de pérdida es un factor determinante de la función que elegirá el algoritmo de aprendizaje. La función de pérdida también afecta a la tasa de convergencia de un algoritmo, por lo que es importante que la función de pérdida sea convexa.[14]

Se utilizan diferentes funciones de pérdida según se trate de un problema de clasificación, regresión o estimación de densidad.

Regresión

editar

Sea la respuesta del supervisor (un valor real), y sea , con , un conjunto de funciones reales que contiene la función de regresión

La función de regresión más común para la regresión es la función de pérdida cuadrada (también conocida como norma L2) que minimiza el funcional de riesgo. Esta conocida función de pérdida se utiliza en la regresión por mínimos cuadrados ordinarios. La forma da la función de pérdida es:

A veces también se utiliza la pérdida de valor absoluto (también conocida como norma L1):

Y en general, para cualquier se puede definir una función de perdida (con la norma Lp):

Clasificación

editar

Sea que la salida del supervisor tome solo dos valores , y sea , un conjunto de funciones indicadoras (funciones que solo toman dos valores: cero y uno). Considérese la siguiente función de pérdida:

Para la clasificación binaria con , se usa la siguiente fórmula:

Donde es la función escalón de Heaviside.

Por lo tanto, el problema consiste en encontrar una función que minimice la probabilidad de error de clasificación cuando la medida de probabilidad es desconocida, pero se dispone de los datos .

Estimación de densidad

editar

Por último, consideremos el problema de estimación de densidad a partir del conjunto de densidades . Para este problema consideramos la siguiente función de pérdida:

Por lo tanto, para estimar la densidad a partir de los datos, nuevamente hay que minimizar el funcional de riesgo bajo la condición de que la medida de probabilidad correspondiente es desconocida, pero se cuenta con datos i.i.d.

Regularización

editar
Esta imagen representa un ejemplo de sobreajuste en el aprendizaje automático. Los puntos rojos representan los datos del conjunto de entrenamiento. La línea verde representa la verdadera relación funcional, mientras que la línea azul muestra la función aprendida, que se ha sobreajustado a los datos del conjunto de entrenamiento.

En los problemas de aprendizaje automático, uno de los principales problemas que surgen es el del sobreajuste. Dado que el aprendizaje es un problema de predicción, el objetivo no es encontrar una función que se ajuste lo más posible a los datos (previamente observados), sino encontrar una que prediga con la mayor exactitud la salida a partir de la entrada futura. La minimización empírica del riesgo corre este riesgo de sobreajuste: encontrar una función que se ajuste exactamente a los datos pero que no prediga bien el resultado futuro.

El sobreajuste es síntoma de soluciones inestables; una pequeña perturbación en los datos del conjunto de entrenamiento provocaría una gran variación en la función aprendida. Se puede demostrar que si se puede garantizar la estabilidad de la solución, también se garantizan la generalización y la coherencia.[15][16] La regularización puede resolver el problema del sobreajuste y dar estabilidad al problema.

La regularización puede lograrse restringiendo el espacio de hipótesis . Un ejemplo común sería restringir a funciones lineales: esto puede verse como una reducción al problema estándar de la regresión lineal. también podría restringirse a polinomios de grado , exponenciales o funciones acotadas en L1. La restricción del espacio de hipótesis evita el sobreajuste porque la forma de las funciones potenciales es limitada y, por tanto, no permite elegir una función que dé un riesgo empírico arbitrariamente cercano a cero.

Un ejemplo de regularización es la regularización de Tíjonov. Consiste en minimizar:

Donde es un parámetro fijo y positivo, el parámetro de regularización. La regularización de Tíjonov garantiza la existencia, unicidad y estabilidad de la solución.[17]

Limitación del riesgo empírico

editar

Si consideramos un clasificador binario , podemos aplicar la desigualdad de Hoeffding para limitar la probabilidad de que el riesgo empírico se desvíe del riesgo real a una distribución subgaussiana.

Pero, por lo general, cuando hacemos minimización empírica del riesgo, no se nos da un clasificador; debemos elegirlo. Por lo tanto, un resultado más útil es acotar la probabilidad del sumo de la diferencia sobre toda la clase.

Donde es el número de fragmentación y es el número de muestras del conjunto de datos. El término exponencial procede de Hoeffding, pero hay un coste adicional por tomar el supremo sobre toda la clase, que es el número de fragmentación.

Teorema No Free Lunch

editar

Los teoremas No Free Lunch (NFL)  publicados en 1997 por David Wolpert y William MacReady, son un conjunto de teoremas matemáticos que tienen implicaciones para el campo de la optimización y el aprendizaje supervisado.[18] Estos teoremas establecen que, para cualquier algoritmo de optimización, cualquier mejora en el desempeño sobre una clase de problemas se compensa con un desempeño inferior en otra clase, es decir, no existe un algoritmo óptimo universal para todos los problemas de optimización.

Véase también

editar

Referencias

editar
  1. Vapnik, Vladimir Naumovich; Vapnik, Vladimir Naumovich (1998). Statistical learning theory. Adaptive and learning systems for signal processing, communications, and control. Wiley. ISBN 978-0-471-03003-4.
  2. 1 2 Vapnik, V. N.; Chervonenkis, A. Ya. (1971-01). «On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities». Theory of Probability & Its Applications (en inglés) 16 (2): 264-280. ISSN 0040-585X. doi:10.1137/1116025. Consultado el 8 de octubre de 2025.
  3. Luxburg, Ulrike von; Schölkopf, Bernhard (2011). Statistical Learning Theory: Models, Concepts, and Results (en inglés) 10. Elsevier. pp. 651-706. ISBN 978-0-444-52936-7. doi:10.1016/b978-0-444-52936-7.50016-1. Consultado el 8 de octubre de 2025.
  4. Cortes, Corinna; Vapnik, Vladimir (1995-09). «Support-Vector Networks». Machine Learning (en inglés) 20 (3): 273-297. ISSN 0885-6125. doi:10.1023/A:1022627411411. Consultado el 8 de octubre de 2025.
  5. Vapnik, Vladimir N. (2000). The Nature of Statistical Learning Theory. Springer New York. ISBN 978-1-4419-3160-3. doi:10.1007/978-1-4757-3264-1. Consultado el 8 de octubre de 2025.
  6. Rosenblatt, F. (1958). «The perceptron: A probabilistic model for information storage and organization in the brain.». Psychological Review (en inglés) 65 (6): 386-408. ISSN 1939-1471. doi:10.1037/h0042519. Consultado el 8 de octubre de 2025.
  7. Novikoff, A. B. J. (1962). «On convergence proofs on perceptrons». Proceedings of the Symposium on the Mathematical Theory of Automata (Polytechnic Institute of Brooklyn) XII: 615-622.
  8. Minsky, Marvin; Papert, Seymour (1972). Perceptrons: an introduction to computational geometry (2. print. with corr edición). The MIT Press. ISBN 978-0-262-13043-1.
  9. Vapnik, Vladimir Naumovich (1995). The Nature of Statistical Learning Theory (1st ed edición). Springer New York. p. 6. ISBN 978-1-4757-2442-4.
  10. 1 2 Vapnik, Vladimir Naumovich (1995). The Nature of Statistical Learning Theory (1st ed edición). Springer New York. p. 7. ISBN 978-1-4757-2442-4.
  11. Tomaso Poggio, Lorenzo Rosasco, et al. (2012). «Statistical Learning Theory and Applications». Class 1.
  12. «Ley de Ohm (GIE)». Universidad de Sevilla. 2018.
  13. «Clasificación en machine learning: Introducción». DataCamp.
  14. «"Are Loss Functions All the Same?». direct.mit.edu. Consultado el 5 de junio de 2024.
  15. Vapnik, V.N. and Chervonenkis, A.Y. (1971). «On the uniform convergence of relative frequencies of events to their probabilities». Theory of Probability and Its Applications Vol 16.
  16. Mukherjee, Sayan; Niyogi, Partha; Poggio, Tomaso; Rifkin, Ryan (1 de julio de 2006). «Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization». Advances in Computational Mathematics (en inglés) 25 (1): 161-193. ISSN 1572-9044. doi:10.1007/s10444-004-7634-z. Consultado el 5 de junio de 2024.
  17. Tomaso Poggio, Lorenzo Rosasco, et al. (2012). «Statistical Learning Theory and Applications». Class 2.
  18. Wolpert, D.H.; Macready, W.G. (1997-04). «No free lunch theorems for optimization». IEEE Transactions on Evolutionary Computation 1 (1): 67-82. doi:10.1109/4235.585893. Consultado el 9 de octubre de 2025.

Bibliografía

editar
  • Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: a short course. AMLBook.com
  • Berzal, F. (2018). Redes Neuronales & Deep Learning.
  • Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of Machine Learning (2.ª ed.). The MIT Press.
  • Vapnik, V. N. (1995). The nature of statistical learning theory. Springer‐Verlag.
  • Vapnik, V. N. (1998). Statistical learning theory. Adaptive and Learning Systems for Signal Processing, Communications, and Control. Wiley.