inteligencia_artificial:modelos_clasicos
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| inteligencia_artificial:modelos_clasicos [2023/07/18 11:17] – [Margins] alberto | inteligencia_artificial:modelos_clasicos [2023/09/05 16:26] (actual) – [Naïve Bayes] alberto | ||
|---|---|---|---|
| Línea 76: | Línea 76: | ||
| // | // | ||
| - | Si, por ejemplo, deseamos conocer la probabilidad de que // | + | Si, por ejemplo, deseamos conocer la probabilidad de que // |
| Hay que recordar que estamos haciendo 2 suposiciones: | Hay que recordar que estamos haciendo 2 suposiciones: | ||
| Línea 155: | Línea 155: | ||
| Cuando tenemos que etiquetar un dato de entrada desconocido, | Cuando tenemos que etiquetar un dato de entrada desconocido, | ||
| - | En este contexto, lo que que averiguar es dónde | + | En este contexto, lo que que hay que averiguar es dónde |
| En nuestro ejemplo podemos visualizar la línea de separación de margen máximo (continua) y los márgenes máximos (discontinua): | En nuestro ejemplo podemos visualizar la línea de separación de margen máximo (continua) y los márgenes máximos (discontinua): | ||
| Línea 165: | Línea 165: | ||
| ==== Support vectors ==== | ==== Support vectors ==== | ||
| + | Los datos de entrenamiento que definen los márgenes, se dice que los " | ||
| + | Usar los vectores de soporte para localizar la posición del margen, da lugar a un cálculo matemático muy complejo que no es objeto de estas notas. Pueden verse estas matemáticas en el artículo: "A Tutorial on Support Vector Machines for Pattern Recognition” by Christopher Burges (1998). \\ | ||
| ==== Optimization ==== | ==== Optimization ==== | ||
| + | Matemáticamente, | ||
| + | En una SVM, la orientación del hiperplano viene definida por el vector **// ⃗w//**. Hay un offset **//b//** que debemos encontrar. Para hacer la condición de optimización más simple, cambiamos las clases 0 y 1, por -1 y +1.\\ | ||
| + | |||
| + | Matemáticamente queremos encontrar // ⃗w// y //b//, tal que la cantidad ½ ||// ⃗w// | ||
| + | Este tipo de problemas de optimización se resuelven a través de una técnica denominada " | ||
| + | |||
| + | La formulación anterior sirve para el caso en que tengamos sólo 2 clases que puedan ser separadas por un hiperplano, y no siempre nos encontraremos en este caso. La forma completa del problema de optimización incluye un //fudge factor// **//C//** que afecta al tamaño del margen encontrado. \\ | ||
| + | |||
| + | El factor //C// no se averigua en el entrenamiento, | ||
| ==== Kernels ==== | ==== Kernels ==== | ||
| + | Hay un concepto matemático más que debemos presentar. La descripción anterior es para una SVM lineal y usa los datos de entrenamiento directamente. \\ | ||
| + | |||
| + | En caso de que la SVM sea no lineal (es decir, los datos están mezclados y no se puede hacer mediante un hiperplano " | ||
| + | |||
| + | Esta expresión se denomina //kernel// (lineal) y se escribe: {{ : | ||
| + | |||
| + | Hay varios tipos de kernel, en función de la complejidad de la clasificación de los datos. Como por ejemplo el polinomial, que podemos decir " | ||
| + | Un kernel muy común es el //Gaussian kernel//, también conocido como //Radial Basis Function (RBF)// kernel, que introduce un nuevo parámetro **//γ//**, que según aumenta su valor, aumentan las " | ||
| + | En resumen, una máquina de vectores de soporte utiliza los datos de entrenamiento transformados, | ||
| + | Las SVM dominaron el aprendizaje automático en la década de 1990 y principios de la de 2000, antes de la llegada del aprendizaje profundo. Esto se debe a su eficiencia y a que no necesitan grandes recursos computacionales. \\ | ||
| + | Después llegó el aprendizaje profundo, que con las redes neuronales han conseguido hacer cosas que con las SVM hubiera sido imposibles. \\ | ||
| + | Aún así, las SVM tienen aplicaciones en la actualidad. Es común usar una gran red neuronal entrenada con un dataset concreto, como preprocesador para un dataset diferente, con una SVM entrenada a la salida de la red neuronal (menos las capas superiores). | ||
inteligencia_artificial/modelos_clasicos.1689671865.txt.gz · Última modificación: por alberto
