inteligencia_artificial:datasets
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| inteligencia_artificial:datasets [2023/06/23 18:18] – [Análisis de las componentes principales (PCA)] alberto | inteligencia_artificial:datasets [2023/09/05 15:58] (actual) – [Irises] alberto | ||
|---|---|---|---|
| Línea 5: | Línea 5: | ||
| Dataset de la flor de Iris, un dataset clásico desarrollado por R. A. Fisher en 1936 en su //paper// "The Use of Multiple Measurements in Taxonomic Problems" | Dataset de la flor de Iris, un dataset clásico desarrollado por R. A. Fisher en 1936 en su //paper// "The Use of Multiple Measurements in Taxonomic Problems" | ||
| - | Es un dataset pequeño, con 3 clases, 50 muestras de datos por cada clase, y 4 atributos: anchura del sépalo, longitud del sépalo, anchura del pétalo y longitud del pétalo, | + | Es un dataset pequeño, con 3 clases, 50 muestras de datos por cada clase, y 4 atributos: anchura del sépalo, longitud del sépalo, anchura del pétalo y longitud del pétalo, |
| Se puede descargar del [[https:// | Se puede descargar del [[https:// | ||
| Línea 201: | Línea 201: | ||
| En el caso de vectores de atributos, el cambio es más sutil, pero también se basa en la misma premisa: que tenga sentido. Los nuevos datos creados deben poder pertenecer a la " | En el caso de vectores de atributos, el cambio es más sutil, pero también se basa en la misma premisa: que tenga sentido. Los nuevos datos creados deben poder pertenecer a la " | ||
| - | Se ha creado en Google colab un ejemplo de aumento de datos del dataset irises, y otro ejemplo de aumento de datos del dataset CIFAR-10, bien razonados que se pueden consultar. | + | Se ha creado en Google colab un ejemplo de [[https:// |
| ==== Análisis de las componentes principales (PCA) ==== | ==== Análisis de las componentes principales (PCA) ==== | ||
| - | //Principal Component analysis (PCA)//. Es una vieja técnica matemática que se usa en inteligencia artificial | + | //Principal Component analysis (PCA)//. Es una vieja técnica matemática que se usa tanto en inteligencia artificial |
| - | Esta técnica nos da los componentes principales del conjunto de datos, esto son, vectores linealmente independientes formados como combinación lineal de los distintos atributos, que representan la varianza de los datos. Se puede extraer de aquí el índice de varianza, que representa en porcentaje o valor normalizado (0 - 1) de cómo influye cada atributo en la varianza de los datos. | + | Esta técnica nos da los componentes principales del conjunto de datos, esto son, vectores linealmente independientes formados como combinación lineal de los distintos atributos, que representan la varianza de los datos. Se puede extraer de aquí el índice de varianza, que representa en porcentaje o valor normalizado (0 - 1) cómo influye cada atributo en la varianza de los datos, y por lo tanto en el etiquetado. \\ |
| Esta técnica se usa muchas veces para eliminar los atributos (dimensiones) menos importantes y que apenas tienen influencia: al bajar el número de dimensiones, | Esta técnica se usa muchas veces para eliminar los atributos (dimensiones) menos importantes y que apenas tienen influencia: al bajar el número de dimensiones, | ||
| En nuestro caso, la vamos a usar para otro fin: Aumentar el número de datos disponible. Para ello, localizaremos los atributos que no influyen prácticamente nada en las componentes principales y les añadiremos un ruido gausiano prácticamente despreciable, | En nuestro caso, la vamos a usar para otro fin: Aumentar el número de datos disponible. Para ello, localizaremos los atributos que no influyen prácticamente nada en las componentes principales y les añadiremos un ruido gausiano prácticamente despreciable, | ||
| - | De este modo aumentaremos | + | Con esta técnica |
inteligencia_artificial/datasets.1687537096.txt.gz · Última modificación: por alberto
