inteligencia_artificial:datasets
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| inteligencia_artificial:datasets [2023/06/08 16:18] – [Aumento de datos] alberto | inteligencia_artificial:datasets [2023/09/05 15:58] (actual) – [Irises] alberto | ||
|---|---|---|---|
| Línea 5: | Línea 5: | ||
| Dataset de la flor de Iris, un dataset clásico desarrollado por R. A. Fisher en 1936 en su //paper// "The Use of Multiple Measurements in Taxonomic Problems" | Dataset de la flor de Iris, un dataset clásico desarrollado por R. A. Fisher en 1936 en su //paper// "The Use of Multiple Measurements in Taxonomic Problems" | ||
| - | Es un dataset pequeño, con 3 clases, 50 muestras de datos por cada clase, y 4 atributos: anchura del sépalo, longitud del sépalo, anchura del pétalo y longitud del pétalo, | + | Es un dataset pequeño, con 3 clases, 50 muestras de datos por cada clase, y 4 atributos: anchura del sépalo, longitud del sépalo, anchura del pétalo y longitud del pétalo, |
| Se puede descargar del [[https:// | Se puede descargar del [[https:// | ||
| Línea 193: | Línea 193: | ||
| Los datos que se aumentan normalmente son los de entrenamiento, | Los datos que se aumentan normalmente son los de entrenamiento, | ||
| + | |||
| + | ===== Cómo aumentar los datos de entrenamiento ===== | ||
| + | Cuando los datos son imágenes, es bastante directo. Podemos rotar la imagen, voltearla horizontal o verticalmente, | ||
| + | |||
| + | La única consideración que hay que tener a la hora de aumentar datos a partir de uno en concreto, es que los nuevos tengan sentido. En el caso de imágenes, por ejemplo, no tiene sentido dar la vuelta a una imagen de un mono colgado del árbol, ya que todos los árboles se mostrarían del revés y podría generar algún problema. En una vista aérea no habría, en principio, problema en rotar la imagen, pero añadir una imagen frontal si el resto son aéreas, tampoco tiene razón de ser. \\ | ||
| + | |||
| + | En el caso de vectores de atributos, el cambio es más sutil, pero también se basa en la misma premisa: que tenga sentido. Los nuevos datos creados deben poder pertenecer a la " | ||
| + | |||
| + | Se ha creado en Google colab un ejemplo de [[https:// | ||
| + | |||
| + | ==== Análisis de las componentes principales (PCA) ==== | ||
| + | //Principal Component analysis (PCA)//. Es una vieja técnica matemática que se usa tanto en inteligencia artificial como en otras áreas. \\ | ||
| + | Esta técnica nos da los componentes principales del conjunto de datos, esto son, vectores linealmente independientes formados como combinación lineal de los distintos atributos, que representan la varianza de los datos. Se puede extraer de aquí el índice de varianza, que representa en porcentaje o valor normalizado (0 - 1) cómo influye cada atributo en la varianza de los datos, y por lo tanto en el etiquetado. \\ | ||
| + | |||
| + | Esta técnica se usa muchas veces para eliminar los atributos (dimensiones) menos importantes y que apenas tienen influencia: al bajar el número de dimensiones, | ||
| + | En nuestro caso, la vamos a usar para otro fin: Aumentar el número de datos disponible. Para ello, localizaremos los atributos que no influyen prácticamente nada en las componentes principales y les añadiremos un ruido gausiano prácticamente despreciable, | ||
| + | |||
| + | Con esta técnica aumentaremos los datos del [[https:// | ||
inteligencia_artificial/datasets.1686233935.txt.gz · Última modificación: por alberto
