Herramientas de usuario

Herramientas del sitio


inteligencia_artificial:datasets

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
inteligencia_artificial:datasets [2023/06/23 18:19] – [Análisis de las componentes principales (PCA)] albertointeligencia_artificial:datasets [2023/09/05 15:58] (actual) – [Irises] alberto
Línea 5: Línea 5:
 Dataset de la flor de Iris, un dataset clásico desarrollado por R. A. Fisher en 1936 en su //paper// "The Use of Multiple Measurements in Taxonomic Problems". \\ Dataset de la flor de Iris, un dataset clásico desarrollado por R. A. Fisher en 1936 en su //paper// "The Use of Multiple Measurements in Taxonomic Problems". \\
  
-Es un dataset pequeño, con 3 clases, 50 muestras de datos por cada clase, y 4 atributos: anchura del sépalo, longitud del sépalo, anchura del pétalo y longitud del pétalo, simepre en centímetros. Las tres clases son la subespecie de la flor de Iris: I. setosa, I. versicolour, y I. virginica. \\+Es un dataset pequeño, con 3 clases, 50 muestras de datos por cada clase, y 4 atributos: anchura del sépalo, longitud del sépalo, anchura del pétalo y longitud del pétalo, siempre en centímetros. Las tres clases son la subespecie de la flor de Iris: I. setosa, I. versicolour, y I. virginica. \\
  
 Se puede descargar del [[https://archive-beta.ics.uci.edu/|repositorio principal de UCI]], o directamente desde [[https://archive-beta.ics.uci.edu/dataset/53/iris|su web]]. Se puede descargar del [[https://archive-beta.ics.uci.edu/|repositorio principal de UCI]], o directamente desde [[https://archive-beta.ics.uci.edu/dataset/53/iris|su web]].
Línea 201: Línea 201:
 En el caso de vectores de atributos, el cambio es más sutil, pero también se basa en la misma premisa: que tenga sentido. Los nuevos datos creados deben poder pertenecer a la "distribución padre". \\ En el caso de vectores de atributos, el cambio es más sutil, pero también se basa en la misma premisa: que tenga sentido. Los nuevos datos creados deben poder pertenecer a la "distribución padre". \\
  
-Se ha creado en Google colab un ejemplo de [[https://colab.research.google.com/drive/15NM7pmqpIH_iDp7kE8jI6ShQN0dITDwm?hl=es#scrollTo=IPDJrxvFbVGu|aumento de datos del dataset irises]], y otro ejemplo de aumento de datos del dataset CIFAR-10, bien razonados que se pueden consultar.+Se ha creado en Google colab un ejemplo de [[https://colab.research.google.com/drive/15NM7pmqpIH_iDp7kE8jI6ShQN0dITDwm?hl=es#scrollTo=IPDJrxvFbVGu|aumento de datos del dataset irises]], y otro ejemplo de [[https://colab.research.google.com/drive/15NM7pmqpIH_iDp7kE8jI6ShQN0dITDwm?hl=es#scrollTo=4D0jIAgns7KS|aumento de datos del dataset CIFAR-10]], bien razonados que se pueden consultar.
  
 ==== Análisis de las componentes principales (PCA) ==== ==== Análisis de las componentes principales (PCA) ====
-//Principal Component analysis (PCA)//. Es una vieja técnica matemática que se usa en inteligencia artificial de forma común. \\ +//Principal Component analysis (PCA)//. Es una vieja técnica matemática que se usa tanto en inteligencia artificial como en otras áreas. \\ 
-Esta técnica nos da los componentes principales del conjunto de datos, esto son, vectores linealmente independientes formados como combinación lineal de los distintos atributos, que representan la varianza de los datos. Se puede extraer de aquí el índice de varianza, que representa en porcentaje o valor normalizado (0 - 1) de cómo influye cada atributo en la varianza de los datos.  Esta información lo que nos quiere decir es cómo influye cada atributo en el conjunto de datos, y por consiguiente en el etiquetado. \\+Esta técnica nos da los componentes principales del conjunto de datos, esto son, vectores linealmente independientes formados como combinación lineal de los distintos atributos, que representan la varianza de los datos. Se puede extraer de aquí el índice de varianza, que representa en porcentaje o valor normalizado (0 - 1) cómo influye cada atributo en la varianza de los datos, y por lo tanto en el etiquetado. \\
  
 Esta técnica se usa muchas veces para eliminar los atributos (dimensiones) menos importantes y que apenas tienen influencia: al bajar el número de dimensiones, somo menos propensos a caer en la "maldición de la dimensionalidad". \\ Esta técnica se usa muchas veces para eliminar los atributos (dimensiones) menos importantes y que apenas tienen influencia: al bajar el número de dimensiones, somo menos propensos a caer en la "maldición de la dimensionalidad". \\
 En nuestro caso, la vamos a usar para otro fin: Aumentar el número de datos disponible. Para ello, localizaremos los atributos que no influyen prácticamente nada en las componentes principales y les añadiremos un ruido gausiano prácticamente despreciable, generando de este modo nuevos datos muy ligeramente diferentes a los originales, pero que mantendrán su etiquetado original. \\ En nuestro caso, la vamos a usar para otro fin: Aumentar el número de datos disponible. Para ello, localizaremos los atributos que no influyen prácticamente nada en las componentes principales y les añadiremos un ruido gausiano prácticamente despreciable, generando de este modo nuevos datos muy ligeramente diferentes a los originales, pero que mantendrán su etiquetado original. \\
 +
 +Con esta técnica aumentaremos los datos del [[https://colab.research.google.com/drive/15NM7pmqpIH_iDp7kE8jI6ShQN0dITDwm?hl=es#scrollTo=IPDJrxvFbVGu|dataset Irises]] y [[https://colab.research.google.com/drive/15NM7pmqpIH_iDp7kE8jI6ShQN0dITDwm?hl=es#scrollTo=jsh_Ht5LD825|breastCancer]].
  
inteligencia_artificial/datasets.1687537188.txt.gz · Última modificación: por alberto

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki