Diferencias

Muestra las diferencias entre dos versiones de la página.

--- inteligencia_artificial:langchain:documentos [2025/01/31 00:33] – [Base de datos vectorial] alberto
+++ inteligencia_artificial:langchain:documentos [2025/01/31 00:44] (actual) – [Base de datos vectorial] alberto
@@ Línea 206: / Línea 206: @@
 En langchain existen más de 30 tipos de base de datos vectoriales diferentes que pueden [[https://python.langchain.com/docs/integrations/vectorstores/|consultarse en su web]].
-En el siguiente ejemplo cargamos el texto de varios PDFs, dividimos la información en partes, usando los embeddings de Llama 3.2 pasamos las partes a vectores, y finalmente los guardamos en una base de datos vectorial de tipo Chroma por su simplicidad:
+En el siguiente ejemplo cargamos el texto de varios PDFs, dividimos la información en partes, usando los embeddings de Llama 3.1 pasamos las partes a vectores, y finalmente los guardamos en una base de datos vectorial de tipo Chroma por su simplicidad:
 <code python>
+from langchain_community.document_loaders import PyPDFLoader
+# Cargamos los documentos
+loaders = [
+    PyPDFLoader("seres_01_Hada.pdf"),
+    PyPDFLoader("seres_01_Hada.pdf"),   # Repetimos el mismo documento para ver como se comporta el sistema
+    PyPDFLoader("seres_02_Gnomo.pdf"),
+    PyPDFLoader("seres_03_Trasgo.pdf"),
+    PyPDFLoader("seres_04_Mago.pdf"),
+]
+docs = []
+for loader in loaders:
+    docs.extend(loader.load())
+# Troceamos los documentos
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size = 500,
+    chunk_overlap = 50
+)
+splits = text_splitter.split_documents(docs)
+# Definimos el modelo de embeddings
+from langchain_ollama import OllamaEmbeddings
+embedding = OllamaEmbeddings(model="llama3.1")
+# Guardamos los datos en una base de datos vectorial
+from langchain_community.vectorstores import Chroma
+# Definimos el directorio donde se guardará la base de datos vectorial
+persist_directory = 'docs/chroma'
+# Eliminamos el directorio si ya existe, es decir, borramos la base de datos anterior antes de volver a lanzar el sript
+import shutil
+path = "docs/chroma"
+try:
+    shutil.rmtree(path)
+    print(f"Directorio {path} eliminado")
+except FileNotFoundError:
+    print(f"Directorio {path} no encontrado")
+except Exception as e:
+    print(f"Error al eliminar el directorio: {e}")
+# Creamos la base de datos vectorial
+vectordb = Chroma.from_documents(
+    documents = splits,
+    embedding = embedding,
+    persist_directory = persist_directory
+)
+# Vamos a realizar una consulta
+question = "¿En qué parte de la península hay seres fantásticos como hadas y gnomos?"
+docus = vectordb.similarity_search(question, k=3) # En langchain el texto devuelto de una base de datos vectorial al realizar una búsqueda semántica es de tipo "document", por eso se le suele llamar "docs" o documentos.
+print(f"Número de documentos encontrados: {len(docus)}")
+print(f"\nPrimer resultado: {docus[0].page_content}")
+print(f"\nSegundo resultado: {docus[1].page_content}")
+print(f"\nTercer resultado: {docus[2].page_content}")
 </code>
+Al final del ejemplo anterior realizamos una búsqueda en la base de datos.
+Al haber documentos duplicados, podemos obtener diferentes respuestas prácticamente iguales.
+También puede ocurrir que se obtenga la información de algunos documentos (vectores), cuando hay otros más idóneos para la consulta realizada.
+Veremos en el siguiente apartado //retrieval// como obtener información de la base de datos vectorial adecuadamente.
 ===== Métodos de extracción de información =====
 Hay varios métodos a partir de los cuales se puede extraer la información más importante (la más similar vectorialmente) de las diferentes partes en que se dividió la información.