gustavz · April 17, 2024 06:44 · Apr 17, 2024
diff --git a/langchain_chroma_openai_vectorstore.py b/langchain_chroma_openai_vectorstore.py
@@ -0,0 +1,25 @@
+from langchain_chroma import Chroma
+from langchain_openai import OpenAIEmbeddings
+from langchain_community.document_loaders import PDFMinerLoader, PyMuPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+
+pdf_path = "https://www.barclaycard.co.uk/content/dam/barclaycard/documents/personal/existing-customers/terms-and-conditions-barclaycard-core-2019.pdf"
+
+loader = PDFMinerLoader(pdf_path) # loads all text into a single document
+loader = PyMuPDFLoader(pdf_path) # loads each page as a separate document
+documents = loader.load()
+
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=1000, 
+    chunk_overlap=100,
+    separators=["\n\n", "\n", " ", ""],
+)
+docs = text_splitter.split_documents(documents)
+
+embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
+db = Chroma.from_documents(documents=docs, embedding=embeddings)
+
+query = "Why can't max do this by himself?"
+docs = db.similarity_search(query)
+
+print(docs[0].page_content)