RAG w praktyce — retrieval augmented generation

📚Moduł 3: AI Integration
⏱️~45 minut

RAG (Retrieval Augmented Generation) to technika która pozwala LLM odpowiadać na podstawie Twoich danych, nie tylko training data. Chatbot który zna Twoją dokumentację, FAQ, produkty.

Problem: LLM nie zna Twoich danych

GPT-4 wie dużo, ale nie wie:

Rozwiązanie: RAG — daj LLM dostęp do Twoich danych.

Jak działa RAG

1. Indexing (raz, offline):

2. Retrieval (każde query):

3. Generation:

💡 Przykład

User: "Ile kosztuje plan Pro?"
Retrieval: Znajdź chunk z pricing page
Prompt: "Na podstawie: [chunk o cenach], odpowiedz: Ile kosztuje plan Pro?"
LLM: "Plan Pro kosztuje 99 zł/mies"

Stack dla RAG

Embeddings:

Vector Database:

LLM:

Implementacja RAG (uproszczona)

Krok 1: Chunking

Krok 2: Embeddings

Krok 3: Query

Advanced RAG Techniques

Hybrid Search: Vector search + keyword search (BM25)

Re-ranking: Użyj drugiego modelu do re-rank wyników

Query expansion: Przepisz query na kilka wersji, search każdą

Metadata filtering: Search tylko w określonych dokumentach (np. tylko FAQ)

Koszty RAG

Przykład: 1000 dokumentów, 100 queries/day:

Vector DB: Pinecone free tier wystarczy dla MVP (< 100k vectors)

📝 Zadanie

Zaimplementuj prosty RAG: Weź 10 dokumentów (np. FAQ). Stwórz embeddings (OpenAI API). Zapisz w Pinecone. Zrób query: znajdź top 3 chunki, wyślij do GPT-4 z kontekstem.

← Poprzednia lekcja Następna lekcja →