У нас вы можете посмотреть бесплатно (Урок 3) Как улучшить RAG pipeline: загрузка данных, разбиение, эмбеддинги и Chroma (LangChain) или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
В этом уроке мы прокачиваем RAG pipeline на LangChain и разбираем этап индексации — то, на чем держится качество поиска и ответов LLM. Покажу, как перестать грузить “одну страницу”, научиться забирать все страницы сайта через sitemap, а также как сделать рекурсивный обход ссылок внутри домена. Дальше улучшаем splitting (учёт структуры HTML и токенов), подбираем более подходящую эмбеддинг-модель под русский язык и ускоряем работу Chroma — чтобы индекс не пересобирался при каждом запуске. Antarctic Wallet – оплата USDT по QR-коду (Используется в курсе как реальный кейс для построения RAG-системы поддержки): https://t.me/antarctic_wallet_bot/app... Код, конспект урока и дополнительные материалы выложил в tg: https://t.me/semolina_code_python/152 • (Урок 1) RAG для новичков: как LLM работае... • (Урок 2) RAG для новичков: RAG pipeline на... Что будет в уроке: – Какие узлы есть в RAG pipeline и где чаще всего теряется качество – Загрузка данных: Web loader → SitemapLoader → RecursiveURLLoader – Почему “мусорный текст” убивает релевантность и что с этим делать – Сплиттинг: структурный (HTML) vs токеновый – Эмбеддинги: как выбирать модель под язык/размерность, зачем префиксы Search Query / Search Document – Векторное хранилище: Chroma, проверка наличия индекса, ускорение запуска, база для инкрементальных обновлений Следующий урок: Поиск и генерация — ретривер, постпроцессинг, системный промпт и улучшение финальной LangChain-цепочки. Если хочешь “идеальный RAG”, обязательно прочитай методичку/таблицы улучшений и прогоняй спорные пункты через ChatGPT — это ускоряет понимание и даёт лучшие решения под твой кейс. Если было полезно — поставь лайк и подпишись: дальше будет поиск+генерация, дебаг через LangSmith и потом настоящий агент поверх RAG. Таймкоды: 00:00 — Введение: что улучшаем в RAG pipeline 00:23 — Из каких узлов состоит наш RAG (карта пайплайна) 01:00 — План урока: индексация vs поиск/генерация 02:22 — Как работаем с каждым узлом: что делает → как улучшить → код 04:30 — Загрузка документов: почему это “ядро базы” 05:07 — Обзор лоадеров LangChain (file/web/Notion/GitHub/Jira и т.д.) 06:33 — Проблемы текущего кода (1 страница, нет sitemap, много мусора, нет обновления) 08:35 — Что такое sitemap и почему это must-have 11:53 — SitemapLoader: загружаем все страницы через sitemap.xml 12:43 — Ошибка в ноутбуке и запуск кода из файла 14:03 — RecursiveURLLoader: рекурсивный обход сайта (глубина) 17:49 — Результаты по глубине (1/2/3) и странности в цифрах 20:43 — Splitting: зачем, какие стратегии бывают 22:13 — Недостатки символьного сплиттинга 23:37 — Вариант 1: структурный HTML splitter 24:19 — Вариант 2: token-based splitter (пример с 256 токенов) 25:02 — Эмбеддинги: что это и почему критично 25:53 — Типы эмбеддинг-моделей (API/локальные/мультиязычные/domain) 28:02 — Переход на RuBERT/“росберто”: зачем и что меняем 28:30 — PrefixEmbeddings: префиксы для query/document 30:24 — Предупреждение про pooler layer: почему это ок для embeddings 31:07 — Vector Store: какие бывают хранилища и когда Chroma норм 32:34 — Проблемы: пересборка индекса, нет инкремента, нет метаданных 33:57 — Фикс: проверка индекса → ускоряем запуск 34:46 — Сколько чанков получилось и сколько времени строится индекс 35:18 — Повторный запуск: вместо минут — миллисекунды 36:00 — Итоги индексации и что будет в следующем уроке rag, rag pipeline, langchain rag, langchain, rag на langchain, embeddings, эмбеддинги, vector store, векторное хранилище, chroma, chromadb, sitemaploader, recursiveurlloader, document loaders, text splitter, token text splitter, recursive character text splitter, html splitter, retrieval augmented generation, llm, локальный llm, ollama, huggingface, rubert, sentence embeddings, семантический поиск, rag для новичков, ai, gpt, python, ai agents, langchain community #RAG #LangChain #LLM #Python #Embeddings #ChromaDB #SemanticSearch