RAG pipeline 互動教材

STEP 1切塊（chunking）：你的文件先被剁成段

chunk 大小 = 80 字

相鄰重疊（overlap）= 20 字

塊太大→檢索不精準；太小→語境被切碎。重疊是為了不把關鍵句切在邊界上。

真實系統把每塊文字轉成幾百維的向量；這裡為了看得見，我們把每塊投影到兩個可解讀的軸上：「跟 HER／吸附 主題多像」與「跟 DFT 方法 主題多像」（用字元 bigram 的 cosine 相似度算）。

化學類比：這就是把吸附結構映射到 descriptor 空間——語意相近，距離就近。查詢（★）丟進同一個空間，離它最近的塊就是「翻書翻到的那幾頁」。

選一個問題（或自己打）：

取前 k = 2 塊

⚠ 最高相似度太低——文件庫裡沒有這個主題。誠實的系統此時應該說「資料不足」，而不是硬掰。（沒有檢索基礎的生成＝編造的開始）

↓ 真正送進 LLM 的內容（不是你的整個文件庫！）

（先執行一次檢索）

AI 沒有「記得」你的文件——它每次都是現翻 top-k 段。翻書翻不準，答案就不準。

⚠ 三個常見誤解

本頁用字元 bigram + cosine 當「迷你 embedding」示意；真實系統（如 Local Deep Research 預設的 all-MiniLM-L6-v2）用神經網路 embedding，原理相同、語意能力強得多。