RAG(Retrieval-Augmented Generation)=開書考。四步:切塊 → embedding → 檢索 → 把找到的段落塞給 LLM。每一步都能在這頁親手操作。
真實系統把每塊文字轉成幾百維的向量;這裡為了看得見,我們把每塊投影到兩個可解讀的軸上:「跟 HER/吸附 主題多像」與「跟 DFT 方法 主題多像」(用字元 bigram 的 cosine 相似度算)。
化學類比:這就是把吸附結構映射到 descriptor 空間——語意相近,距離就近。查詢(★)丟進同一個空間,離它最近的塊就是「翻書翻到的那幾頁」。