AI FOR COMPUTATIONAL CHEMISTRY · CH 1

讓 AI 幫你翻書Deep Research 的迴圈與 RAG——工具會換,這兩個概念不會

Local Deep Research · search → read → synthesize → cite

兩個老問題,一個新坑 為什麼需要「有出處」的 AI 工作流

手動文獻迴圈搜尋→略讀→順引用再搜→整理。一圈半天,而且不可重現——三個月後想不起為什麼漏掉那篇。
實驗室知識散落「我們算 NiFe 用哪個 U 值?」答案在某個資料夾深處,沒人記得是哪個。
新坑:chatbot 編引用直接問聊天機器人——期刊名是真的、作者像真的、DOI 是假的。沒有檢索基礎的生成,引用不可信。
解法=自動化迴圈+可檢索的私有文件庫+每句話帶出處
Local Deep Research(LDR)同時回應三件事——本章用它講懂兩個可遷移的概念

Deep research = 你的文獻迴圈,寫成程式 agentic / iterative search

研究問題
拆 N 個子問題
多引擎搜尋
arXiv / PubMed / 本地庫
閱讀彙整
生成下一輪問題
帶引用的報告
  • LDR 的兩個迴圈參數:iterations(轉幾圈)× questions_per_iteration(每圈拆幾題)
  • 「生成下一輪問題」=你順著引用鏈往下挖的那個動作,被自動化了
迴圈自動化了,品質驗收沒有——拆題與彙整是最容易出錯的兩步

RAG = 開書考 Retrieval-Augmented Generation(檢索增強生成)

你的 PDF / wiki
切塊
chunk 1000 字・overlap 200
embedding
文字→向量
cosine 檢索
取 top-k
塞給 LLM 作答
LLM 並不「記得」你的論文庫——考試時,系統先把最相關的幾段翻出來放在它面前
所以答得好不好,一半取決於「翻書翻得準不準」。
embedding = 把文字映射到 descriptor 空間:語意相近,向量距離近

唯一的數學:cosine 相似度

cos θ = a·b ⁄ (‖a‖ ‖b‖) ∈ [−1, 1]
  • 越接近 1,語意越近;它只看方向不看長度——長文件不會因為字多就佔便宜
  • chunk 的取捨:太大 → 檢索不精準;太小 → 語境被切碎;overlap 防止關鍵句被切在邊界
  • 化學類比:把吸附結構映射到特徵空間、用距離找相似結構——同一招
檢索是幾何問題:問題與段落,在同一個向量空間裡比距離

本地 vs 雲端 你早就會做這道取捨題

全本地(Ollama+本地檢索)雲端 API(OpenAI / Anthropic)
資料去向不離開你的電腦上傳到服務商
成本電費+一張好 GPU(官方 benchmark:RTX 3090 跑 27B)按用量計費,零 GPU
品質取決於本地模型大小通常較高
適合未發表資料、機密計畫公開文獻調研、課堂
「自己工作站跑 VASP vs 上國網中心」——同一道題,你已經會了

引用的可信度紀律

AI 給的引用是「檢索到的來源」,不是「保證正確的依據」。
兩種典型錯誤:來源存在但解讀錯了;來源相關但不支持那句話。
規矩:進論文或組會簡報的每一條引用——抽查原文
跟「不看收斂就不信 OUTCAR」是同一種科學素養。
沒有檢索基礎的生成,是編造的開始;有檢索基礎的生成,仍需你驗收

動手:互動 demo 操作劇本 interactive/rag-pipeline.html(離線可開)

拉 chunk 大小與 overlap 滑桿,看一篇 wiki 怎麼被切塊、塊數怎麼變
看 embedding 散點圖:每塊文字是「語意空間」的一個點,問題(★)丟進同一個空間
選「HER 的活性描述符」執行檢索——看 top-k 命中與分數,以及真正送進 LLM 的 prompt 長什麼樣
選最後一題(陷阱題)——庫裡沒有的主題,分數掉到 0.0x,誠實的系統該說「資料不足」
五分鐘,RAG 的四步在你手上跑過一遍

最小 code LDR v1.7.0・Python ≥ 3.12

from local_deep_research.api import quick_summary

result = quick_summary(
    query="HER 在高熵合金表面的 DFT 計算,常用哪些 descriptor?",
    search_tool="arxiv",        # 換成你的 collection 名稱 → 查私有文件庫
    programmatic_mode=True,
)
print(result["summary"])
  • Web UI:python -m local_deep_research.web.app → localhost:5000(建 collection、上傳 PDF 都在 Library 頁)
  • 實驗室 wiki 接法與兩個限制(不能指資料夾、wikilink 會丟失)→ docs/teacher-notes/ch01.md
mock 版 notebook 零安裝可跑:notebooks/deep-research-demo.ipynb

常見誤解

「LLM 讀過我所有 PDF」沒有。每次回答只看到檢索出的 top-k 片段——問法不同,檢索不同,答案就不同。
「有引用=內容正確」引用只保證來源存在。解讀對不對,抽查才知道。
「全本地一定比較差」LDR 官方 benchmark(SimpleQA ≈ 95.7%)本身就是全本地配置跑出來的。
「embedding 隨便選」換 embedding 要整庫重建索引;中文檢索品質高度依賴模型,要實測
最大的風險不是 AI 不會,是你把「它會的」和「它裝會的」混在一起

我學完後應該能說出什麼

  • 「deep research 是 search → read → synthesize → cite 的自動迴圈;最容易出錯的是拆題與彙整。」
  • 「RAG 四步:切塊、embedding、cosine 檢索、生成——AI 沒有『記得』我的文件,是每次現翻。」
  • 「我會幫實驗室建知識庫,知道它的兩個限制,和引用抽查的紀律。」
下一章:從文獻層走進勢能層——DFT 的輸出怎麼變成神經網路勢能(Ch2)
工具是 LDR,學的是迴圈與 RAG——工具換了照樣會用