AI FOR COMPUTATIONAL CHEMISTRY · CH 1

讓 AI 幫你翻書Deep Research 的迴圈與 RAG——工具會換，這兩個概念不會

Local Deep Research · search → read → synthesize → cite

兩個老問題，一個新坑為什麼需要「有出處」的 AI 工作流

手動文獻迴圈搜尋→略讀→順引用再搜→整理。一圈半天，而且不可重現——三個月後想不起為什麼漏掉那篇。

實驗室知識散落「我們算 NiFe 用哪個 U 值？」答案在某個資料夾深處，沒人記得是哪個。

新坑：chatbot 編引用直接問聊天機器人——期刊名是真的、作者像真的、DOI 是假的。沒有檢索基礎的生成，引用不可信。

解法＝自動化迴圈＋可檢索的私有文件庫＋每句話帶出處

Local Deep Research（LDR）同時回應三件事——本章用它講懂兩個可遷移的概念

Deep research ＝你的文獻迴圈，寫成程式 agentic / iterative search

研究問題

→

拆 N 個子問題

→

多引擎搜尋
arXiv / PubMed / 本地庫

→

閱讀彙整

→

生成下一輪問題

↺

帶引用的報告

LDR 的兩個迴圈參數：iterations（轉幾圈）× questions_per_iteration（每圈拆幾題）
「生成下一輪問題」＝你順著引用鏈往下挖的那個動作，被自動化了

迴圈自動化了，品質驗收沒有——拆題與彙整是最容易出錯的兩步

RAG ＝開書考 Retrieval-Augmented Generation（檢索增強生成）

你的 PDF / wiki

→

切塊
chunk 1000 字・overlap 200

→

embedding
文字→向量

→

cosine 檢索
取 top-k

→

塞給 LLM 作答

LLM 並不「記得」你的論文庫——考試時，系統先把最相關的幾段翻出來放在它面前。
所以答得好不好，一半取決於「翻書翻得準不準」。

embedding ＝把文字映射到 descriptor 空間：語意相近，向量距離近

唯一的數學：cosine 相似度

cos θ ＝ a·b ⁄ (‖a‖ ‖b‖) ∈ [−1, 1]

越接近 1，語意越近；它只看方向不看長度——長文件不會因為字多就佔便宜
chunk 的取捨：太大 → 檢索不精準；太小 → 語境被切碎；overlap 防止關鍵句被切在邊界
化學類比：把吸附結構映射到特徵空間、用距離找相似結構——同一招

檢索是幾何問題：問題與段落，在同一個向量空間裡比距離

本地 vs 雲端你早就會做這道取捨題

	全本地（Ollama＋本地檢索）	雲端 API（OpenAI / Anthropic）
資料去向	不離開你的電腦	上傳到服務商
成本	電費＋一張好 GPU（官方 benchmark：RTX 3090 跑 27B）	按用量計費，零 GPU
品質	取決於本地模型大小	通常較高
適合	未發表資料、機密計畫	公開文獻調研、課堂

「自己工作站跑 VASP vs 上國網中心」——同一道題，你已經會了

引用的可信度紀律

AI 給的引用是「檢索到的來源」，不是「保證正確的依據」。
兩種典型錯誤：來源存在但解讀錯了；來源相關但不支持那句話。

規矩：進論文或組會簡報的每一條引用——抽查原文。
跟「不看收斂就不信 OUTCAR」是同一種科學素養。

沒有檢索基礎的生成，是編造的開始；有檢索基礎的生成，仍需你驗收

動手：互動 demo 操作劇本 interactive/rag-pipeline.html（離線可開）

拉 chunk 大小與 overlap 滑桿，看一篇 wiki 怎麼被切塊、塊數怎麼變

看 embedding 散點圖：每塊文字是「語意空間」的一個點，問題（★）丟進同一個空間

選「HER 的活性描述符」執行檢索——看 top-k 命中與分數，以及真正送進 LLM 的 prompt 長什麼樣

選最後一題（陷阱題）——庫裡沒有的主題，分數掉到 0.0x，誠實的系統該說「資料不足」

五分鐘，RAG 的四步在你手上跑過一遍

最小 code LDR v1.7.0・Python ≥ 3.12

from local_deep_research.api import quick_summary

result = quick_summary(
    query="HER 在高熵合金表面的 DFT 計算，常用哪些 descriptor？",
    search_tool="arxiv",        # 換成你的 collection 名稱 → 查私有文件庫
    programmatic_mode=True,
)
print(result["summary"])

Web UI：python -m local_deep_research.web.app → localhost:5000（建 collection、上傳 PDF 都在 Library 頁）
實驗室 wiki 接法與兩個限制（不能指資料夾、wikilink 會丟失）→ docs/teacher-notes/ch01.md

mock 版 notebook 零安裝可跑：notebooks/deep-research-demo.ipynb

常見誤解

「LLM 讀過我所有 PDF」沒有。每次回答只看到檢索出的 top-k 片段——問法不同，檢索不同，答案就不同。

「有引用＝內容正確」引用只保證來源存在。解讀對不對，抽查才知道。

「全本地一定比較差」LDR 官方 benchmark（SimpleQA ≈ 95.7%）本身就是全本地配置跑出來的。

「embedding 隨便選」換 embedding 要整庫重建索引；中文檢索品質高度依賴模型，要實測。

最大的風險不是 AI 不會，是你把「它會的」和「它裝會的」混在一起

我學完後應該能說出什麼

「deep research 是 search → read → synthesize → cite 的自動迴圈；最容易出錯的是拆題與彙整。」
「RAG 四步：切塊、embedding、cosine 檢索、生成——AI 沒有『記得』我的文件，是每次現翻。」
「我會幫實驗室建知識庫，知道它的兩個限制，和引用抽查的紀律。」

下一章：從文獻層走進勢能層——DFT 的輸出怎麼變成神經網路勢能（Ch2）

工具是 LDR，學的是迴圈與 RAG——工具換了照樣會用