AI FOR COMPUTATIONAL CHEMISTRY · CH 0

三個痛,三層解法為什麼化學系需要 AI 研究工具——文獻層、勢能層、管理層

化學系研究生的 AI for Computational Chemistry 入門

先承認三個痛 它們不是同一種痛,所以不該期待同一種藥

文獻追不完HER/HEA 關鍵字一年數百篇。組會前用兩小時「掃」二十篇摘要——那不叫回顧,叫止痛。
DFT 排不完百原子 slab 一次優化半天起跳。「不同位點的吸附能分布」=幾百次優化=畢業以後的事。
傳統力場靠不住EAM 沒有你的五元參數;ReaxFF 重擬合是博士後等級工程;表面吸附的精度撐不起結論。
三種痛分屬三層——分清楚層,才知道該期待什麼、提防什麼

三層工具地圖 本課程的全部骨架,一張圖

三層工具地圖
文獻層幫你「知道」,勢能層幫你「算」,管理層把研究串起來

精度—成本階梯 MLIP(machine-learned interatomic potential)補上空了三十年的一階

精度成本階梯
接近 DFT 的精度 × 接近力場的速度——條件:訓練分布內

把數量級背起來 相鄰階之間差幾個零,決定哪些題目可做

方法典型可及體系時間尺度相對單點成本參數來源
古典力場(EAM / ReaxFF)10⁵–10⁸ 原子ns–μs1人工擬合
MLIP(本課程)10³–10⁶ 原子ps–ns10–10³DFT 資料訓練
DFT(GGA)10²–10³ 原子~ps(AIMD)10⁶–10⁸第一性原理
CCSD(T)10–10² 原子單點≥10¹⁰第一性原理
數量級示意,隨實作與硬體浮動;重點是相鄰階的差距
體系放大 10 倍:DFT 慢 ~1000 倍(O(N³)),MLIP 慢 ~10 倍(O(N))

全課程最重要的概念:訓練分布 training distribution

MLIP 像一個「背熟幾百萬筆 DFT 結果的學生」:
考古題範圍內又快又準;超出範圍——一臉自信地亂答,而且不臉紅
  • 「這個模型可不可以信?」永遠先問:「這題在不在它的考古題範圍裡?
  • Ch2 給它操作型定義;Ch5 給你血淋淋的數字(分布外誤差可差一個數量級);Ch6 教你在研究裡管理它
每章都會回到這個概念——它是所有資料驅動工具共同的可信度邊界

為什麼跟你有關:HEA 的組態爆炸 high-entropy alloy(高熵合金)

5⁹ ≈ 2×10⁶
五元 HEA fcc(111) 一個 top 位點
第一配位圈(9 原子)的元素組合數
~10²
你的 DFT 預算
實際算得起的位點數
  • 每種局部環境的吸附能都不同 → ΔGH 是一個分布,不是一個數
  • 解法(Ch6 完整劇本):DFT 算幾百個(訓練+驗證)→ 微調 MLIP 掃幾萬個(統計分布)
三層工具在同一個研究問題上各就各位——這是本課程最後一章的劇本

現代計算化學工作流 接下來十二週你會反覆回看這張圖

研究問題
deep research
文獻地圖 · Ch1
foundation model
預鬆弛初篩 · Ch5
DFT
少量、關鍵
微調 MLIP
Ch2–4
大規模取樣
分布 · Ch6
詮釋與寫作
知識庫 · Ch1
貴的方法(DFT)只用在關鍵處,便宜的方法(MLIP)負責量——「中間層」思維是整條工作流的靈魂。
AI 不是取代你的專業,是把你的 DFT 預算花在刀口上

常見誤解 先打掉,後面的章節才進得來

「AI 會取代計算化學家」工具鏈位移了。會用 MLIP 的人變多之後,懂得驗證 MLIP 的人才稀缺。
「MLIP 是新的理論層級」不是。它是 DFT 的廉價代理,上限就是訓練它的那套 DFT——含所有系統誤差。
「有 foundation model 就不用跑 DFT」Ch5 用官方文件打破:表面與吸附問題,不微調連定量都談不上。
「AI 給的引用可以直接用」引用只保證來源存在,不保證解讀正確。抽查原文永遠是你的責任。
工具會過期,判斷不會——查資料、查 license、查 benchmark、設計驗證,這套流程不過期

我學完後應該能說出什麼

  • 「文獻、勢能、管理是三層不同的 AI 工具,各自解決不同的痛,不能互相代打。」
  • 「MLIP 的速度接近古典力場、精度接近訓練它的 DFT——但只在訓練分布內。」
  • 「我的研究裡最值得先導入的是 ___ 層,因為我最大的瓶頸是 ___。」
下一章:讓 AI 幫你查文獻——deep research 的迴圈與 RAG(教材 ch00 / 練習 exercises/ch00.md)
從「會跑計算」到「會指揮一條工具鏈」——這門課的目標