AI FOR COMPUTATIONAL CHEMISTRY · CH 0
三個痛,三層解法
為什麼化學系需要 AI 研究工具——文獻層、勢能層、管理層
化學系研究生的 AI for Computational Chemistry 入門
先承認三個痛
它們不是同一種痛,所以不該期待同一種藥
文獻追不完
HER/HEA 關鍵字一年數百篇。組會前用兩小時「掃」二十篇摘要——那不叫回顧,叫止痛。
DFT 排不完
百原子 slab 一次優化半天起跳。「不同位點的吸附能分布」=幾百次優化=畢業以後的事。
傳統力場靠不住
EAM 沒有你的五元參數;ReaxFF 重擬合是博士後等級工程;表面吸附的精度撐不起結論。
三種痛分屬三層——分清楚層,才知道該期待什麼、提防什麼
三層工具地圖
本課程的全部骨架,一張圖
文獻層幫你「知道」,勢能層幫你「算」,管理層把研究串起來
精度—成本階梯
MLIP(machine-learned interatomic potential)補上空了三十年的一階
接近 DFT 的精度 × 接近力場的速度——條件:訓練分布內
把數量級背起來
相鄰階之間差幾個零,決定哪些題目可做
方法
典型可及體系
時間尺度
相對單點成本
參數來源
古典力場(EAM / ReaxFF)
10⁵–10⁸ 原子
ns–μs
1
人工擬合
MLIP(本課程)
10³–10⁶ 原子
ps–ns
10–10³
DFT 資料訓練
DFT(GGA)
10²–10³ 原子
~ps(AIMD)
10⁶–10⁸
第一性原理
CCSD(T)
10–10² 原子
單點
≥10¹⁰
第一性原理
數量級示意,隨實作與硬體浮動;重點是相鄰階的差距
體系放大 10 倍:DFT 慢 ~1000 倍(O(N³)),MLIP 慢 ~10 倍(O(N))
全課程最重要的概念:訓練分布
training distribution
MLIP 像一個「背熟幾百萬筆 DFT 結果的學生」:
考古題範圍內又快又準;超出範圍——
一臉自信地亂答,而且不臉紅
。
「這個模型可不可以信?」永遠先問:「
這題在不在它的考古題範圍裡?
」
Ch2 給它操作型定義;Ch5 給你血淋淋的數字(分布外誤差可差一個數量級);Ch6 教你在研究裡管理它
每章都會回到這個概念——它是所有資料驅動工具共同的可信度邊界
為什麼跟你有關:HEA 的組態爆炸
high-entropy alloy(高熵合金)
5⁹ ≈ 2×10⁶
五元 HEA fcc(111) 一個 top 位點
第一配位圈(9 原子)的元素組合數
~10²
你的 DFT 預算
實際算得起的位點數
每種局部環境的吸附能都不同 → ΔG
H
是一個
分布
,不是一個數
解法(Ch6 完整劇本):DFT 算幾百個(訓練+驗證)→ 微調 MLIP 掃幾萬個(統計分布)
三層工具在同一個研究問題上各就各位——這是本課程最後一章的劇本
現代計算化學工作流
接下來十二週你會反覆回看這張圖
研究問題
→
deep research
文獻地圖 · Ch1
→
foundation model
預鬆弛初篩 · Ch5
→
DFT
少量、關鍵
→
微調 MLIP
Ch2–4
→
大規模取樣
分布 · Ch6
→
詮釋與寫作
知識庫 · Ch1
貴的方法(DFT)只用在關鍵處,便宜的方法(MLIP)負責量——「中間層」思維是整條工作流的靈魂。
AI 不是取代你的專業,是把你的 DFT 預算花在刀口上
常見誤解
先打掉,後面的章節才進得來
「AI 會取代計算化學家」
工具鏈位移了。會用 MLIP 的人變多之後,
懂得驗證 MLIP 的人
才稀缺。
「MLIP 是新的理論層級」
不是。它是 DFT 的廉價代理,上限就是訓練它的那套 DFT——含所有系統誤差。
「有 foundation model 就不用跑 DFT」
Ch5 用官方文件打破:表面與吸附問題,不微調連定量都談不上。
「AI 給的引用可以直接用」
引用只保證來源存在,不保證解讀正確。抽查原文永遠是你的責任。
工具會過期,判斷不會——查資料、查 license、查 benchmark、設計驗證,這套流程不過期
我學完後應該能說出什麼
「文獻、勢能、管理是
三層不同的 AI 工具
,各自解決不同的痛,不能互相代打。」
「MLIP 的速度接近古典力場、精度接近訓練它的 DFT——
但只在訓練分布內
。」
「我的研究裡最值得先導入的是 ___ 層,因為我最大的瓶頸是 ___。」
下一章:讓 AI 幫你查文獻——deep research 的迴圈與 RAG(教材 ch00 / 練習 exercises/ch00.md)
從「會跑計算」到「會指揮一條工具鏈」——這門課的目標