AI FOR COMPUTATIONAL CHEMISTRY · CH 2

把 DFT 教給神經網路energy / force / stress 是閃卡,分割紀律是考場規則,外推是天險

從 DFT 到 MLIP——資料素養,不是深度學習數學

需要的是「很多個單點」 DFT 單點貴,研究要的是量

10⁶
一條像樣的 MD 需要的單點數
10⁴
HEA 位點掃描需要的構型數
10²
你的 DFT 預算(實話)
解法:訓練一個「便宜的 DFT 代理」——給座標,秒回能量和力,誤差小到不影響結論。
需要的不是 deep learning 數學,是資料素養
標籤是什麼、訓練集怎麼設計、分割怎麼做、什麼時候不能信——本章四件事

訓練標籤=DFT 三件套 通用交換格式:extended XYZ(extxyz)

5
Lattice="10 0 0 0 10 0 0 0 10" Properties=species:S:1:pos:R:3:forces:R:3 energy=-21.7361 pbc="T T T"
Cu  0.000 0.000 0.000   0.012 -0.034  0.001
Cu  2.551 0.013 0.002  -0.041  0.022  0.000
...
  • VASP 每步 ionic step 都產生 energy(TOTEN)、forces、stress——它們就是訓練標籤
  • ASE 兩行轉檔:read("vasprun.xml", index="::10")write("train.extxyz")(每 10 步抽一幀去相關)
訓練 MLIP = 給學生看閃卡:正面是結構,背面是 DFT 的能量和力

力為什麼重要:算一筆帳 訊號密度差 300 倍

1
100 原子構型的能量標籤
300
同一構型的力標籤(3N 分量)
15,000
50 個構型的力標籤總數
力直接告訴模型勢能面在每一點的坡度——老師不只給答案,還把解題過程畫給你看。
所以損失函數一定包含力:L = wE(E−Ê)² + wF Σ‖Fi−F̂i‖²
所有現代 MLIP 都把力放進訓練目標——力是最划算的訓練訊號

訓練集設計:多樣性 > 數量

構型多樣性平衡附近+偏離平衡(MD 快照、拉伸壓縮、缺陷)。只餵平衡構型 → 模型學不到勢能面的牆 → 偏軟(Ch5 的 softening 伏筆)。
取樣去相關AIMD 相鄰幀高度相似;等間隔抽勝過全塞,分層抽(按能量/特徵)更講究。
覆蓋你的問題要算吸附能,訓練集就要有 slab+吸附質。沒有的話,再多 bulk 資料都是隔靴搔癢。
同一套 DFT 設定才能進同一個訓練集——functional、U 值、k 點不一致的能量混在一起=閃卡答案來自不同版本的解答本。
一萬張幾乎一樣的閃卡,不如一千張多樣的

三份考卷的紀律 train / validation / test

資料集用途紀律
train擬合模型參數
validation選超參數(學習率、模型大小、正則化)可以反覆看,但它因此「不再公正」
test最終成績單只能用一次;拿它調過參就污染了
  • 進階考法:按組成分割(某組成只出現在 test)測組成外推;按溫度分割測構型外推
  • 你想宣稱什麼能力,就設計什麼分割
論文裡報 test,而且只報一次——這是成績單可信的全部理由

外推:模型不會告訴你它在猜 interpolation vs extrapolation

×150
notebook 實測:訓練壓縮構型、
測拉伸構型的誤差放大倍數
  • 訓練資料在特徵空間撐出「已知區」:裡面叫內插(通常可信),外面叫外推(誤差無保證
  • 典型分布外場景:表面、過渡態、新元素組合、極端溫壓
  • 親手重現:notebooks/mace-minimal-demo.ipynb 第 6 節——分布內很準,分布外自信地錯
「用 bulk 訓練的模型拿去算表面」就是這種考法——記住這個 150 倍

Active learning:讓模型自己舉手 不確定度引導的資料生產

目前的模型們
committee / ensemble
對同一構型預測
分歧大=沒學好
送 DFT 標註
加回訓練集,重訓
  • 直覺:多台儀器交叉校驗,分歧大的樣品重測
  • 實例:MatterSim 的 17M 筆訓練資料就是這種迴圈生出來的;MACE 內建 mace_active_learning_md
與其猜哪裡沒學好,不如讓模型告訴你——DFT 預算花在它最沒把握的地方

學習曲線:要準備多少資料? ε ∝ N⁻ᵏ,log-log 上是直線

  • test 誤差隨訓練集大小近似冪次下降——用斜率回答「資料加倍能換到多少精度」
  • 「要達到 0.05 eV/Å 還缺多少資料」——從曲線外插,不用猜
  • notebook 第 5 節:N 從 10 → 240,test RMSE 從 0.18 → 0.024(單調下降,親手畫)
MLIP 工作流
第④步驗證不是儀式:沒有 hold-out 驗證的 MLIP 不能上生產

常見誤解

「R²=0.99 所以模型很好」那是分布內成績。換按組成/溫度分割再看一次,才知道它會不會你要它會的事。
「資料越多越好」先看覆蓋,再談數量。同質資料堆再多也學不到新環境。
「能量準,力自然準」力是能量的導數;小能量誤差可對應大力誤差,所以力要顯式放進 loss。
「val 跟 test 差不多」val 被你看過、做過選擇,成績天生偏樂觀。
力沒收斂(EDIFFG 太鬆)就拿去當標籤=用有雜訊的答案教學生

我學完後應該能說出什麼

  • 「MLIP 的標籤是 DFT 的 E/F/S;一個 N 原子構型有 3N 個力標籤,力是最划算的訊號。」
  • 「train/val/test 三份考卷的角色,以及 test 只能用一次的理由。」
  • 「外推風險在我研究的哪裡:表面、過渡態、新組成——我能用 notebook 重現那個 150 倍。」
下一章:神經網路到底怎麼「吃」一個結構——GNN 與 message passing(Ch3+互動 demo)
資料素養是 MLIP 的入場券——架構是下一章的事