AI FOR COMPUTATIONAL CHEMISTRY · CH 2

把 DFT 教給神經網路energy / force / stress 是閃卡，分割紀律是考場規則，外推是天險

從 DFT 到 MLIP——資料素養，不是深度學習數學

需要的是「很多個單點」 DFT 單點貴，研究要的是量

10⁶

一條像樣的 MD 需要的單點數

10⁴

HEA 位點掃描需要的構型數

10²

你的 DFT 預算（實話）

解法：訓練一個「便宜的 DFT 代理」——給座標，秒回能量和力，誤差小到不影響結論。
需要的不是 deep learning 數學，是資料素養。

標籤是什麼、訓練集怎麼設計、分割怎麼做、什麼時候不能信——本章四件事

訓練標籤＝DFT 三件套通用交換格式：extended XYZ（extxyz）

5
Lattice="10 0 0 0 10 0 0 0 10" Properties=species:S:1:pos:R:3:forces:R:3 energy=-21.7361 pbc="T T T"
Cu  0.000 0.000 0.000   0.012 -0.034  0.001
Cu  2.551 0.013 0.002  -0.041  0.022  0.000
...

VASP 每步 ionic step 都產生 energy（TOTEN）、forces、stress——它們就是訓練標籤
ASE 兩行轉檔：read("vasprun.xml", index="::10") → write("train.extxyz")（每 10 步抽一幀去相關）

訓練 MLIP ＝給學生看閃卡：正面是結構，背面是 DFT 的能量和力

力為什麼重要：算一筆帳訊號密度差 300 倍

100 原子構型的能量標籤

300

同一構型的力標籤（3N 分量）

15,000

50 個構型的力標籤總數

力直接告訴模型勢能面在每一點的坡度——老師不只給答案，還把解題過程畫給你看。
所以損失函數一定包含力：L ＝ w_E(E−Ê)² ＋ w_F Σ‖F_i−F̂_i‖²

所有現代 MLIP 都把力放進訓練目標——力是最划算的訓練訊號

訓練集設計：多樣性 > 數量

構型多樣性平衡附近＋偏離平衡（MD 快照、拉伸壓縮、缺陷）。只餵平衡構型 → 模型學不到勢能面的牆 → 偏軟（Ch5 的 softening 伏筆）。

取樣去相關AIMD 相鄰幀高度相似；等間隔抽勝過全塞，分層抽（按能量/特徵）更講究。

覆蓋你的問題要算吸附能，訓練集就要有 slab＋吸附質。沒有的話，再多 bulk 資料都是隔靴搔癢。

同一套 DFT 設定才能進同一個訓練集——functional、U 值、k 點不一致的能量混在一起＝閃卡答案來自不同版本的解答本。

一萬張幾乎一樣的閃卡，不如一千張多樣的

三份考卷的紀律 train / validation / test

資料集	用途	紀律
train	擬合模型參數	—
validation	選超參數（學習率、模型大小、正則化）	可以反覆看，但它因此「不再公正」
test	最終成績單	只能用一次；拿它調過參就污染了

進階考法：按組成分割（某組成只出現在 test）測組成外推；按溫度分割測構型外推
你想宣稱什麼能力，就設計什麼分割

論文裡報 test，而且只報一次——這是成績單可信的全部理由

外推：模型不會告訴你它在猜 interpolation vs extrapolation

×150

notebook 實測：訓練壓縮構型、
測拉伸構型的誤差放大倍數

訓練資料在特徵空間撐出「已知區」：裡面叫內插（通常可信），外面叫外推（誤差無保證）
典型分布外場景：表面、過渡態、新元素組合、極端溫壓
親手重現：notebooks/mace-minimal-demo.ipynb 第 6 節——分布內很準，分布外自信地錯

「用 bulk 訓練的模型拿去算表面」就是這種考法——記住這個 150 倍

Active learning：讓模型自己舉手不確定度引導的資料生產

目前的模型們
committee / ensemble

→

對同一構型預測
分歧大＝沒學好

→

送 DFT 標註

→

加回訓練集，重訓

↺

直覺：多台儀器交叉校驗，分歧大的樣品重測
實例：MatterSim 的 17M 筆訓練資料就是這種迴圈生出來的；MACE 內建 mace_active_learning_md

與其猜哪裡沒學好，不如讓模型告訴你——DFT 預算花在它最沒把握的地方

學習曲線：要準備多少資料？ ε ∝ N⁻ᵏ，log-log 上是直線

test 誤差隨訓練集大小近似冪次下降——用斜率回答「資料加倍能換到多少精度」
「要達到 0.05 eV/Å 還缺多少資料」——從曲線外插，不用猜
notebook 第 5 節：N 從 10 → 240，test RMSE 從 0.18 → 0.024（單調下降，親手畫）

第④步驗證不是儀式：沒有 hold-out 驗證的 MLIP 不能上生產

常見誤解

「R²=0.99 所以模型很好」那是分布內成績。換按組成/溫度分割再看一次，才知道它會不會你要它會的事。

「資料越多越好」先看覆蓋，再談數量。同質資料堆再多也學不到新環境。

「能量準，力自然準」力是能量的導數；小能量誤差可對應大力誤差，所以力要顯式放進 loss。

「val 跟 test 差不多」val 被你看過、做過選擇，成績天生偏樂觀。

力沒收斂（EDIFFG 太鬆）就拿去當標籤＝用有雜訊的答案教學生

我學完後應該能說出什麼

「MLIP 的標籤是 DFT 的 E/F/S；一個 N 原子構型有 3N 個力標籤，力是最划算的訊號。」
「train/val/test 三份考卷的角色，以及 test 只能用一次的理由。」
「外推風險在我研究的哪裡：表面、過渡態、新組成——我能用 notebook 重現那個 150 倍。」

下一章：神經網路到底怎麼「吃」一個結構——GNN 與 message passing（Ch3＋互動 demo）

資料素養是 MLIP 的入場券——架構是下一章的事