AI FOR COMPUTATIONAL CHEMISTRY · CH 5

能與不能：foundation model 的邊界CHGNet / MatterSim——bulk 拿來就用，表面是危險區；這章教判斷框架，不教工具

zero-shot / fine-tune / active learning・softening・leaderboard 與 license 素養

三個檔位投入成本遞增，可信度遞增

檔位	做法	類比
zero-shot	下載權重直接用	直接考它
fine-tune	用你的少量 DFT 資料再訓練	給它補習你的體系
active learning	模型標出沒把握的構型 → 送 DFT → 迭代	它自己畫重點，你出考題

foundation model ＝讀完整個 Materials Project 的學生：考古題答得又快又好；
超綱題（你的 HEA 表面）它也會作答——用一樣自信的表情。

「能算」與「可信」之間，隔著一整章的距離

兩位代表選手的個性

	CHGNet（Ceder Group / LBNL）	MatterSim v1 開源版（Microsoft）
訓練資料	MPtrj：158 萬結構，全部來自 MP 的 bulk 鬆弛軌跡（PBE+U）	~1700 萬結構，0–5000 K、0–1000 GPa（PBE）
預測量	E / F / S / magmom（獨家）	E / F / S
參數量	~41 萬	88 萬（1M）／450 萬（5M）
強項	看價態（Mn³⁺ vs Mn⁴⁺）、MAGMOM 初猜、安裝門檻全場最低	溫壓覆蓋、phonon 工作流、批次篩選
注意	repo 已 legacy（遷移到 MatGL）	無 Windows wheel；Python ≥3.12 → WSL2/Colab

CHGNet 教「magmom 的化學」，MatterSim 教「foundation model 的雄心與邊界」

一張圖就是結論：誤差量級對照數字皆官方文件實測（MODEL_CARD）

0.03

分布內 MAE
（eV/atom）

0.1

火山圖上要分辨的
活性差（eV）

0.2

分布外 MAE
（MatterSim Random-TP 實測）

分布外誤差（0.2）大於你要分辨的訊號（0.1）→ zero-shot 吸附能讀不出火山圖的結構。

「在哪裡可信」比「多準」重要——同一個模型，分布內外差一個數量級

Softening：牆壁是怎麼塌的 Deng et al., npj Comput. Mater. 11, 9 (2025)

機制：MPtrj 是「鬆弛軌跡的快照」——樣本擠在能量谷底；勢能面的牆壁沒人教過它
後果：表面能、缺陷形成能、遷移能障、高能構型一致性低估（勢能面偏軟）
加重警訊：80-MLIP 異相催化 benchmark——磁性體系災難性失敗；模型自己 relax 再算比 single-point 誤差更大

親手重現（notebooks/pretrained-model-concept-demo.ipynb）只用近平衡樣本訓練 1D Morse：谷底誤差 0.000、斥力牆 0.138、解離區 0.634 eV——而且模型畫得很平滑、看起來毫無異狀。

偏軟的模型不會報錯——它輸出一條漂亮但塌掉的勢能面

安全用法 SOP 直接背，貼在螢幕邊

✓ 安全DFT 前 pre-relaxation・bulk 形成能初篩・MD 退火生成候選構型・CHGNet 給 spin-polarized VASP 的 MAGMOM 初猜

△ 定性可、定量不可表面能、吸附能、能障的 zero-shot 數值——只能排序初篩，不能進論文

✗ 不要做zero-shot 吸附能畫 HER/OER 火山圖・電化學界面（電位、溶劑、帶電 slab）・磁性氧化物界面不經驗證直接用

離 bulk 平衡態越遠越危險：表面 > 缺陷 > 過渡態；磁性與電化學界面加倍

Leaderboard 素養 Matbench Discovery，2026-06 快照

看兩個指標：F1（找出穩定材料的能力）、κ_SRME（聲子/熱導品質）
快照：前段班幾乎全是 OAM 配方（OMat24+sAlex+MPTrj）；MatterSim-5M #22、MACE-MPA-0 #24、CHGNet #44／47
CHGNet 排 #44 為什麼還教？概念原型不過期（charge-informed、MPtrj 偏差結構）；而它從 2023 SOTA 到 2026 後段班——這件事本身就是教材

這個領域三個月洗一次牌。背榜單沒有用，要學的是查榜單。

拿到新模型先查三件事：訓練資料、license、離你體系最近的 benchmark

License 速查學生實務最常踩的雷

可商用	學術限定（ASL）	有條件
MACE-MPA-0（MIT）・MatterSim（MIT）・CHGNet（BSD）・Orb-v3（Apache-2.0）	MACE-OMAT / OFF / MH・GRACE	UMA：可商用但 gated＋地區排除・SevenNet：GPL-3.0

code 的 license 不等於權重的 license——MACE repo 是 MIT，但你下載的某些模型權重是 ASL。

產學合作案：先查權重 license，再簽約

最小 code 五行 CHGNet・三行 MatterSim

# CHGNet：權重隨套件內建，CPU 可跑，離線可用
from chgnet.model import CHGNet
from pymatgen.core import Structure
model = CHGNet.load()
print(model.predict_structure(Structure.from_file("LiMnO2.cif")))  # e/f/s/magmom

# MatterSim：標準 ASE calculator（WSL2 / Colab；Python >= 3.12）
from mattersim.forcefield import MatterSimCalculator
from ase.build import bulk
atoms = bulk("Si"); atoms.calc = MatterSimCalculator()
print(atoms.get_potential_energy())

Level 3：CHGNet examples/basics.ipynb（Colab 徽章）、parse_vasp_dir()；MatterSim docs/examples/、finetune_mattersim.py

動手任務：用 CHGNet relax 一個你算過的結構，跟你的 VASP 比鍵長/體積

常見誤解

「榜首＝對我的體系最好」榜測的是 bulk 穩定性篩選與聲子，不是你的表面吸附。

「MAE 30 meV/atom＝吸附能誤差 30 meV」那是分布內的每原子指標；吸附能是分布外的能量差。

「CHGNet 過時了不用學」工具過時，概念不過期——它是你判斷下一代模型的座標系。

「fine-tune 一定變好」functional 不對齊、AtomRef/E0s 沒重擬合的微調，把模型拉到錯的參考系——更糟。

理論層級繼承：模型＝訓練它的 functional 的代理，PBE 的毛病照單全收

我學完後應該能說出什麼

「foundation model 的能力邊界由訓練資料決定；我能各舉三個安全與危險用法。」
「softening 是什麼、為什麼發生、對吸附能與火山圖意味著什麼。」
「拿到新模型先查三件事：訓練資料、license、離我體系最近的 benchmark。」

下一章：把全部工具接到你的研究上——HEA 的 active-site distribution（Ch6）

判斷框架不過期——工具留給版本號去煩惱