AI FOR COMPUTATIONAL CHEMISTRY · CH 6 · 研究應用
從一個描述符,到一群位點
高熵合金(HEA)的 active-site distribution——前六章所有工具的集合演出
HEA surface → DFT sampling → ΔG 分布 → near-optimal population → MLIP 加速 → microkinetic
範式轉移:HEA 把捷徑拆了
純金屬時代
一個表面 ≈ 一種位點 ≈ 一個 ΔG
H
。往火山圖一放,
一點定生死
。Sabatier:ΔG
H
≈ 0 最好——吸太強下不來,吸太弱上不去。
HEA 時代
五種元素隨機佔位:同一表面上
每個位點的局部環境都不同
。一個 top 位點的第一配位圈就有
5⁹ ≈ 2×10⁶
種組合。ΔG
H
不再是一個數,是一個
分布
。
研究問題從「ΔG
H
是多少」變成「
分布長什麼樣、落在活性窗口內的位點佔多少
」。
純金屬像全班同一個人;HEA 像一整班個性各異的學生——表現由「剛好擅長這份考卷的那群人」決定
整章就是這條鏈
研究工作流主軸
HEA surface
隨機佔位 / SQS
→
DFT sampling
幾十~幾百位點
→
ΔG
H
分布
直方圖
→
θ_active
|ΔG|≤w 的比例
→
MLIP 加速
×100 統計力
→
microkinetic
組成→活性
DFT 的兩個角色:MLIP 的
微調資料
+最終驗證的
hold-out 基準
抽樣設計(Ch2 的語言):按位點中心元素、局部組成
分層抽
,比純隨機更快覆蓋分布兩翼
每一站的工具,前五章都教過了——這章只是把它們接起來
分布從哪來:「你跟誰坐」
局部成分效應
同樣是 Ni 位點,旁邊站 Mo 還是 Cu,ΔG
H
可差零點幾 eV
玩具模型(教學 mock,
非 DFT
):
ΔG(site) = (1−λ)·ε(自身) + λ·⟨ε(鄰居)⟩ + 雜訊
λ=0 → 五根純金屬尖峰;λ→1 → 鄰居平均、趨向單一高斯(中央極限定理在表面上的演出)
真實 HEA 介於中間——
連續的「能譜」就是 HEA 可調活性的來源
d-band 語言沒有死
descriptor 從「預測單點」轉職成「解釋分布形狀」:為什麼 Mo 鄰居把 Ni 位點拉向強吸附?d-band 仍是最好的說法。
局部成分效應把離散峰抹成連續譜——這是 demo 裡你親手拉 λ 滑桿會看到的
θ_active:新的設計目標
near-optimal active-site population
θ
active
= N(|ΔG
H
| ≤ w) ⁄ N
total
窗口寬 w 來自火山圖頂點附近的曲率:|ΔG
H
| 在 0.1–0.2 eV 內的位點,對交換電流的貢獻仍在峰值同一量級 →
w = 0.1 eV 是常見而可辯護的選擇
但 θ_active 對 w
敏感
——誠實做法:報告 θ_active(w) 對幾個 w 值的結果
調組成 = 平移/變形分布 = 最大化窗口內的族群
活性 ≠ 只看平均:平均在窗外、但有一群位點剛好在窗內的組成,也可能很活
動手:互動 demo 操作劇本
interactive/hea-active-site-distribution.html
等莫耳 FeCoNiCuMo 起手——看 θ_active 基準值與直方圖形狀(綠帶=近最適窗口)
把
Cu 拉到 50%
——弱吸附的 Cu 稀釋強吸附的 Mo/Fe,分布右移穿過零點,θ_active 先升後降
把窗口寬 w 從 0.10 調到 0.05 eV——
最適組成會變
(分布形狀 vs 窗口寬的交互)
按「重新隨機佈點」幾次——同組成不同佔位下 θ 的漲落=統計不確定度(下一頁量化它)
ε 為教學示意值、頁面內可調;實際研究體系確定後 10 分鐘換預設
分布思維不用課本教——滑桿拉三次就內化了
MLIP 買到的是什麼:統計上站得住的分布
bootstrap,notebook 實算
±10%+
DFT 預算(50 位點)
θ_active 的 95% CI 寬
±2%
MLIP 掃描(1600 位點)
同一個 θ 的 CI 寬
50 點的信賴區間寬到
無法比較兩個相近組成
;MLIP 的大樣本把它縮到能做設計決策
對審稿人最有力的說法:MLIP 買到的不是「更快」,是「
統計上站得住的分布
」
notebooks/hea-adsorption-distribution-demo.ipynb:bootstrap 兩條 CI 並排畫給你看
微調是入場券
Ch5 的證據在這裡生效
自家 HEA slab DFT
含 forces → extxyz
→
mace_run_train
--foundation_model=medium-mpa-0
--multiheads_finetuning=True
→
hold-out 驗證
吸附能 RMSE < 0.05–0.1 eV
→
掃幾萬位點
為什麼不能 zero-shot?bulk 訓練的模型對表面系統性
偏軟
,0.2 eV 級的分布外誤差會把 0.1 eV 寬的窗口整個淹掉。驗證 RMSE 必須
小於窗口寬
,否則分類錯位。
分布尾巴(極強/極弱位點)是外推高風險區——回 DFT 抽查,再興奮
單位與參考系紀律
全章的能量都站在這三條上
CHE 近似
:ΔG
H
= ΔE
H
+ ΔZPE − TΔS ≈ ΔE
H
+ 0.24 eV(你的體系該用自己算的 ZPE)
吸附能定義
:E
ads
= E(slab+H) − E(slab) − ½E(H₂)——三項
同一套 DFT 設定
,微調資料也是同一套;任何一環換設定,分布整體平移,θ 就是錯的
電位
:0 V vs RHE 的 CHE 框架;外加電位 ΔG(U) = ΔG − eU
microkinetic 最小橋:j₀ ∝ Σ
sites
e
−|ΔG
i
|/k
B
T
(把單點火山圖「分布化」)
忽略了覆蓋度與側向作用——它是詮釋的起點,不是終點
常見誤解
「平均組成決定活性」
同組成的位點彼此可差 0.5 eV——只看平均=只看那個虛構的「平均學生」。
「分布算出來就是真的」
定量分布的前提:微調+hold-out RMSE < 窗口寬。沒過這關的分布是裝飾品。
「θ_active 越大越好,沒有但書」
但書三條:位點可及性(毒化/覆蓋)、穩定性(偏析、溶解)、覆蓋度效應改變 ΔG 本身。
「MLIP 掃出的極端位點最令人興奮」
也最可能是外推假象。先 DFT 抽查,再興奮。
θ_active 是設計羅盤,不是保證書
我學完後應該能說出什麼
「為什麼 HEA 要用
population 思維
取代單一描述符——以及那個 5⁹。」
「θ_active 怎麼定義、對 w 敏感、組成怎麼改變它;MLIP 買到的是
統計上站得住的分布
。」
「DFT 抽樣 → 微調 → 驗證 → 大規模掃描的閉環,與每一站的驗證點——
微調是入場券,尾巴要抽查
。」
這一章就是你的研究——工具各就各位,剩下的是你的化學
全課程收尾:三層工具,一條紀律
文獻層幫你知道,勢能層幫你算,管理層把它們接到研究上。
工具會過期,「查資料、查 license、查 benchmark、設計驗證」的判斷不會。
從「會跑計算」到「會指揮一條工具鏈」——課程結束,研究開始