AI FOR COMPUTATIONAL CHEMISTRY · CH 6 · 研究應用

從一個描述符，到一群位點高熵合金（HEA）的 active-site distribution——前六章所有工具的集合演出

HEA surface → DFT sampling → ΔG 分布 → near-optimal population → MLIP 加速 → microkinetic

範式轉移：HEA 把捷徑拆了

純金屬時代一個表面 ≈ 一種位點 ≈ 一個 ΔG_H。往火山圖一放，一點定生死。Sabatier：ΔG_H ≈ 0 最好——吸太強下不來，吸太弱上不去。

HEA 時代五種元素隨機佔位：同一表面上每個位點的局部環境都不同。一個 top 位點的第一配位圈就有 5⁹ ≈ 2×10⁶ 種組合。ΔG_H 不再是一個數，是一個分布。

研究問題從「ΔG_H 是多少」變成「分布長什麼樣、落在活性窗口內的位點佔多少」。

純金屬像全班同一個人；HEA 像一整班個性各異的學生——表現由「剛好擅長這份考卷的那群人」決定

整章就是這條鏈研究工作流主軸

HEA surface
隨機佔位 / SQS

→

DFT sampling
幾十~幾百位點

→

ΔG_H 分布
直方圖

→

θ_active
|ΔG|≤w 的比例

→

MLIP 加速
×100 統計力

→

microkinetic
組成→活性

DFT 的兩個角色：MLIP 的微調資料＋最終驗證的 hold-out 基準
抽樣設計（Ch2 的語言）：按位點中心元素、局部組成分層抽，比純隨機更快覆蓋分布兩翼

每一站的工具，前五章都教過了——這章只是把它們接起來

分布從哪來：「你跟誰坐」局部成分效應

同樣是 Ni 位點，旁邊站 Mo 還是 Cu，ΔG_H 可差零點幾 eV
玩具模型（教學 mock，非 DFT）：ΔG(site) ＝ (1−λ)·ε(自身) ＋ λ·⟨ε(鄰居)⟩ ＋雜訊
λ=0 → 五根純金屬尖峰；λ→1 → 鄰居平均、趨向單一高斯（中央極限定理在表面上的演出）
真實 HEA 介於中間——連續的「能譜」就是 HEA 可調活性的來源

d-band 語言沒有死descriptor 從「預測單點」轉職成「解釋分布形狀」：為什麼 Mo 鄰居把 Ni 位點拉向強吸附？d-band 仍是最好的說法。

局部成分效應把離散峰抹成連續譜——這是 demo 裡你親手拉 λ 滑桿會看到的

θ_active：新的設計目標 near-optimal active-site population

θ_active ＝ N(|ΔG_H| ≤ w) ⁄ N_total

窗口寬 w 來自火山圖頂點附近的曲率：|ΔG_H| 在 0.1–0.2 eV 內的位點，對交換電流的貢獻仍在峰值同一量級 → w ＝ 0.1 eV 是常見而可辯護的選擇
但 θ_active 對 w 敏感——誠實做法：報告 θ_active(w) 對幾個 w 值的結果
調組成＝平移／變形分布＝最大化窗口內的族群

活性 ≠ 只看平均：平均在窗外、但有一群位點剛好在窗內的組成，也可能很活

動手：互動 demo 操作劇本 interactive/hea-active-site-distribution.html

等莫耳 FeCoNiCuMo 起手——看 θ_active 基準值與直方圖形狀（綠帶＝近最適窗口）

把 Cu 拉到 50%——弱吸附的 Cu 稀釋強吸附的 Mo/Fe，分布右移穿過零點，θ_active 先升後降

把窗口寬 w 從 0.10 調到 0.05 eV——最適組成會變（分布形狀 vs 窗口寬的交互）

按「重新隨機佈點」幾次——同組成不同佔位下 θ 的漲落＝統計不確定度（下一頁量化它）

ε 為教學示意值、頁面內可調；實際研究體系確定後 10 分鐘換預設

分布思維不用課本教——滑桿拉三次就內化了

MLIP 買到的是什麼：統計上站得住的分布 bootstrap，notebook 實算

±10%+

DFT 預算（50 位點）
θ_active 的 95% CI 寬

±2%

MLIP 掃描（1600 位點）
同一個 θ 的 CI 寬

50 點的信賴區間寬到無法比較兩個相近組成；MLIP 的大樣本把它縮到能做設計決策
對審稿人最有力的說法：MLIP 買到的不是「更快」，是「統計上站得住的分布」

notebooks/hea-adsorption-distribution-demo.ipynb：bootstrap 兩條 CI 並排畫給你看

微調是入場券 Ch5 的證據在這裡生效

自家 HEA slab DFT
含 forces → extxyz

→

mace_run_train
--foundation_model=medium-mpa-0
--multiheads_finetuning=True

→

hold-out 驗證
吸附能 RMSE < 0.05–0.1 eV

→

掃幾萬位點

為什麼不能 zero-shot？bulk 訓練的模型對表面系統性偏軟，0.2 eV 級的分布外誤差會把 0.1 eV 寬的窗口整個淹掉。驗證 RMSE 必須小於窗口寬，否則分類錯位。

分布尾巴（極強/極弱位點）是外推高風險區——回 DFT 抽查，再興奮

單位與參考系紀律全章的能量都站在這三條上

CHE 近似：ΔG_H ＝ ΔE_H ＋ ΔZPE − TΔS ≈ ΔE_H ＋ 0.24 eV（你的體系該用自己算的 ZPE）
吸附能定義：E_ads ＝ E(slab+H) − E(slab) − ½E(H₂)——三項同一套 DFT 設定，微調資料也是同一套；任何一環換設定，分布整體平移，θ 就是錯的
電位：0 V vs RHE 的 CHE 框架；外加電位 ΔG(U) ＝ ΔG − eU

microkinetic 最小橋：j₀ ∝ Σ_sites e^{−|ΔG_i|/k_BT}（把單點火山圖「分布化」）

忽略了覆蓋度與側向作用——它是詮釋的起點，不是終點

常見誤解

「平均組成決定活性」同組成的位點彼此可差 0.5 eV——只看平均＝只看那個虛構的「平均學生」。

「分布算出來就是真的」定量分布的前提：微調＋hold-out RMSE < 窗口寬。沒過這關的分布是裝飾品。

「θ_active 越大越好，沒有但書」但書三條：位點可及性（毒化/覆蓋）、穩定性（偏析、溶解）、覆蓋度效應改變 ΔG 本身。

「MLIP 掃出的極端位點最令人興奮」也最可能是外推假象。先 DFT 抽查，再興奮。

θ_active 是設計羅盤，不是保證書

我學完後應該能說出什麼

「為什麼 HEA 要用 population 思維取代單一描述符——以及那個 5⁹。」
「θ_active 怎麼定義、對 w 敏感、組成怎麼改變它；MLIP 買到的是統計上站得住的分布。」
「DFT 抽樣 → 微調 → 驗證 → 大規模掃描的閉環，與每一站的驗證點——微調是入場券，尾巴要抽查。」

這一章就是你的研究——工具各就各位，剩下的是你的化學

全課程收尾：三層工具，一條紀律

文獻層幫你知道，勢能層幫你算，管理層把它們接到研究上。
工具會過期，「查資料、查 license、查 benchmark、設計驗證」的判斷不會。

從「會跑計算」到「會指揮一條工具鏈」——課程結束，研究開始