# Ch6 練習題：HEA 的 active-site distribution

> 概念 2 題＋實作 2 題。詳解在最後。

## 題目

**Q1（θ 手算）** 一個 10 位點的玩具表面，ΔG_H（eV）＝ {−0.31, −0.18, −0.09, −0.05, +0.02, +0.06, +0.11, +0.19, −0.44, +0.03}。
(a) w = 0.10 eV 時 θ_active = ?
(b) w = 0.05 eV 時 θ_active = ?
(c) 火山權重活性 A = (1/N)Σ exp(−|ΔG|/kT)，kT = 0.06 eV：不用全算，指出哪三個位點貢獻最大、哪兩個幾乎沒貢獻。

**Q2（為什麼是分布）** 用「局部成分效應」與「中央極限定理」兩個詞，寫 5 句話解釋：為什麼純金屬的 ΔG_H 是離散值、HEA 是連續分布？λ（demo 的局部混合強度滑桿）在這個解釋裡扮演什麼角色？

**Q3（驗證協議設計）** 為「微調 MACE 掃 HEA 位點」寫一份可放進 SI 的驗證協議（半頁），必須包含：hold-out 集怎麼抽（分層依據）、接受標準（RMSE 與 w 的關係）、分布尾巴的抽查規則、以及失敗時的處置。

**Q4（動手：bootstrap）** 跑 `notebooks/hea-adsorption-distribution-demo.ipynb` 第 3 節。
(a) 記錄 DFT(50) 與 MLIP(1600) 的 θ 與 95% CI 寬。
(b) 把 50 改成 200（多花四倍 DFT 預算），CI 寬縮到多少？值得嗎？
(c) 用 (a)(b) 寫三句「為什麼這條工作流需要 MLIP」——對審稿人口吻。

---

## 詳解

**A1**
(a) |ΔG| ≤ 0.10 的有：−0.09, −0.05, +0.02, +0.06, +0.03（5 個）→ θ = **5/10 = 50%**。（+0.11 超出 0.10，不算。）
(b) |ΔG| ≤ 0.05 的有：−0.05, +0.02, +0.03（3 個）→ θ = **30%**。
(c) 貢獻最大：+0.02, +0.03, −0.05（最靠近 0，exp(−|ΔG|/0.06) 最大）；幾乎沒貢獻：−0.44 與 −0.31（exp(−0.44/0.06) ≈ 7×10⁻⁴ 等級）。**活性由「離 0 最近的那群」決定，不是平均。**

**A2** 參考要點：純金屬每個位點的配位環境相同 → 一種位點一個 ΔG（離散）。HEA 的每個位點被隨機的元素組合包圍（局部成分效應），ΔG 變成「自身元素 + 鄰居組合」的函數；鄰居組合是多個隨機變數的和，當混合權重 λ 增大，多個近獨立貢獻相加 → 分布趨向高斯（中央極限定理）。λ 控制「離散峰 → 連續譜」的過渡：λ=0 退回五根尖峰，λ→1 趨向單一寬峰；真實體系介於中間。

**A3** 評分要點（合理即可）：
- hold-out 抽法：按「位點中心元素 × 局部 Mo/Cu 含量」分層抽 ~50 點，**不可**與微調集重疊。
- 接受標準：hold-out 吸附能 RMSE **< w（0.1 eV）的一半左右**（分類錯位率才壓得低）；force RMSE 另列。
- 尾巴規則：MLIP 掃描後，|ΔG| 最極端的前 1–2% 位點抽 10 個回 DFT；偏差 > 2×RMSE 即標記「尾巴不可信」。
- 失敗處置：把失敗區域的構型加入微調集（active learning 一輪），重訓重驗，不可「只調報告不調模型」。

**A4**
(a) notebook 預設種子：DFT(50) CI 寬 ≈ ±10% 級；MLIP(1600) ≈ ±2% 級（跑自己的為準）。
(b) CI 寬 ∝ 1/√N：50→200 約縮一半（仍遠寬於 1600 點）。四倍 DFT 預算買一半的 CI——通常**不值得**，這正是 MLIP 的論證空間。
(c) 參考口吻：「兩組成的 θ_active 差 4%；在 50 點 DFT 取樣下 95% CI 寬 ±10%，差異不可分辨；經微調並驗證的 MLIP（hold-out RMSE 0.04 eV）將取樣擴至 10³–10⁴ 位點，CI 收窄至 ±2%，差異具統計意義。」