---
tags: [chapter, ch00, motivation]
status: 完成
confidence: high
sources:
  - ../repo-analysis/comparison-table.md
last_updated: 2026-06-11
---

# Chapter 0：為什麼化學系需要 AI 研究工具？

> **一句話**：AI 在計算化學裡不是「一個工具」，而是**三層工具**——文獻層、勢能層、管理層——每一層解決的是不同的痛。分清楚層，你才知道該期待什麼、該提防什麼。

## 這章要解決的問題

先看三個你大概率親身經歷過的場景。

**場景一：文獻追不完。** 你做 HER 電催化，光是「high-entropy alloy electrocatalyst」這個關鍵字，近一年的新文獻就數以百計。你訂了 Google Scholar alert，結果是每週多收五十封沒空看的信。組會前一晚，你用兩小時「掃」了二十篇摘要，心裡很清楚這不叫文獻回顧，叫止痛。

**場景二：DFT 排不完。** 你的 HEA slab 模型一百多個原子，加上吸附質，一次結構優化在實驗室的節點上跑半天到一天。你想看的是「不同局部環境下的吸附能分布」——那是幾百個位點。一個一個算，這個題目要做到畢業後。至於 ab initio MD？一皮秒就是上千步電子自洽，連想都不用想。

**場景三：傳統力場靠不住。** 你想說那用古典 MD 吧——EAM 勢能庫裡根本沒有你那組五元合金的參數；ReaxFF 重新擬合是一個博士後等級的工程；就算有現成參數，對表面吸附這種電子效應主導的問題，精度也撐不起結論。

這三個痛**不是同一種痛**，所以也不該期待同一種藥。本課程把 AI 研究工具整理成三層：

| 層 | 解決的痛 | 代表工具 | 本課程章節 |
|---|---|---|---|
| **文獻／知識層** | 場景一：讀不完、記不住、查不到 | Local Deep Research（deep research + RAG） | Ch1 |
| **勢能層** | 場景二＋三：DFT 太慢、力場不準 | MACE、CHGNet、MatterSim（MLIP） | Ch2–Ch5 |
| **管理／應用層** | 把前兩層接到你的研究問題上 | 工作流設計、驗證紀律 | Ch6 |

![本課程的三層工具地圖](../../assets/three-layers.svg)

## 給化學系學生的直覺說法

**計算方法是一道「精度—成本」階梯。** 從古典力場、到 DFT、到 CCSD(T)，每往上一階，能量更可信，但能算的體系小好幾個數量級。過去三十年，這道階梯上有一個尷尬的空洞：**「接近 DFT 的精度、接近力場的速度」這一階一直是空的**。machine-learned interatomic potential（MLIP，機器學習勢能）補的就是這一階。

![精度—成本階梯：MLIP 補上中間那一階](../../assets/accuracy-cost-ladder.svg)

| 方法 | 典型可及體系 | 典型時間尺度 | 相對單點成本（數量級） | 參數哪裡來 |
|---|---|---|---|---|
| 古典力場（EAM/ReaxFF） | 10⁵–10⁸ 原子 | ns–μs | 1 | 人工對實驗/DFT 擬合 |
| **MLIP** | 10³–10⁶ 原子 | ps–ns | 10–10³ | **用 DFT 資料訓練** |
| DFT（GGA） | 10²–10³ 原子 | ~ps（AIMD） | 10⁶–10⁸ | 第一性原理 |
| CCSD(T) | 10–10² 原子 | 單點 | ≥10¹⁰ | 第一性原理 |

（表中數字是數量級示意，隨實作與硬體浮動；重點是相鄰階之間差了多少個零。）

**MLIP 像一個「背熟了幾百萬筆 DFT 結果的學生」。** 考古題範圍內（訓練資料覆蓋的化學環境），它答得又快又準；超出範圍（沒看過的元素組合、表面、極端構型），它會**一臉自信地亂答**——而且不會臉紅。這個類比會貫穿整門課：每次你想問「這個模型可不可以信」，先問「這題在不在它的考古題範圍裡」。這個範圍的正式名字叫**訓練分布（training distribution）**，是全課程最重要的一個概念。

**文獻層的工具也是同一個邏輯。** deep research 工具像一個「動作極快、但需要你驗收的文獻助理」：它能把「搜尋 → 略讀 → 順著引用再搜 → 整理出處」這個你熟悉的迴圈自動化，但它給的每一條引用，仍然需要你抽查原文——就像你不會不看 OUTCAR 就相信一個收斂結果。

## 核心概念

1. **三層工具，三種期待。** 文獻層幫你「知道」，勢能層幫你「算」，管理層幫你「把研究串起來」。把對 A 層的期待錯放到 B 層（例如要求聊天機器人給你可信的吸附能），是新手最常見的翻車方式。
2. **中間層思維。** MLIP 位於 DFT 與古典 MD 之間，deep research 位於你與文獻海之間。中間層的價值是「換檔」：貴的方法只用在關鍵處，便宜的方法負責量。
3. **訓練分布。** 所有資料驅動工具共同的可信度邊界。Ch2 會給它操作型定義，Ch5 會給你血淋淋的數字（分布外誤差可以差一個數量級），Ch6 教你在研究裡管理它。
4. **工具會過期，判斷不會。** 本課程教的四個 repo，兩年後可能都不是最新的（其中一個現在就已經是「經典」了）。但「查訓練資料、查 license、查 benchmark、設計驗證」這套判斷流程不會過期。

## 和 DFT / 材料 / 催化的關係

用一個貫穿全課程的數字感受一下為什麼這件事跟你有關。考慮一個五元等莫耳 HEA 的 fcc(111) 表面，一個 top 位點的第一配位圈大約有 9 個金屬原子（同層 6 個＋次層 3 個）。光是這 9 個位置的元素組合就有

$$5^9 \approx 2\times10^6$$

種局部環境（未做對稱約化）。每種局部環境給出的吸附能都不一樣——這就是 Ch6 要講的「**吸附能分布**」。你不可能用 DFT 把兩百萬種環境都算一遍，但你可以：用 DFT 算幾百個（訓練＋驗證）、用微調過的 MLIP 掃幾萬個（統計分布）、再用文獻層工具確認你的發現跟領域已知的圖像怎麼對話。**三層工具在同一個研究問題上各就各位**——這就是本課程最後一章的完整劇本。

## 最小數學

只需要一條 scaling 直覺。平面波 DFT 的成本大致隨體系大小三次方成長，MLIP 因為只依賴局部環境（Ch3 會講為什麼），成本近似線性：

$$\text{DFT：}\ O(N^3) \qquad \text{MLIP：}\ O(N)$$

把體系放大 10 倍：DFT 變慢約 1000 倍，MLIP 變慢約 10 倍。這兩條曲線的剪刀差，就是「為什麼 MLIP 不是錦上添花，而是讓某些題目從不可能變可能」的全部數學。

## 最小 code

本章沒有程式碼，只有一張你接下來十二週會反覆回看的工作流（Level 1 pseudo-code）：

```text
研究問題
 ├─ deep research：文獻地圖、方法選擇、避免重複造輪          ← Ch1
 ├─ foundation model：預鬆弛、初篩、產生候選構型              ← Ch5
 ├─ DFT：少量、關鍵、可驗證的計算（你原本的專業）
 ├─ 微調 MLIP：把 DFT 的精度「廉價複製」到大量構型            ← Ch2–Ch4
 ├─ 大規模取樣：位點掃描、MD、統計分布                        ← Ch6
 └─ 詮釋與寫作：知識庫輔助整理，引用一律抽查                  ← Ch1
```

## 常見誤解

- **「AI 會取代計算化學家。」** 工具鏈位移了，但「判斷哪個數字可信」的人變得更重要，不是更不重要。會用 MLIP 的人多了之後，懂得驗證 MLIP 的人才稀缺。
- **「MLIP 是一種新的理論層級。」** 不是。它是 DFT 的廉價代理（surrogate），上限就是訓練它的那套 DFT——包括那套 DFT 的所有系統誤差。
- **「有了 foundation model 就不用跑 DFT 了。」** Ch5 會用官方文件和 benchmark 數據打破這個想像：在表面與吸附問題上，不經微調的 foundation model 連定量都談不上。
- **「文獻工具給的引用可以直接放進論文。」** 引用只保證來源存在，不保證解讀正確。抽查原文永遠是你的責任。

## 小練習

1. 列出你目前研究中最花時間的三個步驟，分別標注它屬於文獻層、勢能層還是管理層，以及本課程哪一章可能幫上忙。寫成三行表。
2. 估算：用你實驗室實際的機器，對你自己的 slab 模型跑 10 ps 的 AIMD 要多久？（用你最近一次優化的單步 SCF 時間 × 步數外推。）然後查一下 MLIP 文獻中同等體系的 MD 速度，感受一下數量級差。

## 延伸閱讀

- [comparison-table.md](../repo-analysis/comparison-table.md)：四個工具的一頁地圖與 2026 年 leaderboard 快照
- Batatia et al., "A foundation model for atomistic materials chemistry", *J. Chem. Phys.* **163**, 184110 (2025)：MACE-MP-0 論文的 Introduction，是「foundation model 時代」最好的官方論述

## 我學完後應該能說出什麼

- 「文獻、勢能、管理是三層不同的 AI 工具，各自解決不同的痛，不能互相代打。」
- 「MLIP 的速度接近古典力場、精度接近訓練它的 DFT——但只在訓練分布內。」
- 「我的研究裡最值得先導入的是 ___ 層，因為我最大的瓶頸是 ___。」（自己填空，並能講出理由。）

---

### 本章配套

- 投影片：[`slides/ch00-why-ai.html`](../../slides/ch00-why-ai.html)
- 圖解：[`assets/three-layers.svg`](../../assets/three-layers.svg)、[`assets/accuracy-cost-ladder.svg`](../../assets/accuracy-cost-ladder.svg)
- 練習題（含詳解）：[`exercises/ch00.md`](../../exercises/ch00.md)
