從序列到功能：MD × AlphaFold × ESM 預測蛋白

0導讀：為什麼要把 MD 和 AI 模型綁在一起

背景與動機

傳統的蛋白質結構預測模型（AlphaFold、RoseTTAFold、ESM 系列）主要針對序列與靜態結構訓練，能給出高精度的三維結構，但缺乏動態特性。對於內在無序區域、或缺乏同源序列的蛋白，它們在預測突變效應與功能上能力有限。

另一方面，分子動力學（Molecular Dynamics, MD）能從物理力場出發，描述構象變化、鍵結斷裂與側鏈運動，是捕捉蛋白動態的關鍵工具。把 MD 與深度學習模型結合，研究者既能享有 AI 模型的效率，又能補足靜態結構的盲點——尤其適用於預測突變對穩定性與結合親和力的影響。

#AlphaFold#ESM#Molecular Dynamics #Protein–DNA#Mutation Effect#IDP

1為什麼 AlphaFold 還不夠？

一句話：蛋白質不是雕像，它會動

AlphaFold 給你的是一張凍結的高解析快照——精準，但靜止。真實的蛋白質會擺動 loop、轉動側鏈、在結合 DNA 時局部變形。這些動態正是決定功能、酵素活性、以及突變後果的關鍵，而靜態結構看不到。MD 補上的就是這層「會動的構象集合」。

Static AlphaFold structure vs dynamic MD ensemble — **圖 1.** 左：AlphaFold 的單一靜態結構（像高解析雕像）；右：同一蛋白在 MD 下的動態集合，loop 擺動、側鏈轉動、與 DNA 接觸區柔性變化。

2三大方法如何互補

AlphaFold · ESM · MD 各補一塊拼圖

三種方法各自提供不同層次的資訊，最後匯聚到同一個問題上——蛋白–DNA 結合與突變效應：

AlphaFold：序列 → 高精度靜態三維結構（提供起始模型）
ESM：以蛋白語言模型從序列直接萃取演化與功能特徵
MD：用物理力場補上動態運動（構象集合、柔性、接觸機率）

Triangular framework: AlphaFold, ESM, MD converging on protein-DNA binding — **圖 2.** 三角互補框架：AlphaFold（靜態結構）、ESM（序列資訊）、MD（動態運動）三者匯聚於中央的 protein–DNA 複合體。

3完整研究流程

從一條序列，到突變效應與 DNA 結合的預測

一個典型的整合流程，由左到右串起 AI 結構預測與分子模擬：

Workflow from sequence to mutation effect prediction — **圖 3.** 七步流程：**① Sequence** → **② AlphaFold / ESM** 結構預測 → **③ Protein–DNA complex** 建模 → **④ MD simulation** → **⑤ Contact analysis**（接觸熱圖）→ **⑥ Mutation effect** → **⑦ Validation** 實驗驗證。

4五個代表性研究

看真實論文怎麼把這套方法用出來

① SeqDance / ESMDance — 把 MD 動態餵進蛋白語言模型

2026 · PNAS Method tier：peer-reviewed primary 突變效應預測

研究者把 6 萬多個蛋白的 MD 模擬與法向模態分析所得的動態特徵（殘基移動相關性、溶劑可接觸表面積 SASA、二面角變化等）作為訓練標籤，開發出 SeqDance——它能直接從序列預測殘基層級的動態屬性，且其動態預測與實驗量得的折疊自由能變化（ΔΔG）顯著相關。

為利用「演化資訊」與「動態資訊」的互補，作者再把 SeqDance 的動態輸出與 ESM 結合，成為 ESMDance。

在 412 個蛋白上做 zero-shot 突變預測，ESMDance 的 Spearman 相關係數達 0.46
單獨用 ESM2 或 SeqDance 分別只有 0.33 與 0.24

重點：動態資訊可顯著提升突變效應預測準確度，特別是在缺乏同源序列的設計蛋白與病毒蛋白上更具優勢。

SeqDance / ESMDance three-layer concept — **圖 4.** 三層概念：**Sequence**（序列）→ **MD-derived dynamics**（殘基移動相關性、柔性 RMSF、二面角變化）→ **Protein language model** 整合兩者，預測 **Mutation effect**（deleterious ↔ beneficial）。

② MELD-DNA — 用 MD ＋貝葉斯推論預測 protein–DNA 複合體

2023 · Nucleic Acids Research Method tier：peer-reviewed primary 蛋白–DNA 結合

在蛋白–DNA 結合領域，複合體的結構資料遠少於蛋白–蛋白複合體。MELD-DNA 利用貝葉斯推論，把 MD 模擬與有限的實驗或文獻資訊結合，以預測 protein–DNA 複合體結構。

它不僅能採樣多種結合模式，還能從構象聚類中挑出最有利的構象，並評估不同 DNA 序列之間的親和差異。

重點：這在缺乏大量訓練資料的情況下，為研究蛋白–DNA 相互作用提供了一條有效途徑。

MELD-DNA Bayesian inference funnel — **圖 5.** 從一堆可能的結合姿態（**Possible poses**）出發，經 **MD sampling** 與 **Bayesian inference** 漏斗收斂，得到最合理的 **Protein–DNA complex**。

③ Cohesin — AlphaFold 補結構，再用 MD 找 DNA binding patch

2025 · PLOS Computational Biology Method tier：peer-reviewed primary 結構補全 + 功能位點

人類 cohesin 複合體擁有長距離的 coiled-coil 區域，這些區域在實驗（cryo-EM）結構中常缺失。研究首先用 AlphaFold2 預測缺失的 coiled-coil 片段，再透過 MODELLER 把 cryo-EM 資料與 AF2 預測結合，建出全長 SMC1 / SMC3 子單元模型。

隨後在這些模型上跑粗粒化（coarse-grained）MD，用 DNA 與蛋白殘基的接觸概率與停留時間，辨識出多個 DNA binding patch。其中部分與已知突變研究一致，其他則是先前未報導的新位點。

重點：本案例證明 AlphaFold 靜態結構可作為 MD 模擬的起點，幫助發現新的 DNA 結合區域。

Cohesin case study four panels — **圖 6.** 四格案例：**① Missing regions**（cryo-EM 缺口）→ **② AlphaFold model** 補上 coiled-coil → **③ MD simulation**（DNA 與蛋白互動）→ **④ DNA-binding patches**（接觸概率熱圖標出結合斑塊）。

④ bAIes — 用 AlphaFold distogram 當先驗，描述無序蛋白

2026 · Nature Communications Method tier：peer-reviewed primary 內在無序蛋白 IDP

對於內在無序蛋白（IDPs），單一靜態結構難以描述其構象集合。bAIes 框架採用 AlphaFold2 輸出的殘基距離分佈（distogram）作為先驗（prior），結合物理力場進行貝葉斯抽樣，生成與 NMR 和 SAXS 實驗資料一致的原子分辨率構象集合。

作者指出，bAIes 在多個 IDPs 上產生的結構集合與全原子 MD 模擬相當，但計算成本大幅降低。

重點：整合 AlphaFold 資訊與 MD，可在兼顧精度的同時提高效率。

bAIes distogram-guided IDP ensemble — **圖 7.** 以 **Distogram**（殘基距離矩陣）為先驗，經 **Bayesian prior + Physics sampling**，生成內在無序蛋白的 **Conformational ensemble**。

⑤ AlphaFold3 綜論 — 強大，但仍需 MD 補上動態

2025 · Review Method tier：review / overview 綜述

2025 年的綜論文章指出，AlphaFold3 等新版本在多鏈複合體、蛋白–RNA 和蛋白–配體（cofactor）方面有所突破，但仍難以描述活性位點的動態。

重點：因此作者強調，將 AlphaFold 預測與 MD 模擬結合，才能更準確地描述酵素活性與其他動態行為。

（此為綜述性結論，無對應實驗插圖；可參照本頁圖 1〜3 的互補概念。）

5突變如何透過結構與動態影響功能

把上述方法收斂到最常見的應用：單點突變

一個胺基酸的改變，可能改變側鏈方向、削弱與 DNA 的接觸、並提高局部柔性——結果就是結合變弱、穩定性改變。這正是 ESMDance、MELD-DNA 等方法想要量化預測的目標。

Wild type vs mutant protein-DNA binding — **圖 8.** 左 **Wild type**：穩定結合 DNA（實線接觸）；右 **Mutant**：單一殘基（Arg→Lys）突變使側鏈方向改變、接觸變弱（虛線）、局部柔性增加 → **Weaker binding**。

6戰略意義與應用潛力

為什麼這套整合方法值得投入

彌補靜態模型的盲點：AlphaFold / ESM 主要捕捉序列與靜態結構，對無序區或缺乏同源序列的蛋白有限。把 MD 動態特徵納入訓練，可顯著提升突變效應預測準確度。
揭示新的功能位點：以 AF2 結構作為 MD 起點，能辨識新的結合斑塊與功能殘基——cohesin 研究即據此找到多個前未報導的 DNA 結合位點。
適用於資料稀缺或設計蛋白：SeqDance / ESMDance 顯示，依賴 MD 動態的模型在設計蛋白與病毒蛋白等缺乏同源信息時仍表現良好，對新蛋白設計特別有價值。
提升計算效率：bAIes 等方法利用 AF 距離分佈與簡化物理場，在不犧牲精度的前提下降低全原子 MD 的成本，對大量構象採樣的突變篩選與 IDP 研究尤為重要。
促進跨學科合作：對來自材料化學或其他領域的研究者，了解 MD 與深度學習模型的結合方法，可加速跨域的蛋白設計與功能預測，拓展研究方向。

7學生學習地圖

想自己動手，照這五階段往上走

Five-step student learning roadmap — **圖 9.** 五階梯：**① Understand sequence** → **② Predict structure**（AlphaFold / ESMFold）→ **③ Build protein–DNA complex** → **④ Run MD simulation** → **⑤ Analyze mutations & contacts**。

8結語

From Sequence to Function

綜合上述研究可見，將 MD、AlphaFold、ESM 等工具結合，具有明確的科研與應用價值。這些方法既能補足靜態結構預測的不足，又能利用 MD 提供的動態資訊，預測突變效應與 DNA 結合能力；對於開發新型蛋白、解析機制、以及指導實驗設計，都具有戰略意義。

透過這些進展，研究者可以更全面地從序列出發，預測結構、動態與功能，促進蛋白工程與藥物研發。

一頁帶走 AlphaFold / ESM 給「靜態 + 序列」，MD 給「動態」。兩者相加，才能回答「這個突變會怎樣？」「這段蛋白會不會結合這條 DNA？」這類功能性問題。

§參考文獻

原綜述引用之 6 篇 PMC 文獻（可點擊）

Protein Language Models Trained on Biophysical Dynamics Inform Mutation Effects（SeqDance / ESMDance）
PMC12846831 https://pmc.ncbi.nlm.nih.gov/articles/PMC12846831/
Structural predictions of protein–DNA binding: MELD-DNA
PMC9976882 https://pmc.ncbi.nlm.nih.gov/articles/PMC9976882/
Molecular dynamics simulations of human cohesin subunits identify DNA binding sites and their potential roles in DNA loop extrusion
PMC11970657 https://pmc.ncbi.nlm.nih.gov/articles/PMC11970657/
Atomic resolution ensembles of intrinsically disordered proteins with AlphaFold（bAIes）
PMC12982490 https://pmc.ncbi.nlm.nih.gov/articles/PMC12982490/
AlphaFold3: An Overview of Applications and Performance Insights
PMC12027460 https://pmc.ncbi.nlm.nih.gov/articles/PMC12027460/

⚠️ 關於插圖與內容的誠實說明本頁 10 張插圖皆為 AI（gpt-image-2）生成的示意圖，用途是幫助理解概念；圖中的數值、曲線、熱圖、座標軸均為示意，並非真實實驗數據。正文內容整理自一份 ChatGPT 研究綜述（再引用上列 5 篇一手論文 + 1 篇綜論）；文中的量化數字（如 Spearman 0.46 / 0.33 / 0.24、6 萬蛋白、412 蛋白）轉述自該綜述所引文獻，建議引用前回到原始 PMC 文獻核對。

0導讀：為什麼要把 MD 和 AI 模型綁在一起

1為什麼 AlphaFold 還不夠？

2三大方法如何互補

3完整研究流程

4五個代表性研究

① SeqDance / ESMDance — 把 MD 動態餵進蛋白語言模型

② MELD-DNA — 用 MD ＋ 貝葉斯推論預測 protein–DNA 複合體

③ Cohesin — AlphaFold 補結構，再用 MD 找 DNA binding patch

④ bAIes — 用 AlphaFold distogram 當先驗，描述無序蛋白

⑤ AlphaFold3 綜論 — 強大，但仍需 MD 補上動態

5突變如何透過結構與動態影響功能

6戰略意義與應用潛力

7學生學習地圖

8結語

§參考文獻

② MELD-DNA — 用 MD ＋貝葉斯推論預測 protein–DNA 複合體