嗯...最近看到一篇論文,有點科幻感。標題大概是說,用語言模型,模擬了五億年的演化。一開始還沒搞懂,語言模型...跟生物演化有什麼關係?
結果讀下去才發現,他們在做一件很瘋狂的事。就是用那種我們天天在聽的 AI,像是 GPT 那種東西,去「寫」出一個全新的蛋白質。不是去修改,是從無到有,直接創造一個自然界不存在的蛋白質。
重點一句話
簡單講,AI 現在不只會學人類的語言來寫文章,它也開始學會「生命的語言」,也就是胺基酸的排列組合,然後創造出以前從沒見過的蛋白質分子。
把蛋白質當成一種「語言」?這什麼意思
這個概念剛聽到的時候,真的要轉一下腦筋。我們都知道蛋白質是生命的基本零件嘛,像身體裡的各種小機器,負責催化反應、構成組織...什麼都做。這些蛋白質,本質上就是一長串的「胺基酸」串起來的珠子。
胺基酸大概有 20 種。重點來了,就是這 20 種胺基酸的「順序」決定了這條蛋白質鍊子會摺疊成什麼 3D 形狀,也決定了它有什麼功能。順序錯了,就沒用了。
然後 AI 科學家就想,欸,這不就很像我們在寫句子嗎?
我們用幾十個字母(或幾千個常用字),按照文法規則排列,組成有意義的句子。蛋白質就是用 20 種胺基酸(當作單字),按照某種「生物文法」(物理和化學定律)排列,組成有功能的蛋白質。
所以,如果 AI 能學會人類語言的文法和模式,然後寫出通順的文章...那它是不是也能學會蛋白質的「文法」,然後「寫」出有功能的蛋白質?這個想法,老實說,真的蠻天才的。
他們用的那個 AI 模型叫 ESM3
做這件事的主角,是一個叫做 ESM3 的模型。它是 Meta AI 底下一個叫 EvolutionaryScale 的團隊搞出來的。這東西基本上就是一個為生物學特化的 Transformer 模型,跟 GPT-4 的底層架構很像。
不過呢,它讀的不是網路文章或小說,它讀的是全世界所有已知的蛋白質序列資料庫。幾十年來生物學家們存下來的幾億筆資料,全部餵給它看。
它的訓練方式也很有趣,有點像在做填空題。把一個已知的蛋白質序列,隨機挖掉一小段,然後叫 ESM3 去猜「這裡應該填入哪個胺基酸才合理?」。久而久之,它就慢慢「領悟」到了蛋白質結構的規則。
我自己是覺得,這跟我們在台灣,比方說中研院的團隊在用電腦算蛋白質結構有點異曲同工,但又不太一樣。台灣這邊可能比較多是專注在解析現有蛋白質的精確結構跟功能,這比較是傳統的計算生物學。但 ESM3 這種...它不只是解析,它還想「生成」。這就完全是生成式 AI 的思路了。這點跟國外大廠像 Google (AlphaFold) 或 Meta 想的,都是用 AI 直接跳過緩慢的實驗,去預測或創造,野心很不一樣。
語言模型和蛋白質模型,到底哪裡像?
為了好懂一點,我整理了一下它們的對應關係。你看完會覺得...嗯,真的有道理。
| 項目 | 語言模型 (像 GPT) | 蛋白質模型 (像 ESM3) |
|---|---|---|
| 學習目標 | 學會一套語言的文法、語意。 | 學會蛋白質序列的「結構文法」。就...怎樣排才會穩定。 |
| 核心任務 | 預測句子裡的下一個字。 | 預測序列裡的下一個胺基酸。 |
| 輸入/輸出 | 給它一段文字,它能接著寫。 | 給它一些功能指令,它能「寫」出對應的胺基酸序列。 |
| 驚喜之處 | 能寫出從沒被寫過的詩句或故事。 | 能設計出自然演化幾億年都沒出現過的全新蛋白質。 |
結果呢?AI 真的寫出了一個螢光蛋白
說了這麼多,總要有個成果。他們真的成功了。
他們讓 ESM3 設計一個新的螢光蛋白。你知道的,就是那種在生物實驗裡,會發出綠色螢光的蛋白質(GFP),科學家常用它來標記和觀察細胞裡的東西,拿過諾貝爾獎的技術。
結果 AI 設計出來一個全新的東西,他們叫它 `esmGFP`。
最扯的是,這個 `esmGFP` 跟所有已知的、天然的螢光蛋白,在序列上的相似度非常非常低。論文裡說,它的序列跟任何已知螢光蛋白的親緣關係,差了大概「五億年的演化距離」。
五億年...是什麼概念?這等於是說,AI 走的不是一條「模仿」或「改良」現有蛋白質的路。它是在那個龐大到天文數字般的「蛋白質可能性宇宙」中,靠自己學到的規則,找到了一個全新的、能發螢光、但又跟地球生命演化路徑完全不同的解法。
這就像你教 AI 讀了所有唐詩,但它沒有寫出一首像杜甫或李白的詩,而是直接創造出一種全新的、符合格律但風格迥異的詩體。對,就是這種感覺。
這件事...會帶來什麼?感覺有點不安
好,酷歸酷,但這到底代表什麼?
好的方面,潛力巨大。如果我們能「指定功能」就讓 AI 設計出對應的蛋白質,那很多事都可能改變。例如:
- 新藥物:設計出能精準鎖定癌細胞,但完全不傷及正常細胞的蛋白質藥物。
- 環保酵素:設計出超級酵素,能高效分解海洋裡的塑膠微粒,或是把農業廢棄物變成生質燃料。
- 新材料:創造出比蜘蛛絲更強韌、更有彈性的蛋白質纖維。
這些想像都蠻美好的。不過...我承認,想到另一面,會有點毛毛的。
一個從來沒在自然界存在過的蛋白質,被我們創造出來,然後釋放到環境中或人體內,會發生什麼事?我們真的能 100% 預測它的所有行為嗎?
它會不會引起未知的免疫反應?會不會在生態系中造成不可逆的影響?就像引進一個超級外來種一樣。現在這個 `esmGFP` 只是個螢光蛋白,看起來無害,但如果未來創造的是一個有強大功能的酵素呢?
老實說,這沒有答案。這就像核能一樣,可以發電,也可以做成武器。AI 設計蛋白質的能力,也是一種力量強大的工具。怎麼使用它、怎麼監管它,我自己是覺得,這會是接下來幾年非常、非常重要的議題。
技術跑得太快了,我們的社會、法規、甚至倫理思辨,常常都跟不上。這件事就是一個活生生的例子。
聊聊你的看法吧
如果 AI 真的可以隨心所欲地設計蛋白質,你最希望它先創造出什麼來解決我們現在遇到的問題?是能分解垃圾的超級酵素,還是能治療特定疾病的藥物,或者有其他更酷的想法?在下面留言分享看看吧。
