欸,我們身邊那些「隱形室友」要怎麼研究啊?
今天要來聊聊一個...嗯...聽起來很硬核,但其實超有趣的東西:宏基因體學(Metagenomics)。
你知道嗎?我們周遭,不管是土壤、海水、你的皮膚、甚至是腸道裡,都住著幾億幾兆的微生物。但以前科學家要研究牠們,超級麻煩,要一個一個在培養皿上把它們「養」出來看。問題來了,科學界估計有超過九成九的微生物,根本就是養不活的自閉兒,你給牠再好的環境,牠就是不長。
啊這不就等於我們對這個微觀世界幾乎一無所知?這就是宏基因體學要解決的問題。
重點一句話
宏基因體學就是,放棄單獨培養微生物,直接把整個環境樣本裡所有生物的 DNA 全部抽出來,用電腦一次分析完,看看到底有誰在、以及牠們會做些什麼。
所以...這東西能幹嘛?聽起來很學術
不不不,它其實比你想像的更貼近生活。說真的,應用範圍廣到有點誇張。
比方說,研究腸道菌對健康的影響,看看是哪些菌讓你變胖或過敏。或是監測環境污染,看看水質或土壤裡出現了什麼不該出現的壞菌。科學家甚至用它來研究北極冰層裡的古老 DNA、或是從考古遺址挖出來的東西,去還原幾千年前的生態系。更有趣的是,還能從一堆沒看過的微生物裡面,找到可以開發新抗生素或工業用酵素的基因...可能性真的很大。
但,這也代表一件事:資料量,真的,超級無敵大。所以接下來就是一連串跟電腦搏鬥的過程了。
實作指引:從一團亂碼到看懂微生物宇宙
好,假設你已經從環境樣本,比如說你家盆栽的一匙土裡,把 DNA 都抽出來,也送去給公司做完定序了。接下來你拿到的,不會是什麼漂亮的報告,而是一堆看起來像亂碼的檔案。別怕,我們一步一步來拆解。
第一站:品管 (Quality Control) - 挑出資料裡的垃圾
你收到的檔案格式通常是 FASTQ。裡面除了 ATGC 這些鹼基序列外,還有一行看起來更亂的符號,那個其實是「Phred 品質分數」。
我自己是覺得,你可以把它想像成...定序機器在讀取 DNA 時,給自己的信心評分。有點像一個很想睡的打字員,他有時候很確定自己聽到的是 A,有時候會心虛「呃...剛剛那個是 T 還是 C 啊?」。這個品質分數就是它坦白跟你說:「這個鹼基我有 99.9% 的把握是對的」或「這個...我只有 90% 把握」。
我們的第一步,就是用 FastQC 或 Trimmomatic 這類工具,把那些機器自己都沒信心的、品質低落的部分...咔嚓,剪掉。還有一些定序時會加進去的接頭序列 (Adapters) 也得清掉,確保留下來的都是乾淨、可信的 DNA 序列。沒做好這一步,後面分析出來的就全是垃圾。
第二站:組裝 (Assembly) - 拼湊破碎的書頁
清完資料後,你手上還是有好幾百萬、甚至上億個短短的 DNA 碎片。它們就像是幾十本不同作者寫的書,被丟進碎紙機後混在一起。你要怎麼把它們拼回原本的句子或段落?
這就是「組裝」。我們會用像 MEGAHIT 或 SPAdes 這樣的工具,它們很聰明,會去找這些碎片之間重疊的地方,然後「縫合」起來,變成比較長的連續序列,我們稱之為「Contigs」。
這大部分是所謂的「De novo 組裝」,意思就是完全不靠參考書(參考基因組),純粹靠碎片之間的相似度去盲拼。這在宏基因體學裡很常用,因為你根本不知道樣本裡有多少是前所未見的新物種啊。
第三站:分箱 (Binning) - 把拼圖塊依顏色分類
好,我們現在有了一堆比較長的 DNA 片段 (Contigs),但還是有個問題:A 片段是來自細菌甲,還是細菌乙?B 片段跟 C 片段是同一個生物的嗎?不知道。
所以就要「分箱」。這一步是把那些看起來源自同一個物種的 Contigs 圈在一起,變成一個一個的「箱子 (Bin)」。最後每個箱子裡的東西,就約等於一個物種的基因組草圖,也就是所謂的「MAGs」(Metagenome-Assembled Genomes)。
但電腦怎麼知道哪些片段是同一國的?它不是靠長相,而是靠一些 DNA 的內在特徵。比方說:
- GC 含量:不同生物的 DNA 序列中,G和C這兩個鹼基所佔的比例會不太一樣,這是一個蠻穩定的特徵。
- 四核苷酸頻率 (Tetranucleotide frequency):這超酷的。你可以想像 DNA 的 ATGC 四個字母能組成的「四字詞」,總共有 256 種組合(AAAA, AAAT, ATAG...)。每個物種在使用這些「四字詞」時,都有自己獨特的偏好和頻率。工具就是靠分析這種「用詞習慣」,來判斷哪些片段可能是同一個作者寫的。
- 覆蓋率 (Coverage):在定序時,如果某個物種在樣本裡數量很多,牠的 DNA 片段自然就會被讀到很多次,覆蓋率就高。反之亦然。所以覆蓋率相似的 Contigs,也很有可能是來自同一個生物。
常用的分箱工具有 MetaBAT 2、MaxBin 2 這類的。分箱這一步,可以說是在一片混沌中,首次建立起秩序。讓你知道,這堆 DNA 碎片,大概、可能、或許...是由眼前這幾十個或幾百個不同的「物種」所組成的。
第四站:物種註解 (Taxonomic Classification) - 牠到底是誰?
有了 MAGs,我們終於可以問一個關鍵問題了:「所以...這些傢伙到底是誰?」這就是物種註解,或叫物種分類。
這一步跟前面不一樣,需要用到龐大的「參考資料庫」。工具會把你手上的序列,拿去跟資料庫裡成千上萬筆已知的微生物基因組做比對。然後告訴你:「欸,你這個 Bin 01,有 95% 的機率是某種大腸桿菌 (E. coli)」、「Bin 02 找不到對應的,可能是個新物種喔!」。
這就有點像...嗯...寶可夢圖鑑。你抓到一隻新的,拿圖鑑掃一下就知道牠是不是皮卡丘。不過,我們的微生物圖鑑還很不完整,所以常常會有一堆「未知圖騰」,也就是 unclassified 的東西。
第五站:功能註解 (Functional Annotation) - 牠們會做什麼?
知道「有誰在」之後,更有趣的是想知道「牠們會做什麼」。
功能註解,就是去分析這些基因序列,預測它們各自的功能是什麼。比如,這個基因可能是負責代謝糖分的,那個基因是製造某种抗生素的,還有一個基因...嗯,可能是讓細菌產生抗藥性的。這一步超級強大,因為就算你遇到一個全新的物種,你還是能透過分析牠的基因,去推斷牠在生態系裡扮演的角色,或是它有什麼潛力。
這就等於,你不只認出了皮卡丘,你還知道牠會「十萬伏特」。
該用哪個工具?其實是個取捨問題
說到物種跟功能註解,市面上工具一堆,新手常常看到頭昏。老實說,沒有哪個是完美的,選哪個通常看你的需求。就拿最常見的物種註解工具 Kraken2 和 Kaiju 來比較好了,我自己是覺得可以這樣看:
| 工具 | 原理 | 優點 | 缺點 | 什麼時候用? |
|---|---|---|---|---|
| Kraken2 | k-mer 比對。 就是把你的 DNA 切成一堆小碎片 (k-mers),然後快速去資料庫裡找誰家有最多一樣的碎片。 |
快!真的快到嚇死人。資料量再大都沒在怕的。對電腦要求也比較低。 | 比較「死板」一點。如果你的物種跟資料庫裡的親戚差太遠,它可能就認不出來了。 | 資料量超大、想快速得到結果、電腦記憶體有限的時候。基本上是大部分人的第一選擇。 |
| Kaiju | 蛋白質序列比對。 它會先把你的 DNA 序列「翻譯」成蛋白質序列,再拿去比對。 |
更靈敏!因為蛋白質序列在演化上比 DNA 序列更保守(變化比較慢),所以它很會找「遠房親戚」,更容易發現新物種的線索。 | 慢...說真的蠻慢的。因為要多一道翻譯的手續,超級耗運算資源。 | 當你懷疑樣本裡有很多新東西、想做探索性研究、而且...嗯...不趕時間的時候。 |
還有啊,說到資料庫,大家最常用的就是美國 NCBI 維護的 GenBank,它就像個全球最大的生物資料超級市場,什麼都有。不過呢,有時候你想研究的東西如果跟台灣的環境或族群關聯性比較高,直接用 GenBank 的資料去比對,效果不一定最好。這時候反過來去找找台灣本地的研究單位,像是中研院或國衛院自己建置的資料庫,雖然規模小得多,但可能因為更「在地化」,反而能給你更精準的答案。這點我覺得是分析時可以考慮的。
最後一步:統計和視覺化 - 讓數據說故事
終於,最痛苦的資料前處理階段過去了。你現在手上有一堆表格,記錄著每個樣本裡有哪些物種、各有多少、以及它們有哪些功能基因。
接下來就是生物統計學家和視覺化工具登場的時候了。我們會用 R 語言或 Python,搭配像 QIIME 2 或 phyloseq 這樣的套件,開始問問題:
- Alpha 多樣性:單一一個樣本裡面,物種多樣性高不高?就像看你家實驗室有多少種不同規格的微量吸管。
- Beta 多樣性:不同樣本之間的群落組成差異大不大?這就像比較你家實驗室和隔壁實驗室的吸管收藏,看看誰的種類比較奇特。(對了,偷偷借隔壁的 2μL 微量吸管如果沒被發現,應該...不算偷吧...?)
然後把結果畫成各種圖,像是熱圖 (Heatmaps)、主成分分析圖 (PCA plots) 等等。到了這一步,原本冰冷的數據才開始有了溫度,你才能從中看出趨勢、找到模式,真正開始「解讀」這個微生物群落想告訴你的故事。
所以...流程到這裡就結束了?
嗯,技術上來說,一個標準的宏基因體分析流程差不多到這裡就告一段落了。你從一團混亂的 DNA 原始數據,一路走到能解釋的生物學洞見。
但說真的,做研究嘛,故事永遠沒有結束的一天。當你從數據裡發現一個有趣的現象,比如「A 環境的某種菌特別多,而且它好像有抗藥性基因」,這往往不是答案,而是下一個問題的開始:
這個模式在其他地方也一樣嗎?我可以用實驗室的方法(比如 qPCR)來驗證這個發現嗎?我是不是該換個分析方法再跑一次,確認結果不是偶然?
你看,繞了一圈,終點又變成了起點。這大概就是做研究最迷人...也最折磨人的地方吧。😅
如果你有機會研究一個環境的微生物,你第一個會想知道的是「裡面有誰」(物種組成),還是「牠們能做什麼」(功能潛力)?在下面留言分享你的想法吧!
