微生物基因體定序如何用小數據解讀大規模遺傳資訊

Published on: 2025-07-07 | Last updated: 2025-07-07

欸，我們身邊那些「隱形室友」要怎麼研究啊？

今天要來聊聊一個...嗯...聽起來很硬核，但其實超有趣的東西：宏基因體學（Metagenomics）。

你知道嗎？我們周遭，不管是土壤、海水、你的皮膚、甚至是腸道裡，都住著幾億幾兆的微生物。但以前科學家要研究牠們，超級麻煩，要一個一個在培養皿上把它們「養」出來看。問題來了，科學界估計有超過九成九的微生物，根本就是養不活的自閉兒，你給牠再好的環境，牠就是不長。

啊這不就等於我們對這個微觀世界幾乎一無所知？這就是宏基因體學要解決的問題。

重點一句話

宏基因體學就是，放棄單獨培養微生物，直接把整個環境樣本裡所有生物的 DNA 全部抽出來，用電腦一次分析完，看看到底有誰在、以及牠們會做些什麼。

所以...這東西能幹嘛？聽起來很學術

不不不，它其實比你想像的更貼近生活。說真的，應用範圍廣到有點誇張。

比方說，研究腸道菌對健康的影響，看看是哪些菌讓你變胖或過敏。或是監測環境污染，看看水質或土壤裡出現了什麼不該出現的壞菌。科學家甚至用它來研究北極冰層裡的古老 DNA、或是從考古遺址挖出來的東西，去還原幾千年前的生態系。更有趣的是，還能從一堆沒看過的微生物裡面，找到可以開發新抗生素或工業用酵素的基因...可能性真的很大。

但，這也代表一件事：資料量，真的，超級無敵大。所以接下來就是一連串跟電腦搏鬥的過程了。

實作指引：從一團亂碼到看懂微生物宇宙

好，假設你已經從環境樣本，比如說你家盆栽的一匙土裡，把 DNA 都抽出來，也送去給公司做完定序了。接下來你拿到的，不會是什麼漂亮的報告，而是一堆看起來像亂碼的檔案。別怕，我們一步一步來拆解。

第一站：品管 (Quality Control) - 挑出資料裡的垃圾

你收到的檔案格式通常是 FASTQ。裡面除了 ATGC 這些鹼基序列外，還有一行看起來更亂的符號，那個其實是「Phred 品質分數」。

我自己是覺得，你可以把它想像成...定序機器在讀取 DNA 時，給自己的信心評分。有點像一個很想睡的打字員，他有時候很確定自己聽到的是 A，有時候會心虛「呃...剛剛那個是 T 還是 C 啊？」。這個品質分數就是它坦白跟你說：「這個鹼基我有 99.9% 的把握是對的」或「這個...我只有 90% 把握」。

我們的第一步，就是用 FastQC 或 Trimmomatic 這類工具，把那些機器自己都沒信心的、品質低落的部分...咔嚓，剪掉。還有一些定序時會加進去的接頭序列 (Adapters) 也得清掉，確保留下來的都是乾淨、可信的 DNA 序列。沒做好這一步，後面分析出來的就全是垃圾。

第二站：組裝 (Assembly) - 拼湊破碎的書頁

清完資料後，你手上還是有好幾百萬、甚至上億個短短的 DNA 碎片。它們就像是幾十本不同作者寫的書，被丟進碎紙機後混在一起。你要怎麼把它們拼回原本的句子或段落？

這就是「組裝」。我們會用像 MEGAHIT 或 SPAdes 這樣的工具，它們很聰明，會去找這些碎片之間重疊的地方，然後「縫合」起來，變成比較長的連續序列，我們稱之為「Contigs」。

這大部分是所謂的「De novo 組裝」，意思就是完全不靠參考書（參考基因組），純粹靠碎片之間的相似度去盲拼。這在宏基因體學裡很常用，因為你根本不知道樣本裡有多少是前所未見的新物種啊。

第三站：分箱 (Binning) - 把拼圖塊依顏色分類

好，我們現在有了一堆比較長的 DNA 片段 (Contigs)，但還是有個問題：A 片段是來自細菌甲，還是細菌乙？B 片段跟 C 片段是同一個生物的嗎？不知道。

所以就要「分箱」。這一步是把那些看起來源自同一個物種的 Contigs 圈在一起，變成一個一個的「箱子 (Bin)」。最後每個箱子裡的東西，就約等於一個物種的基因組草圖，也就是所謂的「MAGs」(Metagenome-Assembled Genomes)。

但電腦怎麼知道哪些片段是同一國的？它不是靠長相，而是靠一些 DNA 的內在特徵。比方說：

GC 含量：不同生物的 DNA 序列中，G和C這兩個鹼基所佔的比例會不太一樣，這是一個蠻穩定的特徵。
四核苷酸頻率 (Tetranucleotide frequency)：這超酷的。你可以想像 DNA 的 ATGC 四個字母能組成的「四字詞」，總共有 256 種組合（AAAA, AAAT, ATAG...）。每個物種在使用這些「四字詞」時，都有自己獨特的偏好和頻率。工具就是靠分析這種「用詞習慣」，來判斷哪些片段可能是同一個作者寫的。
覆蓋率 (Coverage)：在定序時，如果某個物種在樣本裡數量很多，牠的 DNA 片段自然就會被讀到很多次，覆蓋率就高。反之亦然。所以覆蓋率相似的 Contigs，也很有可能是來自同一個生物。

常用的分箱工具有 MetaBAT 2、MaxBin 2 這類的。分箱這一步，可以說是在一片混沌中，首次建立起秩序。讓你知道，這堆 DNA 碎片，大概、可能、或許...是由眼前這幾十個或幾百個不同的「物種」所組成的。

第四站：物種註解 (Taxonomic Classification) - 牠到底是誰？

有了 MAGs，我們終於可以問一個關鍵問題了：「所以...這些傢伙到底是誰？」這就是物種註解，或叫物種分類。

這一步跟前面不一樣，需要用到龐大的「參考資料庫」。工具會把你手上的序列，拿去跟資料庫裡成千上萬筆已知的微生物基因組做比對。然後告訴你：「欸，你這個 Bin 01，有 95% 的機率是某種大腸桿菌 (E. coli)」、「Bin 02 找不到對應的，可能是個新物種喔！」。

這就有點像...嗯...寶可夢圖鑑。你抓到一隻新的，拿圖鑑掃一下就知道牠是不是皮卡丘。不過，我們的微生物圖鑑還很不完整，所以常常會有一堆「未知圖騰」，也就是 unclassified 的東西。

第五站：功能註解 (Functional Annotation) - 牠們會做什麼？

知道「有誰在」之後，更有趣的是想知道「牠們會做什麼」。

功能註解，就是去分析這些基因序列，預測它們各自的功能是什麼。比如，這個基因可能是負責代謝糖分的，那個基因是製造某种抗生素的，還有一個基因...嗯，可能是讓細菌產生抗藥性的。這一步超級強大，因為就算你遇到一個全新的物種，你還是能透過分析牠的基因，去推斷牠在生態系裡扮演的角色，或是它有什麼潛力。

這就等於，你不只認出了皮卡丘，你還知道牠會「十萬伏特」。

該用哪個工具？其實是個取捨問題

說到物種跟功能註解，市面上工具一堆，新手常常看到頭昏。老實說，沒有哪個是完美的，選哪個通常看你的需求。就拿最常見的物種註解工具 Kraken2 和 Kaiju 來比較好了，我自己是覺得可以這樣看：

工具	原理	優點	缺點	什麼時候用？
Kraken2	k-mer 比對。就是把你的 DNA 切成一堆小碎片 (k-mers)，然後快速去資料庫裡找誰家有最多一樣的碎片。	快！真的快到嚇死人。資料量再大都沒在怕的。對電腦要求也比較低。	比較「死板」一點。如果你的物種跟資料庫裡的親戚差太遠，它可能就認不出來了。	資料量超大、想快速得到結果、電腦記憶體有限的時候。基本上是大部分人的第一選擇。
Kaiju	蛋白質序列比對。它會先把你的 DNA 序列「翻譯」成蛋白質序列，再拿去比對。	更靈敏！因為蛋白質序列在演化上比 DNA 序列更保守（變化比較慢），所以它很會找「遠房親戚」，更容易發現新物種的線索。	慢...說真的蠻慢的。因為要多一道翻譯的手續，超級耗運算資源。	當你懷疑樣本裡有很多新東西、想做探索性研究、而且...嗯...不趕時間的時候。

還有啊，說到資料庫，大家最常用的就是美國 NCBI 維護的 GenBank，它就像個全球最大的生物資料超級市場，什麼都有。不過呢，有時候你想研究的東西如果跟台灣的環境或族群關聯性比較高，直接用 GenBank 的資料去比對，效果不一定最好。這時候反過來去找找台灣本地的研究單位，像是中研院或國衛院自己建置的資料庫，雖然規模小得多，但可能因為更「在地化」，反而能給你更精準的答案。這點我覺得是分析時可以考慮的。

最後一步：統計和視覺化 - 讓數據說故事

終於，最痛苦的資料前處理階段過去了。你現在手上有一堆表格，記錄著每個樣本裡有哪些物種、各有多少、以及它們有哪些功能基因。

接下來就是生物統計學家和視覺化工具登場的時候了。我們會用 R 語言或 Python，搭配像 QIIME 2 或 phyloseq 這樣的套件，開始問問題：

Alpha 多樣性：單一一個樣本裡面，物種多樣性高不高？就像看你家實驗室有多少種不同規格的微量吸管。
Beta 多樣性：不同樣本之間的群落組成差異大不大？這就像比較你家實驗室和隔壁實驗室的吸管收藏，看看誰的種類比較奇特。（對了，偷偷借隔壁的 2μL 微量吸管如果沒被發現，應該...不算偷吧...？）

然後把結果畫成各種圖，像是熱圖 (Heatmaps)、主成分分析圖 (PCA plots) 等等。到了這一步，原本冰冷的數據才開始有了溫度，你才能從中看出趨勢、找到模式，真正開始「解讀」這個微生物群落想告訴你的故事。

所以...流程到這裡就結束了？

嗯，技術上來說，一個標準的宏基因體分析流程差不多到這裡就告一段落了。你從一團混亂的 DNA 原始數據，一路走到能解釋的生物學洞見。

但說真的，做研究嘛，故事永遠沒有結束的一天。當你從數據裡發現一個有趣的現象，比如「A 環境的某種菌特別多，而且它好像有抗藥性基因」，這往往不是答案，而是下一個問題的開始：

這個模式在其他地方也一樣嗎？我可以用實驗室的方法（比如 qPCR）來驗證這個發現嗎？我是不是該換個分析方法再跑一次，確認結果不是偶然？

你看，繞了一圈，終點又變成了起點。這大概就是做研究最迷人...也最折磨人的地方吧。😅

如果你有機會研究一個環境的微生物，你第一個會想知道的是「裡面有誰」（物種組成），還是「牠們能做什麼」（功能潛力）？在下面留言分享你的想法吧！

免責聲明

僅供參考，非專業建議。內容涉及人物或情節皆為改編，請自行判斷並諮詢專家。作者與平台不承擔責任。

IMAGINGCOE Expert Team

Edna I-Jen Hu – Consulting Advisor

service@imagingcoe.org

Comments

Guest 2026-06-19 Reply

其實啊，我每次看到有人用小數據來拆解那種超龐大的微生物基因體資訊，腦袋裡第一個想法都是「真的假的？真的能看懂什麼嗎？」我不是亂質疑啦，只是以前我們自己在實驗室摸過，拿著一小堆樣本做分群分析，通常只能抓到一些表面上的東西，有時候甚至只是運氣好不小心碰到的。突然想起有次弄某片土壤的樣本，把細菌的16S序列全部跑一遍，最後得出說某個代謝路徑在那邊超級活躍 - 當下覺得「喔這很酷耶」，但真的跟整塊地的大型資料集比…根本完全對不起來。就算你覺得已經仔細挑選樣本了，可是萬一那些罕見又超重要的小功能族群壓根沒被抽進來呢？它們說不定才是生態系真正有梗的地方欸。然後還有重覆性問題嘛，誰知道隔兩天、或別人再做一次是不是結果完全跳票。所以你說錢少經費卡死只好先用小規模資料集湊合…現實也只能這樣。但老實講，要把這種分析直接推廣去討論全世界的基因多樣性，我每次都會皺眉頭，「真的不會太冒險嗎？」如果非要靠有限的數據做大推論，感覺至少得找更多補強證據，不然心理上真的很難心安吧。
Guest 2026-04-07 Reply

微生物基因體定序這東西，最近真的常常讓我腦袋轉不停。之前跑去歐洲參加一個農業微生物的國際合作項目，那陣子每天都像泡在一大堆遺傳資料裡，一打開電腦，資料就一直湧進來，有點像被文件海淹沒吧。大家會直覺想到：有數據就交給機器學習處理吧？但老實說，我自己還滿愛小數據分析的 - 你知道嗎，就是那種量很少但細節超多的小團隊手動慢慢看。尤其當我們開始用很陽春、極簡的模型，只挑幾個特別核心的基因出來，然後再回頭猜這幾個傢伙到底怎麼影響抗病或營養循環。有些人一直喊小數據太吵雜、不準，可是偏偏最冷門、最奇怪那兩三筆資料，有時候居然變成破案關鍵！好比說開會時（上海、日本還有德國都有），討論到某段程式運算結果，就有人突然發現「欸，我之前沒看到這組異常」，然後從 mini-pattern 一路挖下去，意外找到方向。有時想，如果只是一直砸大算力，希望電腦自動吐答案，也許那些藏在小角落的小碎片永遠都不會冒出頭吧？所以現在遇到這種事，都忍不住懷疑：「啊，是不是該停一下，用肉眼跟直覺再看一次？」反正，好多答案其實不是照著流程走就能抓到啦，反而是在混亂裡面蹦出來。
Guest 2026-02-28 Reply

之前在柏林，有一次去參加微生物基因體計畫那種國際論壇，嗯…那時心裡蠻煩的，資料一堆嘛，基因資料真的多到不知道怎麼開始。其實我們手上的東西很有限啦，也不敢說能做多少，我就邊聽簡報邊一直想這題要怎麼解。後來我就…算是私下小聲問了幾個一起合作的朋友吧，看有沒有可能把一些比較小塊的數據拿出來交換看看，其實有點像丟顆石頭試水溫那樣。沒想到還真的有人回應，是美國來的一組團隊，他們就突然主動說他們最近剛好也弄了一些新的機器學習模型，可以跟我們互相交流看看。我當下真的是差點沒忍住要偷笑，很久沒有碰到這種柳暗花明的感覺，本來都覺得那場會議大概只會坐滿時間而已。結果突然多一條線可以試，也是意外收穫…