2019-10-21

[i read][分子演化]
鱈魚透過基因突現之機制獲得抗凍蛋白基因之討論
The discussion of codfish antifreeze protein gene acquired through de novo gene birth


傳統的分子演化觀念認為多數生物的新特徵是由於基因突變產生。各種突變類別中,基因或染色體的 duplication (基因重複) 不會導致讀序框錯誤而產生失功能蛋白,因此較容易被保留下來。基因 duplication 可直接改變該基因的表現量,並影響其上下游基因,可能造成表型改變。另一方面 duplication 的過程亦會發生點突變等錯誤,非致死的突變便被保留下來,是而過去研究發現許多以 duplication 為基礎而產生的新性狀。因此演化學家認為新生成的基因主要來自既存基因之 duplication,累積變異並產生適應差異的演化素材。

生物若經歷基因之 duplication,可發現該序列存在數個相似或完全相同的副本。依據基因的理論演化速率,在近緣物種間比對,除了可重建該基因在該支系的演化歷程,亦能 duplication 事件如何影響生物表徵。而非編碼序列演化為新生基因則被認為不發生於近代演化事件,因為非編碼序列通常不影響適應性。然而有些生物的基因與其他近緣種比對卻找不到相似的序列片段。例如近期發現大西洋鱈魚 (Gadus morhua) 抗凍蛋白基因 (afgps) 在數個近緣種之基因組中皆無發現相似的基因,只在基因組中發現部分重合但無法正常表現之序列,表示該基因並非來自某個既存的祖先基因。因此研究者轉往非編碼序列發生 de novo gene birth  (暫譯基因突現) 的方向探討。

真核生物的基因體含有大量非編碼的序列,有些本身具有遠端獲近端調控轉錄之功能;有些則為保護染色體之功能;另外也存在許多目前功能與來源未知的序列。這些序列大多不具有轉錄起始的因子 (promoter),或是開放讀序框中不存在轉譯的起始編碼 (start codon)。因此一段非編碼序列若要發生基因突現,必須透過突變獲得被轉錄與轉譯的關鍵序列 (順序不一定)。演化學家 Masel 認為生物本身會累積大量突變,大多數都有潛在致死性。因此生物若存在常態的少量表現非編碼序列,便能剔除可能存在的有害序列。而此過程也可能意外表現提高適應性的性狀,而被天擇保留與強化。此論點支持基因突現具有適應上的優勢。

理論上 CG 比例較高的開放讀序框突變獲得表現力之機率較高,因為終止編碼較 AT 比例高者少,能產生較長的 mRNA,並更可能對應到具有功能的蛋白質。因此反過來說,一個近期產生的基因若 CG 比例較高,便有可能是來自非編碼序列的突變。不過邏輯上並不能反推,所以此論述只是一種間接推測1。然而即使一段序列能產生蛋白質,也不表示一定具有正常功能。因此產生的問題是,該 DNA 序列所對應的氨基酸序列是一開始便具有潛在的功能,稱作預適應假說;還是無功能的蛋白質會在天擇的過程中逐漸被修飾成有功能,稱作漸變假說。後者若在弱選汰壓之下較有機會發生,因為即使浪費能量產生無用的蛋白質,只要是非致死性,就有機會累積有助適應的突變,逐漸被篩選為功能正常之蛋白質。但因選汰壓力弱,所以會在較老序列上觀察到較多混亂因子2。而預適應假說則較容易發生於較強的選汰壓力之下,只有本身序列更有機會產生適應功能者,突變獲得表現力之後才會被保留下來,並在高適應競爭下快速演化,因此老基因會被修飾出較少的混亂因子。以鱈魚的 afgps 來說,除了近緣種缺少相似的基因,該基因出現於在 13-18 mya,大約符合 10-15 mya 之冰期,可視為一種強選汰壓。而近緣種又具有能對應出相似的氨基酸序列之非編碼序列,符合預適應假說的條件。並且此新生基因具有較高的 CG 比例,也支持可能來自基因突現之機制。若該研究之推論屬實,表示環境變動可能促成生物快速產生相應的適應。

雖然此推論為目前最佳的解釋,但仍存在許多難以驗證的問題。Masel 的理論並未解釋常態的少量表現是受到什麼機制控制。現有對於基因組中廣泛存在的潛在有害因子的解釋為,即潛在有害因子正因為隱性、甲基化、缺乏轉錄轉譯編碼才得以被遺傳。亦和 Masel 的理論稍有衝突。且即使預適應假說成立,目前也無法解釋何種機制造成有些非編碼序列具有潛在功能的機率較高。理論中的混亂因子、演化時間、選汰壓力強弱皆為相對概念,就算論述上有理也無法排除人為判定造成的謬誤。

另外現有的演算法可能存在缺陷 (Fig 1.),當該基因演化時間較長,累積的突變多到同源基因間的歧異過大,以至於演算法無法比對出同源關係,該基因就會被誤認為 de novo。不過演化時間短的基因若來自 duplication,以目前的演算法不會無法比對。因此作者認為對鱈魚抗凍蛋白的推測不致有此謬誤。然而若所重建的親緣關係與實際演化關係差異過大,而在錯誤的物種中搜尋比對之對象,便可能找不到相應的基因。在此情況下即使找到,也會對該基因的演化做出錯誤的結論。另外該基因可能在演化過程中大量丟失或滅絕,以至於沒有可列入比對 duplication 之物種。更別提許多植物與微生物的基因組常發生水平轉移,若資料庫不夠全面,難以確認基因實際的來源。然而可以預見,長時間的資料累積,將有助於解決這些問題。  



Fig.1 基因可能經歷之演化歷程。a. 基因在 A 發生突現,在其他演化支未發現相似序列。b-e. 被誤認為基因突現之演化歷程。b. duplication 發生於AB 之祖先,在 B 支系丟失該基因所有副本,因此只存在於 Ac. duplication 發生於AB 之祖先,在 B 支系累積大量突變,與原基因差異過大,演算模型無法辨識其同原性。d. duplication 發生於ADE 之祖先,D E 滅絕,故無法找到相似序列。e. duplication 發生於ADE 之祖先,因取樣不完全或親緣重建錯誤未被納入分析。

目前基因突現仍是非常新生的議題,可以填補 duplication 理論中,第一個基因是如何產生的問題。生命起源的假說認為,無生命的大海中,無序的分子因為彼此的交互產生自我複製之能力,在此之後產生了分子生物學的中心法則。若能重建原本雜亂的核酸序列,如何演變成指導下游分子生成之過程,便能更加貼近學界對生命起源的認知。儘管基因突現似乎廣泛存在各演化支,然而研究難度也相當高,且理論本身有許多需要修正的地方。目前仍仰賴更好的分子演化模型以及更全面的基因組資料庫,才能得到更貼近事實的推論。

1. mRNA 上常見的終止編碼包含 UAGUAAUGA;對應到 DNA 上則為 TAGTAATGA。因此 CG rich 之序列可產生長鍊且具功能氨基酸序列之機率較高。但不代表演化時間短的蛋白質都是來自 CG rich 序列。 
2. 混亂因子用來描述核酸序列中可能對應到影響理論產物功能的片段,可藉由測量 intrinsic structural disorder (ISD) 量化混亂程度。仰賴蛋白質結構學的基礎建立演算模型,以推算特定序列的 ISD

Levy 2019 on Nature news

Baalsrud et al. 2018 Molecular Biology and Evolution 35(3): 593–606

de novo gene birth_wiki



沒有留言:

張貼留言