3月6日,中國(guó)農(nóng)業(yè)科學(xué)院生物技術(shù)研究所汪海博士與美國(guó)康奈爾大學(xué)愛(ài)德華·巴克勒(Edward Buckler)院士團(tuán)隊(duì)合作,開發(fā)出從基因組DNA序列預(yù)測(cè)基因表達(dá)調(diào)控模式的人工神經(jīng)網(wǎng)絡(luò)模型,為實(shí)現(xiàn)人工智能(AI)輔助定向育種奠定了基礎(chǔ)。相關(guān)研究成果在線發(fā)表在《美國(guó)科學(xué)院院刊(PNAS)》上。
從蘋果的Siri到谷歌的AlphaGo,人工智能技術(shù)正在以席卷態(tài)勢(shì)進(jìn)入公眾的視野與生活。以人工神經(jīng)網(wǎng)絡(luò)為代表的最新一代人工智能技術(shù)具有比傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)更強(qiáng)大的數(shù)據(jù)挖掘能力,但是,人工智能技術(shù)在基因組學(xué)研究中尚未得到廣泛的應(yīng)用。其中的一個(gè)需要解決的難題就是,生物中具有許多序列高度相似性的基因家族,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)將基因隨機(jī)分配到訓(xùn)練集和測(cè)試集中,就會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型優(yōu)先學(xué)習(xí)DNA序列中和基因家族或進(jìn)化相關(guān)的基序,而不是真正決定基因表達(dá)調(diào)控的基序。
該研究以基因家族代替單個(gè)基因?yàn)閱挝浑S機(jī)分配訓(xùn)練集和測(cè)試集數(shù)據(jù),成功建立了預(yù)測(cè)二元化基因表達(dá)量(binary gene expression levels)的卷積神經(jīng)網(wǎng)絡(luò)模型。此外,進(jìn)一步利用多種算法進(jìn)行解析,獲得了調(diào)控基因表達(dá)的關(guān)鍵DNA基序。在此模型的基礎(chǔ)上,科研人員利用進(jìn)化上親緣關(guān)系較近的兩個(gè)物種,成功預(yù)測(cè)了同源基因的相對(duì)表達(dá)量,并進(jìn)一步獲得了調(diào)控同源基因相對(duì)表達(dá)量的關(guān)鍵DNA基序。
該研究建立的深度學(xué)習(xí)模型在基礎(chǔ)理論研究和作物設(shè)計(jì)育種中具有廣泛的應(yīng)用前景。首先,該模型可以應(yīng)用在分子生物學(xué)基礎(chǔ)研究的各個(gè)領(lǐng)域,例如預(yù)測(cè)基因的時(shí)空表達(dá)特異性、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、開放染色質(zhì)、各種表觀遺傳印記、染色體重組位點(diǎn)等。第二,深度學(xué)習(xí)模型可以克服傳統(tǒng)線性模型的弱點(diǎn),精確預(yù)測(cè)低頻/罕見(jiàn)變異的分子表型和田間表型效應(yīng)。第三,未來(lái)可以在計(jì)算機(jī)中對(duì)基因組DNA序列進(jìn)行虛擬誘變,并利用神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)變異的后果,從中挑選符合預(yù)期目標(biāo)的變異序列進(jìn)行實(shí)驗(yàn)驗(yàn)證,從而實(shí)現(xiàn)低成本定點(diǎn)定向設(shè)計(jì)育種。(通訊員 崔艷)
原文鏈接:https://www.pnas.org/content/early/2019/03/05/1814551116