記者從中國農業科學院獲得最新消息,該院生物技術研究所汪海博士與美國康奈爾大學愛德華?巴克勒(Edward Buckler)院士團隊合作,開發出從基因組DNA序列預測基因表達調控模式的人工神經網絡模型,為實現人工智能(AI)輔助定向育種奠定了基礎。相關研究成果在線發表在《美國科學院院刊(PNAS)》上。
從蘋果的Siri到谷歌的AlphaGo,人工智能技術正在以席卷態勢進入公眾的視野與生活。以人工神經網絡為代表的最新一代人工智能技術具有比傳統機器學習技術更強大的數據挖掘能力,但是,人工智能技術在基因組學研究中尚未得到廣泛的應用。其中的一個需要解決的難題就是,生物中具有許多序列高度相似性的基因家族,在訓練神經網絡模型時將基因隨機分配到訓練集和測試集中,就會導致神經網絡模型優先學習DNA序列中和基因家族或進化相關的基序,而不是真正決定基因表達調控的基序。
該研究以基因家族代替單個基因為單位隨機分配訓練集和測試集數據,成功建立了預測二元化基因表達量(binary gene expression levels)的卷積神經網絡模型。此外,進一步利用多種算法進行解析,獲得了調控基因表達的關鍵DNA基序。在此模型的基礎上,科研人員利用進化上親緣關系較近的兩個物種,成功預測了同源基因的相對表達量,并進一步獲得了調控同源基因相對表達量的關鍵DNA基序。
該研究建立的深度學習模型在基礎理論研究和作物設計育種中具有廣泛的應用前景。首先,該模型可以應用在分子生物學基礎研究的各個領域,例如預測基因的時空表達特異性、轉錄因子結合位點、開放染色質、各種表觀遺傳印記、染色體重組位點等。第二,深度學習模型可以克服傳統線性模型的弱點,精確預測低頻/罕見變異的分子表型和田間表型效應。第三,未來可以在計算機中對基因組DNA序列進行虛擬誘變,并利用神經網絡模型預測變異的后果,從中挑選符合預期目標的變異序列進行實驗驗證,從而實現低成本定點定向設計育種。