記者今天從中國農業科學院獲悉,該院生物技術研究所汪海博士與美國康奈爾大學愛德華?巴克勒院士團隊合作,開發出從基因組DNA序列預測基因表達調控模式的人工神經網絡模型,該成果在分子育種領域的作用相當于谷歌的“AlphaGo”之于圍棋,為實現人工智能輔助定向育種奠定了基礎。
這一研究成果已于近日在線發表在《美國科學院院刊(PNAS)》上。
從蘋果的Siri到谷歌的AlphaGo,人工智能技術正在以席卷態勢進入公眾的視野與生活。不過汪海表示,人工智能技術在基因組學研究中尚未得到廣泛的應用,其中的一個需要解決的難題就是,生物中具有許多序列高度相似性的基因家族,在訓練神經網絡模型時將基因隨機分配到訓練集和測試集中,會導致該模型優先學習DNA序列中跟基因家族或進化相關的基序,而不是真正決定基因表達調控的基序。
此次研究以基因家族代替單個基因為單位隨機分配訓練集和測試集數據,成功建立了預測二元化基因表達量的卷積神經網絡模型;進一步利用多種算法進行解析,獲得了調控基因表達的關鍵DNA基序。在此模型基礎上,科研人員利用進化上親緣關系較近的兩個物種,成功預測了同源基因的相對表達量,并進一步獲得了調控同源基因相對表達量的關鍵DNA基序。
汪海研究團隊表示,該研究建立的深度學習模型在基礎理論研究和作物設計育種中具有廣泛的應用前景。比如,未來可以在計算機中對基因組DNA序列進行虛擬誘變,并利用神經網絡模型預測變異的后果,從中挑選符合預期目標的變異序列進行實驗驗證,從而實現低成本定點定向設計育種。