“基因組數據的爆炸性增長是在2009年以后,我們是從2007年開始實施黃瓜基因組計劃的,應該說我們作出了正確的決策,徹底改變了2005年時蔬菜基因組國際競爭的局面。”3月24日,中國農業科學院蔬菜花卉所研究員、深圳農業基因組所副所長黃三文在中國農業科學院舉行的農科講壇上,向聽眾講述他和團隊破譯黃瓜基因組的故事。
為了探究黃瓜基因組大數據背后所代表的生命信息,黃三文帶領團隊歷時5年,分析黃瓜24000多個基因的變異和表達特征,逐個品嘗20畝黃瓜地中的6萬株黃瓜葉片和果實的味道,從一噸葉片中純化了毫克級的代謝中間產物。最終他們發現了黃瓜苦味的調控機制。
2014年11月28日出版的《科學》雜志以封面長篇論文形式發表了黃瓜苦味生物合成與調控的研究成果,揭示了黃瓜變苦的基因之路,這也是近幾年來《科學》《自然》和《自然—遺傳學》雜志第8次報道黃三文團隊的成果,對于我國蔬菜生物學研究是一次質的飛躍。
沉寂四年:從馬鈴薯轉戰黃瓜
從2005年應邀回國,直到2009年,黃三文課題組在《自然—遺傳學》雜志上發表黃瓜全基因組的文章,整整四年,黃三文的名字在國際學術期刊界是沉寂的。
2005年,時任農科院副院長的屈冬玉研究員和蔬菜花卉所所長的杜永臣研究員,邀請在荷蘭瓦赫寧根大學獲得博士學位的黃三文回國,到蔬菜所生物技術室成立了功能基因課題組。
經過多方努力,憑借在荷蘭的科研經歷,課題組一成立就如愿參與了由荷蘭瓦赫寧根大學發起的大型國際合作項目——國際馬鈴薯基因組計劃,這也是我國參加的第一個蔬菜基因組國際計劃。黃三文作為中方首席科學家負責項目的組織和執行。
然而計劃實施不久,擺在科研人員面前的“三座大山”就擋住了去路:被測試的馬鈴薯品種基因組高度雜合,拼接難度大;物理圖譜質量低,項目進度嚴重拖延;傳統測序方法成本太高,而且按染色體分工的合作方式,很難被協調統一掌控。
“我回國兩年基本沒有取得什么進展,壓力很大,怎么辦?”讓黃三文感到幸運的是,2006年初新一代測序技術浮出水面。“這就像北京市的房價降到了5塊錢一平方米,那買房子就不成為大家經濟上的困難了。”黃三文意識到,傳統的測序技術將退出歷史舞臺。
黃三文敏銳地捕捉到這一契機,他向杜永臣提出書面建議,闡述了我方主導完成項目的必要性,為帶動我國蔬菜基因組學研究的快速發展搶占先機。為了提高成功的可能,他決定先從基因組較小的黃瓜開始。
“黃瓜基因組比較小,約3.3億個堿基對,是設施栽培第一大蔬菜作物,其遺傳基礎狹窄,遺傳研究基礎差,易突出基因組序列的作用,育種基礎好,資源累計較多,可以作為瓜類作物的模式系統。”黃三文是這樣解釋選中黃瓜的原因的。
于是,國際黃瓜基因組計劃在蔬菜所自籌經費而生。他們提出“運用新一代基因組技術,挖掘蔬菜作物的遺傳潛能”,參加者有華大基因、中國農大、北京師大和國外若干單位。他們大膽采用了Solexa(Illumina)最新測序技術與傳統技術相結合的測序手段、全基因組鳥槍法測序策略等,并按照工作內容分工,形成了遺傳圖譜團隊、基因組文庫團隊、熒光原位雜交團隊、拼接測試團隊、分子育種團隊等,蔬菜所研究人員加入各個團隊,邊學習、邊督促。
雪藏一年:黃瓜全基因組一鳴驚人
其實2008年時,黃三文課題組就已得到了可靠的黃瓜全基因組數據,并構建了世界上第一張黃瓜高密度圖譜。但黃三文并沒有著急發表成果,而是著眼于這一成果的應用,思考更加廣闊的研究道路。雪藏一年后,他們才把成果投到《自然—遺傳學》雜志上,并一鳴驚人。
2006年時的二代測序技術還比較原始,比如現在的測序長度可達到250個堿基對,甚至400個堿基對,而當時測序長度只有35個堿基對。于是,他們采取了新技術與傳統技術相結合的方法,很快就繪制了高質量的黃瓜基因組框架圖。單堿基錯誤率只有十萬分之一,拼接總長達2.4億個堿基對。
黃三文團隊從頭構建了黃瓜的遺傳研究體系,包括高密度的連鎖遺傳圖譜、細胞遺傳學圖譜、比較遺傳圖譜、遺傳—物理整合圖譜,定位了99%的黃瓜基因。
這一成果作為世界上第一個蔬菜基因組,發表在《自然—遺傳學》上。該雜志高度重視這一成果,不僅作為封面文章,還配發社論。在這期雜志封面上采用了達爾文的頭像,因為達爾文曾經寫過一本書,里面很多內容是瓜類的,特別是黃瓜和南瓜的研究。
隨后幾年,黃三文課題組累計產生了10×1012(10Tbps)個堿基對的大數據。除了基因組以外,他們還研究了黃瓜的轉錄組,對100多個不同的黃瓜材料進行了測序,了解了黃瓜24000多個基因的表達模式,如在什么地方表達,在什么時期表達,在什么條件下表達,這些都是重要的信息。
為了系統掌握黃瓜的變異,他們收集3342份黃瓜種質資源,包括印度野生種、我國西雙版納種、華北黃瓜、華南黃瓜、日本黃瓜、土耳其黃瓜、歐洲黃瓜和美國黃瓜等。通過對所有資源進行基因組分析,最后篩選出115份核心資源,代表75%的遺傳多樣性,進行了18倍深度測序,最后發現接近400萬個變異位點。
利用這些數據,他們解析了黃瓜群體結構,發現黃瓜有4個群體:一個是在印度的野生群體;三個栽培群體,分別是東亞黃瓜、歐洲黃瓜和西雙版納黃瓜。黃瓜是在印度被馴化的,變異組數據很符合一個史實:約2200年以前張騫出使西域時黃瓜被引入中國華北。
“有了基因組以后,就有了‘共同語言’,我們可以把模式物種里面的知識翻譯到農業物種里面來;基因組是‘歷史書’,有了變異組數據,我們可以重新去揭示改良馴化;基因組是‘地圖勘探圖’,利用它,我們可以進行黃瓜苦味的生物合成、調控與馴化。”黃三文說。
潛心五年:破譯黃瓜苦味來源
在黃三文看來,基因組測序完成只是一小步,對海量數據的處理與運算才是更為重要的事情。
利用這些組織學資源,黃三文課題組發現了清香形成和苦味形成的侯選基因,特別是苦味形成的侯選基因發現為后來研究起到了重要的作用。
黃瓜的苦味是葫蘆素造成的,這種苦味在果實中存在會影響品質和生產效益,但在葉片中存在能提高抗蟲性,減少農藥施用;同時,葫蘆素是有希望的抗癌藥物,但生產難度大。因此,“苦味很重要。”黃三文說。
但是他們只有兩個線索。
一是2009年發現的染色體6上的Bi基因;二是2013年發現的染色體5上的Bt基因,這個基因是黃瓜馴化的主要基因。
但Bi和Bt是什么基因?苦味物質是怎么合成和調控的?野生黃瓜是怎么馴化的?為了回答這些問題,黃三文課題組的策略是大數據與分子生物學和生物化學。
通過全基因組關聯分析,他們發現Bi就是催化氧化形成四環的葫蘆二烯醇合酶的基因;隨后又通過突變體發現了BI基因,其負責調控葉片的部位;利用BI他們又發現了Bt;利用BI和Bt發現了另外8個合成基因。
這個過程,傳統研究方法需二三十年才能完成,用大數據分析方法卻在5年內做到了。
黃三文介紹,這項研究有三個意義:揭示了黃瓜苦味形成的雙重調控機制,葉片里面由BI調控,果實里面由Bt調控,這樣就給無苦味黃瓜育種提供了新的方案;證明了存在一類主開關基因能夠直接調控次生代謝基因簇;為通過合成生物學批量生產和改造葫蘆素用于抗癌藥物打開了一扇門。
這恰恰驗證了黃三文的“三層樓”黃金理論,即地基是基因組大數據,通過多學科交叉融合,搭建三層樓:第一層是基因組大數據與蔬菜生物學,第二層是基因組大數據與蔬菜育種,第三層是基因組大數據與蔬菜品質和營養。“三層樓”借鑒了人類基因組項目首席科學家Francis S. Collins的“基因組學時代的藍圖”的思想。
在黃瓜基因組計劃取得成功后,黃三文和團隊又攻克了馬鈴薯、白菜、番茄和西瓜基因組,并在黃瓜和番茄變異組研究上也取得突破,為我國蔬菜基因組研究鋪就了結實的“地基”。像解決黃瓜的苦味生物學問題一樣,他們還和其他團隊合作,正在闡明多個農藝性狀的分子機理,這都將為蔬菜全基因組設計育種提供知識基礎。“我相信不久的未來,基因組學研究能為大家吃上‘放心菜’做出具體的貢獻”。