如何自學生物信息學?

從頭開始學,好像快點處理數據,很多時候都不知道目的是什麼
生物探索     512014-10-20 10:41:24
成為頂級生物信息學家的五個等級(來自薛宇/科學網博客)

如何成為頂級的生物信息學家?看你的研究。業內人士Shirley將生物信息學研究(注意,不是生物信息學者本人)的水平劃分成五個層次。此外,Shirley不區分生物信息學(Bioinformatics)和計算生物學(Computational biology),因此這兩個概念不做區分。在這裡咱再重複一遍,生物信息學和計算生物學的區別,就是西紅柿炒蛋和蛋炒西紅柿的區別。

0級 (Level 0)

為建模、而建模(modeling for modeling』s sake)。簡稱:渣級。

Shirley在博客里提到說「如果你記得功夫熊貓」,問題是我沒記得這個,腦子裡想的是《憨豆的黃金周》里那段nothing, nothing, nothing… 原博舉的例子是,之前有人問:現在數據這麼多,能建模的東西一大把,那我們該干點啥呢?Shirley就問:你想解決啥問題?答:建模的問題。這就像我坐電梯看見認識的研究生,說小伙最近忙啥呢?答:做水稻呢。繼續問:具體研究的啥?不高興了,詫異:研究水稻啊!然後給我解釋了半天中國要研究水稻的必要性。我…兄弟我每天吃米飯還固定要研究水稻三遍呢。原文解釋,這個回答是OK的,如果科學家僅僅將自己當成數學家、統計學家、計算機科學家、物理學家,或者像我這樣用嘴巴研究水稻的吃貨,因為在這些學者各自的領域裡,確實有許多好的理論建模問題。但如果這些學者是認真對待生物信息學的研究,這個回答不OK。許多0級生物信息學家們從來不讀或者不發表生物學期刊上的論文,也不參加生物學的會議,因此這個級別屬於「未入門級」。根據人以類聚,物以群分的原則,0級生物信息學家們通常只閱讀自己或者其他0級生物信息學家的論文,並且,並且引用也是自引或者被同級別的學者引用。因此這類研究就是浪費資源。

1級(Level 1)

給數據、能分析。簡稱:菜鳥級。

這類研究一般是分析自己或者合作者實驗室里未發表的數據,並試圖獲得新的生物學發現。相比與0級,這已經有很大的進步,並且是訓練生物信息學者最好的途徑之一。可以練習將已有的生物信息學技術來做出真正生物學發現的技巧,學習更多的生信技術和生物學知識,可以啟發、衍生出2級和3級的好課題。評價1級科研的功底和水平要看數據有多複雜, 是否需要生信人員寫一些程序和演算法(而不是只用他人的工具),生信分析在整個研究中的有重要性 (最重要的假設發現是不是由生物信息分析出來的,文章中生信圖表的個數),實驗與計算的結合程度 (實驗與計算 環環相扣,而不是高通量實驗數據獲得完跟個生信分析就拉倒),以及研究中生物學的發現是不是真的有意思,等等。因此兄弟我的看法是,1級雖然是「入門級」,但非常非常重要,所有生信專業研究生的必經之路,非生信領域的學者或學生,能達到1級中已可算是高手,進階到1級上那就是鳳毛麟角了。

2級(Level 2)

想新招、玩數據。簡稱:肉鳥級。

具有2級水準的生信研究有:1) 設計方法解決生物醫學相關大數據分析中普適、定量的問題。比如咱生信課本里經典的用於雙序列比對的Smith-Waterman演算法等等;2) 設計演算法來分析新的高通量技術所獲得的數據,例如華大基因設計的用於二代測序短讀段 (read) 映射到基因組上的SOAP系列工具,這就是典型的2級工作;3) 從各種公共數據中通過整合建立資料庫或數據資源。這個太多了,生信領域各種專業、精心註釋的資料庫,都屬於2級的研究。2級比1級高的地方,在於1級只能幫助一個實驗室或者固定的、極有限的合作者,而2級的工作則可以幫助數百甚至數千的生物學家。2級的工作不必須發表在頂級的期刊上,時間會證明一切,比如分子進化領域的經典軟體MEGA,每年幾千的引用跟玩兒一樣。這些方法並不見得必須要非常新,利用已有的統計或者計算方法來解決新的生物學問題已經足夠保證其新穎性,但必須儘可能保證用戶的友好性。開發者一般在發表之後還需要做非常非常多的工作,比如維護、升級,即使不在發表後續的論文。評價2級的生信研究工作不能數影響因子,但做的好卻比較容易被領域認可(例如,華大基因發表NCS對咱搞生信的來說未必認可,但人家的SOAP系列做的肯定是專業水準的)。此外,2級的研究要做的好,生物信息學者一般需要專註於自己特定的方向,從而能夠較好地了解領域內相關的、新的計算方法和實驗技術。總體來說,國內生信專業的博士畢業,一般起碼要做出2級下水平的工作,總得有點兒新玩意兒,不然想畢業幾乎是不可能的。而對於非生信領域的學者,從1級進階到2級幾乎是不可能的,咱生信人的飯碗,不是想砸就能砸的了的。所以對於業餘票友們來說,與其花精力試圖進階2級,還不如找專業學者合作更划算。

3級(Level 3)

玩數據、作發現。簡稱:頂級。

3級的生信研究一般是整合公共的高通量數據,利用相當精緻的方法來做出生物學發現。因此這樣的工作一般是從數據開始,實驗驗證結束。這就需要生物信息學家具有非常紮實的生物學知識,並且能夠自己提出有意思的生物學問題。生物信息學家可以領導一個生物學的項目,並且實驗學的合作者能夠相信預測的正確性以及意義,並樂意開展實驗驗證。這個級別的研究一般都需要實驗驗證,不然頂級的期刊不收。對這類工作的評價,主要是看生物學的問題是否有意思,數據整合和分析是否有足夠的技巧和合理性,並且也可以根據雜誌發表期刊的檔次(影響因子)來判斷。例如我在《環形RNA分子:論開掛在生命科學研究中的重要性》提到的工作,這是典型的3級研究。從2級進階到3級很困難,兄弟我目前正在努力中。

X級(Level X)

玩科學、講政治。簡稱:神級。

在這個級別,生物信息學家要在巨型項目產生的海量數據的整合和模擬中發揮關鍵作用。做這個級別工作的生物信息學家一般具有良好的1級和2級的研究記錄,並且在團隊研究中要具有非凡的領導才能。這些工作一般都發表在頂級的期刊,並且引用極好,在研究過程中要注意協調方方面面。儘管有時生信對於這些論文的發表是重要的,但往往數據本身可能比方法更重要。例如期刊判斷論文要依據其數據量的大小以及潛在的引用,而不是生信。此外,這類工作更多的是反映第一作者老闆們的領導力以及在領域裡的地位,而不是第一作者的技術能力和創造力。所以X級論文的第一作者們往往並不會得到足夠的認可。因此,這些工作中的一作在獨立研究之後,往往是必須建立科學的聲譽,並且與之前X級工作無關。學者參加一些X級的生信研究無可厚非,因為這些項目的成員一般在各自領域都是頂級學者。但如果學者只開展或者只發表X級的工作,那就表明該學者在政治方面的關注已經超過科學了。兄弟我舉例:典型的X級生信研究工作如艾瑞克?蘭德 (Eric Lander) 領銜的人類基因組草圖的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通訊作者,因為這篇論文主要是他寫的,所以數據也自然主要是他分析的。這篇論文影響深遠,最重要的就是基本確定了基因組學這類超級項目的研究範式以及論文的書寫格式,例如這類論文一般不帶後續的實驗驗證,所以也是有爭議。這也就是為什麼國內老是講華大在灌水的原因,第一,華大顯然是在灌水;第二,這個灌水模式是老外發明的;第三,那你很容易就能明白,其實老外灌的更狠;第四,你老外自己定的遊戲規則,你還玩不過華大,那你得懂「願賭服輸」這個道理。

Shirley總結,對於生物信息學者來說,一般從1級的研究開始,學習基本的生信技術;等到計算和生物學知識掌握差不多之後,可以嘗試想2級和3級進階,並且有可能也參與X級的研究。如果條件允許的話,一般有成就的生物信息學家的研究會從1級做到X級,不會專註某一個級別(所以搞生信研究不能挑食)。也有許多生信學者包括Shirley本人也在開始做實驗並且產生實驗數據,這樣實驗的內容要拿去跟實驗學家的工作去比,而計算部分則可按照上述五個類別來評價。因此,當您再讀基因組和生信的論文,可以帶著「這是什麼水平的生信工作」這個問題來閱讀。嘗試客觀的評價生信工作,而不是數論文發表期刊的影響因子。

註:本篇博文的觀點不代表本人觀點,但兄弟我對這些觀點表示無比的贊同。從1級到2級,對於生信專業的研究生和教師們來說不難,但2級到3級卻極其困難,對於和我年齡相當的同行朋友來說,要跨越這一步幾乎是難比登天。以及邁這個坎的,恭喜;如我般還在苦苦修鍊的,也不必心急,武功練到境界了,破關也就是水到渠成的事情。