納米孔測序檢測DNA甲基化準確率達99%,王凱、肖傳樂等Nature子刊發表新算法



DNA甲基化作為表觀遺傳學的重要現象之一,在調控基因組印記、X染色體失活、轉座子抑制、表觀遺傳“記憶”維持和腫瘤發生等生命過程中起重要作用。目前DNA表觀修飾檢測方法主要有兩種:重亞硫酸鹽轉化測序法和免疫沉澱測序法。重亞硫酸鹽轉化測序法將未甲基化的胞嘧啶轉化為尿嘧啶後通過二代測序進行檢測,但缺點是轉化效率受限以及短讀取測序對於基因組重複區域不能準確鑑定;免疫沉澱測序法能夠檢測DNA或RNA甲基化修飾,但達不到單鹼基分辨率。

新興的第三代測序技術(PacBio SMRT和Nanopore測序)能夠直接檢測DNA甲基化修飾:PacBio SMRT測序通過熒光信號時間延遲效應檢測DNA修飾;Nanopore測序通過鹼基附近的電信號會發生變化檢測DNA修飾。PacBio修飾檢測準確度依賴於較高的覆蓋度,高額的測序成本嚴重製約了其應用於表觀修飾檢測。Nanopore測序的電信號對鹼基修飾比較敏感,而且其測序成本低廉,因此Nanopore測序檢測表觀修飾或將成為未來主流方向。

費城兒童醫院王凱教授團隊、中山大學中山眼科中心肖傳樂教授團隊和北京希望組公司團隊於6月4日,在Nature Communications雜誌上聯合發表題為“Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data”的研究論文,建立了識別Nanopore表觀修飾的深度循環神經網絡模型,並開發了相應的軟件DeepMod。


圖1.該文章發表在Nature Communications

深度循環神經網絡廣泛應用於人工智能領域,如手寫識別、語音識別等序列特徵建模。研究者採用LSTM-RNN深度循環神經網絡作為深度學習框架(圖2),採取兩種獨立的策略利用多個Nanopore測序數據集進行訓練和校正,完成了5mC和6mA檢測模型的建立。



圖2. DeepMod流程圖

隨後,研究者利用建立好的模型對大腸桿菌和人NA12878數據集的5mC修飾進行預測,檢測平均精度高達99%,達到全基因組單鹼基分辨率(圖3)。接著,NA12878的1-10號染色體被用於訓練模型,利用該模型對人HX1和大腸桿菌數據集進行預測,同樣展示出精確的5mC預測結果,表明基於某一物種進行訓練的DeepMod具有跨物種表觀修飾檢測能力。最後,利用大腸桿菌和萊茵衣藻數據集對6mA模型進行評估,表現出將近90%的預測精度和跨物種預測能力(圖4)。



圖3. DeepMod對大腸桿菌5mC預測性能的評價



圖4. DeepMod對大腸桿菌6mA預測性能的評價

綜上所述,該研究為Nanopore應用於表觀修飾領域提供了重要的軟件工具—DeepMod。首次將5mC的準確率提高到99%,實現了5mC的精準檢測;首次建立了原核和真核通用6mA和5mC檢測方法;並建立了首個Nanopore真核生物6mA修飾標準集。

隨著Nanopore測序的發展,包含有表觀修飾信息的ONT測序數據飛速增加,DeepMod優異的全基因組水平5mC和6mA檢測性能,跨物種通用檢測能力,擴展到其他類型DNA修飾的巨大潛力,將為Nanopore測序數據的表觀修飾信息挖掘提供重要幫助。

資料來源出處