2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。
一種新的機器學習方法可以準確地識別已被復制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關。這項由賓夕法尼亞州立大學研究人員開發(fā)的新方法整合了幾種算法的數(shù)據(jù),這些算法試圖從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異 - 僅對人類基因組的蛋白質(zhì)編碼區(qū)進行高通量DNA測序。一篇描述該方法的論文,可以幫助臨床醫(yī)生提供更準確的遺傳性疾病診斷,發(fā)表在Genome Research期刊上。
“外顯子組測序正迅速成為鑒定臨床環(huán)境中遺傳變異的黃金標準,因為它比其他方法更快,更便宜,”賓夕法尼亞州立大學生物化學和分子生物學副教授,該論文的第一作者Santhosh Girirajan說。“然而,目前用于從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異的算法具有非常高的假陽性率 - 它們識別的許多變體實際上并不真實。使用我們稱為“CN-Learn”的新方法,我們報告的大約90%的拷貝數(shù)變種是真實的。“
一種隨機森林機器學習方法,用于從外顯子組測序數(shù)據(jù)中識別拷貝數(shù)變異。在經(jīng)驗證的一組遺傳缺失和重復上訓練了數(shù)百個決策樹的森林,然后可以使用從這些樹建立的模型來準確地識別樣本外顯子組測序數(shù)據(jù)中的拷貝數(shù)變異。圖片來源:賓夕法尼亞州Girirajan實驗室
人類基因組通常包含每個基因的兩個拷貝,一個在染色體對的每個成員上。當一個細胞分成兩個時,基因組被復制,以便每個子細胞獲得完整的基因補充,但偶爾會在基因組復制過程中發(fā)生錯誤,當存在于精子或卵細胞中時,會導致個體獲得更多或少于兩個基因拷貝。
為了從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異,研究人員研究了從每個基因產(chǎn)生的DNA序列的相對數(shù)量。如果個體中只存在一個基因拷貝,那么他們希望看到的測序讀數(shù)比有兩個拷貝時更少,而且三個拷貝的基因會導致更多的讀數(shù)。但它并不那么簡單,因為許多其他因素可以影響從每個基因產(chǎn)生多少測序讀數(shù)。因此,研究人員開發(fā)了幾種算法,試圖從外顯子組測序數(shù)據(jù)中正確識別拷貝數(shù)變異。然而,單獨地,這些算法不是特別可靠。
“通常,復制數(shù)變量算法的大量誤報已經(jīng)通過使用多種算法來處理,并且只計算所有方法所確定的變體 - 如維恩圖,”Vijay Kumar Pounraja說,他是研究生。賓夕法尼亞州立大學和論文的第一作者。“這種方法有許多缺點和局限,因此我們決定開發(fā)一種新的機器學習方法。”
CN-Learn整合來自四種不同拷貝數(shù)變異算法的數(shù)據(jù),并使用一小組經(jīng)過生物學驗證的缺失和重復來學習這些基因組事件的特征。這種學習過程由稱為“隨機森林”的機器學習算法促進,該算法使用數(shù)百個決策樹來模擬刪除和重復的遺傳背景與它們被驗證的可能性之間的關系。然后,CN-Learn使用此模型預測其他樣本中的刪除和重復,而無需驗證。
“關于患者的診斷和最終治療的決定是基于這些信息做出的,因此將它們弄好是非常重要的,”Girirajan說。“正因為如此,我們已經(jīng)將CN-Learn和所有必要的支持程序提供給一個簡單的軟件包下載。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。