您的位置: 首頁 >科技 >

磁盤數(shù)據(jù)還能儲存在你的DNA上

2022-06-28 02:00:51 編輯:杜罡丹 來源:
導(dǎo)讀 幾年前,連研究人員都不愿使用DNA來存儲數(shù)據(jù),覺得這么做太超前了,不具有任何實(shí)用價值。今天,你可以使用合適的軟件和生化模塊來擴(kuò)展Pos

幾年前,連研究人員都不愿使用DNA來存儲數(shù)據(jù),覺得這么做太超前了,不具有任何實(shí)用價值。今天,你可以使用合適的軟件和生化模塊來擴(kuò)展PostgreSQL,并在DNA上運(yùn)行SQL。本文轉(zhuǎn)載自云頭條,原作者Heinis和Appuswamy。原標(biāo)題《突破!DNA上的SQL查詢已經(jīng)成為現(xiàn)實(shí)》。億歐智慧城市對文章進(jìn)行二次編輯,供讀者參考。幾年前,連研究人員都不愿使用DNA來存儲數(shù)據(jù),覺得這么做太超前了,不具有任何實(shí)用價值。今天,你可以使用合適的軟件和生化模塊來擴(kuò)展PostgreSQL,并在DNA上運(yùn)行SQL。

當(dāng)下全世界的數(shù)據(jù)浪潮來勢兇猛,不僅超出了我們理解數(shù)字和衡量單位(比如澤字節(jié))的能力,還超出了我們存儲海量數(shù)據(jù)的能力。

一切都變得數(shù)字化,一切都日益在基于算法的應(yīng)用軟件上運(yùn)行,這些算法拿數(shù)據(jù)來訓(xùn)練,反過來生成更多的數(shù)據(jù),饋送給為更多的下游應(yīng)用軟件和算法……結(jié)果可想而知。

簡而言之,按照這種步伐,很快就沒有足夠的數(shù)據(jù)存儲和計(jì)算材料以滿足需求。這就是為什么人們現(xiàn)在一直在尋找替代的存儲介質(zhì)以存儲數(shù)據(jù)。使用DNA存儲數(shù)據(jù)乍一聽很奇怪,實(shí)際上大有意義。現(xiàn)在研究人員已取得了重大突破,他們因而能夠?qū)NA存儲整合到PostgreSQL這種流行的開源數(shù)據(jù)庫中。

DNA是一種信息編碼機(jī)制

究其核心,DNA是一個數(shù)據(jù)存儲層。DNA由四種基礎(chǔ)部分組成:腺嘌呤、鳥嘌呤、胞嘧啶和胸腺嘧啶(又名AGCT)。DNA由這四個堿基組成三個核苷酸形成的三聯(lián)體(名為密碼子)。密碼子是給人體細(xì)胞下達(dá)蛋白質(zhì)形成指令的單位。

我們的信息技術(shù)基礎(chǔ)設(shè)施基于以比特(包括兩個數(shù)字:0和1)來存儲信息,而DNA信息存儲在四個潛在堿基單位的串中。為了將非遺傳信息存儲在DNA中,我們必須先將二進(jìn)制數(shù)據(jù)從比特轉(zhuǎn)換成DNA數(shù)據(jù)的四單位(AGCT)結(jié)構(gòu)。

將比特轉(zhuǎn)換成DNA序列(圖片來源:Shaan Ray)

理論部分實(shí)際上相當(dāng)簡單。與使用硅或磁性介質(zhì)(其工作原理基于將狀態(tài)存儲為1和0序列的能力)一樣,我們可以使用DNA,存儲A、G、C和T組成的序列。但是這實(shí)際上如何運(yùn)作?——該如何將數(shù)據(jù)寫入到DNA和從DNA中讀取數(shù)據(jù)?

這可能聽起來太過遙遠(yuǎn),但分子技術(shù)的進(jìn)步使其變得切實(shí)可行,盡管并不稱心如意。這一切意味著,確實(shí)能夠以一種可以在DNA上存儲和檢索信息的方式來編碼信息,分別利用DNA合成和DNA測序。

比如說,微軟已展示了世界上第一個自動化的DNA數(shù)據(jù)存儲和檢索系統(tǒng)。你可能想知道這個DNA來自哪里,告訴你:這是合成DNA,生成合成DNA的陣列是系統(tǒng)的一部分。

天然存在的DNA呈現(xiàn)有兩條核苷酸鏈的雙螺旋這種結(jié)構(gòu)。相比之下,用于數(shù)據(jù)存儲的DNA是單鏈核苷酸序列,又叫寡核苷酸(oligo),它是使用每次一個核苷酸來組裝DNA的化學(xué)過程合成的。

法國通信系統(tǒng)工程師學(xué)校與研究中心(Eurecom)數(shù)據(jù)科學(xué)系助理教授Appuswamy和倫敦帝國理工學(xué)院SCALE實(shí)驗(yàn)室負(fù)責(zé)人Heinis最近發(fā)表了DNA存儲方面的開創(chuàng)性成果。

使用DNA在現(xiàn)實(shí)世界存儲數(shù)據(jù)

Heinis和Appuswamy在創(chuàng)新數(shù)據(jù)系統(tǒng)研究大會上發(fā)表了題為“OligoArchive:在DBMS存儲層次結(jié)構(gòu)中使用DNA”的研究論文

(http://cidrdb.org/cidr2019/papers/p98-appuswamy-cidr19.pdf)。

雖然他們并非最先使用DNA來存儲和檢索數(shù)據(jù),卻最先針對結(jié)構(gòu)化數(shù)據(jù)這么做,與現(xiàn)成數(shù)據(jù)庫集成起來,而且不僅限于存儲,還實(shí)現(xiàn)了計(jì)算。

DNA作為數(shù)據(jù)存儲層方面要認(rèn)識到的第一點(diǎn)是,每次執(zhí)行寫入操作時,都必須合成寡核苷酸。這實(shí)際上將如何做到?實(shí)驗(yàn)室技術(shù)人員是否要待命執(zhí)行此操作,并為用于化學(xué)過程的原材料“重新灌滿油箱”?

據(jù)Appuswamy和Heinis聲稱,并非如此,微軟用自動化的DNA存儲和檢索系統(tǒng)演示了其在這方面的價值。結(jié)果表明,可以在無需人參與的情況下操作這種陣列。就像沒人監(jiān)管數(shù)據(jù)中心的日常運(yùn)營一樣(維護(hù)除外),基于DNA的數(shù)據(jù)中心將同樣如此。

不過,我們離合成DNA陣列替換傳統(tǒng)硬盤還遠(yuǎn)得很。首先,以這種方式存儲數(shù)據(jù)的現(xiàn)代技術(shù)速度非常慢。最初,存儲1兆字節(jié)的數(shù)據(jù)需要科學(xué)家花一周時間。

Appuswamy和Heinis都認(rèn)為這方面需要做更多的工作。雖然這超出了他們自身研究的范圍,所以只好等生化組合過程趕上來,但他們確實(shí)讓人看到了希望。

首先,他們特別指出存儲速度在變得越來越快,目前每秒可以存儲數(shù)KB。比如說,盡管與SSD相比速度仍然慢得要命,但已是相當(dāng)大的進(jìn)步。這個速度對于Appuswamy和Heinis的研究設(shè)想的使用場景:歸檔存儲而言實(shí)際上可以接受。

數(shù)據(jù)庫引擎使用三層存儲層次結(jié)構(gòu),這種層次結(jié)構(gòu)包括價格/性能特點(diǎn)大不一樣的眾多設(shè)備。性能層存儲高性能OLTP和實(shí)時分析這類應(yīng)用訪問的數(shù)據(jù)。

容量層存儲對延遲不敏感的批處理分析這類應(yīng)用訪問的數(shù)據(jù)。歸檔層用于存儲極少訪問的數(shù)據(jù),比如在安全合規(guī)檢查或法務(wù)審計(jì)期間。如今,磁帶通常用于這一層。

OligoArchive改變了數(shù)據(jù)庫存儲層次結(jié)構(gòu):它將基于磁帶的歸檔層換成了基于DNA的歸檔層。合成DNA使用額外的預(yù)防措施來加以存儲;至于將基于DNA的存儲用于普通設(shè)備效果有多好還成問題。但數(shù)據(jù)和數(shù)據(jù)庫進(jìn)入云端是大勢所趨,只要你的數(shù)據(jù)安全地存儲在數(shù)據(jù)中心,它在最終用戶眼里就是黑盒子。

在DNA上運(yùn)行SQL

Appuswamy和Heinis還特別指出,盡管速度仍很慢,但DNA存儲在并行處理方面大有潛力。這是由于DNA存儲數(shù)量充足、成本低廉——或者更準(zhǔn)確地說,希望最終會如此。按目前情況來看,存儲1分鐘的高質(zhì)量立體聲將花費(fèi)10萬美元。

雖然使用合成DNA用于大規(guī)模存儲仍然成本過于高昂,但Appuswamy和Heinis表示,他們預(yù)計(jì)每一次科技突破(包括存儲技術(shù))通常會使成本大幅下降。

如果合成寡核苷酸在經(jīng)濟(jì)上變得可行,讓許多寡核苷酸滿足存儲需求自在情理之中。這意味著讓許多DNA存儲單位并行操作這方面巨大潛力。雖然并非每種算法的每個方面都可并行化,但對于果真可并行化的算法而言,可以大幅提升速度。這引出了一個關(guān)鍵點(diǎn)。

就在不久前,DNA還被用于存儲非結(jié)構(gòu)化文件,無論是文本、視頻或諸如此類的數(shù)據(jù)。 Appuswamy和Heinis所做的是將DNA存儲集成到關(guān)系數(shù)據(jù)庫中。他們拿來標(biāo)準(zhǔn)數(shù)據(jù)庫基準(zhǔn)測試TPC-H中包含的數(shù)據(jù)和查詢,在PostgreSQL實(shí)例上運(yùn)行TPC-H。不是串行訪問,而是隨意選擇數(shù)據(jù)。

將結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)庫系統(tǒng)中,后端使用DNA,并通過SQL來查詢,這在今天已成為現(xiàn)實(shí)。

研究人員為PostgreSQL構(gòu)建了歸檔和恢復(fù)工具(pg_oligo_dump和pg_oligo_restore),這些工具在DNA上對關(guān)系數(shù)據(jù)執(zhí)行感知模式的編碼和解碼,然后他們用這些工具將12KB TPC-H數(shù)據(jù)庫歸檔到DNA,執(zhí)行體外計(jì)算,然后再恢復(fù)該數(shù)據(jù)庫。

這意義重大。這意味著現(xiàn)在DNA存儲還可以支持SQL操作,選擇性地訪問和處理部分?jǐn)?shù)據(jù)。請注意:數(shù)據(jù)并不被提取到數(shù)據(jù)庫以便在那里執(zhí)行操作。Appuswamy和Heinis找到了一種方法在寡核苷酸中處理SQL連接之類的操作。這超出了生化存儲的范疇,還涉及生化計(jì)算。

用于編碼和解碼進(jìn)出DNA的信息的技術(shù)存在著缺陷;然而要做到這一點(diǎn),研究人員就得處理與這些缺陷有關(guān)的一堆問題。在DNA上執(zhí)行操作需要專門的編碼技術(shù),這些技術(shù)可以生成適合生化操作的寡核苷酸。讀取DNA數(shù)據(jù)目前很容易出錯,而以前的研究依賴數(shù)據(jù)過度表示:數(shù)據(jù)以多個副本寫入,因此即使原始數(shù)據(jù)被破壞,還有備份。

相比之下,Appuswamy和Heinis依賴元數(shù)據(jù)。他們在編寫的代碼段中添加了一些額外的數(shù)據(jù),利用數(shù)據(jù)庫模式感知功能。他們表明,這可以在編碼(寫入)過程中提高密度,并有助于在解碼(讀取)過程中識別錯誤。他們特別指出實(shí)際效果比預(yù)期的好——一點(diǎn)元數(shù)據(jù)就大有幫助。

DNA是數(shù)據(jù)的未來嗎?

盡管技術(shù)堆棧的某些部分還不成熟,但這是一項(xiàng)重大突破。讓已有的數(shù)據(jù)中心擁有充足的存儲資源可以改變游戲規(guī)則。但將DNA這種數(shù)量充足的材料充當(dāng)存儲和計(jì)算的可行介質(zhì)具有重大影響,遠(yuǎn)非我們所能想象。

這可能只是朝這個方向邁出的第一步,但每段旅程都從第一步開始。Appuswamy和Heinis并非單槍匹馬開展這項(xiàng)工作,他們也不會憑一己之力開展進(jìn)一步的研究。他們的項(xiàng)目OLIGOARCHIVE一直在取得進(jìn)展,這歸功于與法國蔚藍(lán)海岸大學(xué)(UCA)和CNRS的其他研究人員進(jìn)行合作,因而得以壯大研究團(tuán)隊(duì),并擴(kuò)大研究范圍。

Eurecom、CNRS、ICL、UCA以及DNA合成初創(chuàng)公司Helixworks已獲得資助,以進(jìn)一步開展DNA存儲方面的研究。該系統(tǒng)將旨在支持編碼數(shù)據(jù),將數(shù)據(jù)合成為DNA,并通過測序讀回數(shù)據(jù)這整個過程完全實(shí)現(xiàn)自動化。它將存儲眾多不同類型的數(shù)據(jù),并實(shí)現(xiàn)近數(shù)據(jù)處理和數(shù)據(jù)的精確檢索。

將數(shù)據(jù)存儲在DNA中方面的進(jìn)一步研究將得到的資助。

該項(xiàng)目通過未來和新興技術(shù)(FET)計(jì)劃獲得資金,該計(jì)劃投資致力于研究全新未來技術(shù)方面新想法的早期階段項(xiàng)目,在早期階段很少有研究人員開展項(xiàng)目課題。雖然這似乎是天作之合,但我們很想知道商業(yè)機(jī)構(gòu)有沒有找過這些研究人員。

Appuswamy和Heinis提到,到目前為止,感興趣的主要是其他研究人員,不過微軟是個例外。倒不是這方面有任何實(shí)際成果,而是眼下微軟似乎比其他任何公司抱有更大的興趣。

在這項(xiàng)技術(shù)方面獲得優(yōu)勢可能意味著主導(dǎo)未來,因?yàn)檫@個領(lǐng)域的突破將帶來巨大影響。 Appuswamy和Heinis特別指出,人們的態(tài)度表明了這一點(diǎn):“幾年前,人們會覺得這遙不可及。而今天,我們告訴他們我們在做的工作后,他們的態(tài)度是‘告訴我們更多’”。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。