欧美日韩特级黄片免费看_嫩草视频一区二区三区在线观看_91.精品国产91.久久久久_亚洲国产精品作爱爽爽爽_久久av无码人妻精品专区_日本巨乳少妇_亚洲天堂2018av_91视频污版下载_密桃av在线_男男调教视频

用一公斤DNA代替你的硬盤,靠譜嗎?

誠然,進入21世紀之后,這個世界的數(shù)據(jù)增長速度太快了,數(shù)據(jù)量級越來越大,按照現(xiàn)有發(fā)展速度傳統(tǒng)硅基存儲介質(zhì)是否還能撐住,就成為了許多人關(guān)心的一個問題

用一公斤DNA代替你的硬盤,靠譜嗎?

最近關(guān)于DNA存儲的文章刷屏了,消息源于今年2月19號華盛頓大學和微軟研究院合作在《Nature biotechnology》上發(fā)表的一篇有關(guān)DNA存儲的研究成果。對此我想發(fā)表一點自己的觀點,受限于我的認知,僅當是拋磚引玉了。

 

誠然,進入21世紀之后,這個世界的數(shù)據(jù)增長速度太快了,數(shù)據(jù)量級越來越大,按照現(xiàn)有發(fā)展速度傳統(tǒng)硅基存儲介質(zhì)是否還能撐住,就成為了許多人關(guān)心的一個問題,大家都在探討是否會有枯竭的那一天,如果枯竭了我們還能用什么東西來存儲我們的數(shù)據(jù)。于是存儲生命遺傳密碼的介質(zhì)——DNA就成了一個非常有希望的選項。

 

基因是怎么與二進制聯(lián)系起來的?

 

在談論我們的話題之前,先來了解一下DNA是如何存儲數(shù)據(jù)的。

 

 

原理本身并不復雜。

 

我們知道,計算機上存儲的數(shù)據(jù)都是依據(jù)電壓的高和低代表1和0來表示的,每一個數(shù)字、字符和標點符號都由唯一的一串01組合來構(gòu)成。比如小寫字母“e”的代碼是:01100101,因此,任何數(shù)字化的內(nèi)容(視頻,音頻,圖片,文字)本質(zhì)上都只是一串串的0和1而已。

 

DNA存儲的原理示意圖,首先把英文字母轉(zhuǎn)變成對應的01串,然后把這個0和1的數(shù)據(jù)串轉(zhuǎn)變成由堿基A、C、G、T表示的DNA序列;編碼的時候就是合成這個序列,解碼的時候測序解讀(圖片來自Science)

 

那么,DNA的存儲原理實際上就是把原本這些用0和1來表示的內(nèi)容,換成用堿基:A,C,G,T來表示,這是一個從數(shù)字信號到化學信號的過程。而且由于堿基有四個,相比起原本的0和1,我們可以用來多表示兩個狀態(tài),比如,我們可以假設用A代表00,C代表01,G代表10,T代表11。一個本來要用8bit代表的字符用DNA編碼的話,只需要用4個化學堿基,比如上面的小寫字符“e”編碼成為DNA序列就是:CGCC。

 

下圖是哈佛大學醫(yī)學院兩年前做的一個事情,他們第一次利用這樣的技術(shù)把這一張“奔跑的駿馬”的Gif放進了活大腸桿菌的DNA里,而且還能重新測序并解碼出來。

 

原始影像(左)和從DNA中提取還原的gif(右),除了部分稍有模糊,準確度達90%左右。

 

2016年的時候,華盛頓大學和微軟研究院的團隊(本次NBT的成果的團隊),他們更進了一步,把莎士比亞的十四行詩、馬丁·路德·金的演講原聲、醫(yī)學論文等資料共計739KB的數(shù)據(jù)編碼成了DNA序列,并存儲起來,這個技術(shù)以此為標記取得了巨大的進步。

 

 

DNA存儲結(jié)構(gòu)和磁盤不同,它存儲的密度極高,1克的DNA就能夠存下天量的信息,如果要存下當前全世界的所有數(shù)據(jù),更是只需要1千克左右的DNA就足夠了!不需要成千上萬個阿里巴巴或者AWS的數(shù)據(jù)中心,看起來還更加經(jīng)濟實惠,貌似一切都很美好……

 

但是,凡事就怕這個但是

 

 

DNA存儲面臨的問題

 

目前DNA存儲要發(fā)展成為真正具有實際應用價值的東西,至少還需要解決以下幾個問題:

 

合成成本高

 

DNA要存儲信息,首先要做的就是依據(jù)信息合成DNA序列。那么現(xiàn)在的合成成本是多少呢?大約0.5美元~1.0美元一個堿基!也就是說存儲2bit(一個堿基)的數(shù)據(jù)需要花費大約5元~10元人民幣。

 

按照目前的信息存儲技術(shù),一般是8bit為一個字節(jié)(Byte),2個字節(jié)(Byte)才代表一個字符——也就是說8個堿基可以編碼一個字符,那么你看看,要存儲200MB的數(shù)據(jù)需要花費100百萬~200百萬美元(1億~2億美元)的巨資——而200MB的大小的文件還不夠一個長一點的短視頻大??!更何況現(xiàn)在動不動就幾個GB的電影呢。

 

因此,堿基合成的成本是第一個需要解決的難題。如果成本無法降低一百萬倍,那么無法進入實用環(huán)節(jié),而如果不能降低幾億倍甚至幾十億倍,那么我認為這個技術(shù)將很難被大規(guī)模使用。

 

合成速度慢

 

這個問題可能更要命。我們現(xiàn)在磁盤的存儲速度是多快呢?磁盤的讀寫畢竟是電磁信號,信息狀態(tài)的改變是以光的速度在發(fā)生的——當然磁盤在讀寫數(shù)據(jù)的時候需要進行非常多的定位、查詢、比較、校驗等一系列復雜的操作,因此遠低于光速。然而即便如此,目前普通的SSD硬盤讀寫速度也有300MB/s~500MB/s,差一些的高速硬盤也在100MB/s左右!

 

而DNA的合成速度有多快呢?DNA的合成依賴于一系列的化學反應,大腸桿菌的DNA(合成)復制速度大約是1000堿基/秒,看起來很快了,但它的速度在電磁面前根本不值一提,我們可以算一下合成200MB的數(shù)據(jù)需要多久呢?200×1024×1024×8 /1000/86400=19 天!也就是說現(xiàn)在磁盤1秒鐘寫入的數(shù)據(jù),我們大約需要花差不多三周的時間才能完成!

 

這是什么概念?據(jù)統(tǒng)計截至2017年全球數(shù)據(jù)大約有16 ZB(澤字節(jié),每澤字節(jié)為10萬億億字節(jié),僅指數(shù)字化的數(shù)據(jù)),那么假設我們要把這個量級的數(shù)據(jù)存到DNA中,大概要花多長時間?我斗膽計算了一下,發(fā)現(xiàn)竟然需要40億年!40億年啊,同志們,地球才多老???這還是在不考慮數(shù)據(jù)校驗的狀態(tài)下。

 

 

更有甚者,據(jù)說到了2020年,全球數(shù)據(jù)更是要達到驚人的44ZB的量級!當然,上面的結(jié)果是在單個反應下的合成速度,事實上,我們可以讓全世界成千上萬的實驗室或者機構(gòu)一起來做,同時隨著技術(shù)的發(fā)展可以設計出DNA大規(guī)模并行合成技術(shù),就如同大規(guī)模并行測序一般,通過工程上的規(guī)模化彌補先天的缺陷,將速度提高幾百萬到幾億倍。

 

但這對合成的技術(shù)就提出了更高的要求,因為這個過程不可避免的會導致我們放棄數(shù)據(jù)原有的連續(xù)性,那么該如何把這些打散的數(shù)據(jù)在讀取的時候重新正確地組合到一起也將成一個重要的問題。除此之外,還有實時合成記錄的問題呢。

 

數(shù)據(jù)讀取無法實時

 

DNA存儲的數(shù)據(jù)要讀取出來目前是通過測序這條路。雖然相比于DNA合成,測序的問題小了很多。按照當前最新的測序技術(shù)——一臺NovaSeq測序儀基本上能夠在兩天的時間內(nèi)完成3Tb~6Tb數(shù)據(jù)的解碼。成本相比于DNA合成也基本低了一百萬倍左右。即便如此,真要實用,依然有許多問題必須解決。

 

比如我們在看電影的時候,你不會真的希望對著一臺測序儀看吧,另外刷微信、微博、頭條、知乎等的操作是多么頻繁和快速,DNA解碼要如何做到實時并且保障信息的可逆回滾,挑戰(zhàn)不小啊(中間通過磁盤來緩存嗎?)。

 

數(shù)據(jù)隨機讀取仍需進一步解決

 

所謂隨機讀取數(shù)據(jù)的意思就是:我想打開哪一份文件就打開哪一份,并且我想讀取其中的哪一段就讀取哪一段,而且這個操作必須要在很短的時間內(nèi)實現(xiàn)。這對于存儲在DNA中的數(shù)據(jù)文件來說要如何才能夠做到?

 

 

2月19日,華盛頓大學和微軟研究院合作發(fā)表在《Nature biotechnology》上的這篇文章“Random access in large-scale DNA data storage”,就是為了解決這一個問題。它最大的突破是設計了一種辦法來解決這個隨機讀取的問題——文章的標題也能夠看出來。他們把35份相互獨立的數(shù)據(jù)文件(大小約200MB)合成為DNA序列存儲起來,并且精心設計特定的引物(primer,即引子,是一小段單鏈DNA或RNA,作為DNA復制的起始點),標記每一個文件在DNA序列上的地址(如同硬盤的存儲路徑一樣)。這個時候,當我們要重新讀取這些數(shù)據(jù)的時候能夠按照需要快速跳到特定某份文件的位置上進行測讀。

 

比如我們想要獲取第10份文件上的內(nèi)容,如果放在從前,我們只能全部測序了才能得到,但是借助這個技術(shù),我們可以直接跳到這份文件所在的位置上,把它測讀出來。

 

雖然這個技術(shù)已經(jīng)做到了這一步,應該說取得了不小的進步,但也應該清晰地認識到它距離真正應用還有不小的距離。另外,依我愚見,這個方案也還有不完美的地方:

 

  • 第一,定位精細度不夠,雖然可以定位到特定的文件,但還不能夠?qū)崿F(xiàn)在文件內(nèi)部的隨意跳轉(zhuǎn),更加不能檢索;

  •  

  • 第二,效率還是太低了,而且為了保證信息的準確,還得進行較高深度的測序,并需要進行序列組裝。雖然說測序速度在提高,但若做不到實時,應用價值依然是大打折扣;

  •  

  • 第三,靈活性有待商酌,引物需要精心設計,這次是35份,如果是350份或者更多呢?當我們合成了很多份這樣的序列之后,如何保存才能保證測讀的時候,不會因為相同引物的問題而導致測讀不準確?

 

DNA存儲技術(shù)會顛覆現(xiàn)有的計算機存儲技術(shù)嗎?

 

我認為不會,即便DNA存儲技術(shù)成熟了,兩者也將一直共存,直到被其他的介質(zhì)代替了。DNA存和讀的效率遠不及磁盤的速度,這是自然原理所決定的,一時半會無法解決,但它對數(shù)據(jù)保存的耐久性卻很好。

 

因此,DNA存儲更可能的是替代磁帶存儲,把不需要經(jīng)常使用的“冷”數(shù)據(jù)歸檔保存,把重要的數(shù)據(jù)進行冷存?zhèn)浞?,而且鑒于DNA本身體積小、幾乎不耗電的特點、保存也方便,確實可以節(jié)省很多的社會資源。

 

小結(jié)

當然,我不是DNA合成領(lǐng)域的專家,寫這一篇文章不是為了抨擊DNA存儲的成果,相反,我非常認同DNA存儲技術(shù)的發(fā)展,更希望看到它在未來的應用。

 

但我也很謹慎,會想這是否真的是最好的方法。我們說DNA對數(shù)據(jù)存儲的密度遠高于現(xiàn)在的磁盤,但如果我們能夠操縱原子的量子狀態(tài),利用原子的量子狀態(tài)(比如:自旋)存儲數(shù)據(jù)那樣密度豈不是更高?而且還不會有速度限制上的問題。

 

有些媒體的盲目夸大,甚至罔顧事實,一旦發(fā)現(xiàn)一個新東西就總覺得它是萬能的,總認為它將如何“顛覆”一切等諸如此類的言論。過分的夸大甚至曲解對于科學技術(shù)的發(fā)展不是好事,也不能引導公眾對其做出客觀的判斷。技術(shù)的發(fā)展有其自身的規(guī)律性,該到它顛覆一切的時候,不用說也會自然發(fā)生,現(xiàn)在就耐心看它長大。


本文作者解螺旋的礦工
原文鏈接https://www.huxiu.com/article/234522.html

? 2017 Coolsite360-上海意派 All Rights Reserved.