從英韌企業級主控看數據中心SSD的未來技術

原創內容,轉載請注明:  [http://www.od-music.com]  謝謝!

全球正在進入數字經濟時代,中國的“十四五”規劃也重點提到發展數字經濟,作為第五種生產要素的數據已經逐漸轉變為引領經濟發展的核心,各種大、中、小型數據中心業已成為數字經濟的基礎設施。在這項龐大的新基建工程中,數據存儲技術將不可避免的成為基石技術。


企業級SSD市場高速增長

伴隨5G、大數據、 AI及云計算技術的發展,大量的新商業應用將催生出對邊緣計算和數據中心的海量需求。據IDC預測,全球數據總量預計2020年達到44ZB,5年年均復合增長率高達41.0%,其中超過50%的數據存儲在數據中心;2025年,全球數據量將達到175ZB,5年年均復合增長率31.8%,而數據中心存儲量占比將超過70%。作為數據中心越來越重要的存儲介質,企業級SSD在2020年出貨量將達到3560萬個,平均容量達到2.7TB,出貨總容量較2019年增長近30%。

下圖是中國閃存市場發布的企業級SSD平均容量和出貨量增長趨勢。疫情帶來的在線辦公和網課加速了數據中心SSD的需求增長,所以實際增長要高于預期。

clip_image002

clip_image004

隨著存儲量需求的快速增長,QLC等大容量、高密度的新型閃存芯片逐漸投入應用。但與此同時,QLC等新型閃存芯片的錯誤率更高,在企業級SSD對數據安全性和可靠性要求更高的情況下,SSD主控芯片的ECC(糾錯碼Error Correcting Code)技術越來越成為企業級SSD的核心技術和性能保障。最近,阿呆訪談了全球領先的企業級SSD主控芯片公司英韌科技副總裁陳杰,針對企業級SSD對ECC的新要求做些分享。

clip_image006

QLC SSD在數據中心的應用趨勢

在控制成本的前提下,提升數據中心的容量、性能尤其是實時性是目前數據中心的主要需求。受需求驅動,數據中心使用QLC是遲早的事情。首先,相較于傳統HDD,QLC SSD具有更明顯的性能優勢,尤其體現在更高的隨機讀性能。使用QLC SSD將為服務器和數據中心帶來更低的讀延遲,使其更適用于實時性要求更高的數據讀取密集型應用,如AI計算、機器學習、金融數據實時分析和各種在線大數據信息挖掘等。其次,相較于SLC\MLC\TLC, 陳杰認為QLC最有可能在數據中心有更大的應用場景,因其具有巨大的成本優勢,尤其在海量數據的應用場景中。QLC本身容量大、成本低,因此使用了QLC SSD之后,存儲密度更高,服務器集成度更高,這會極大地節省數據中心面積,進而節省運營成本。

與此同時,世界各大主流NAND FLASH廠商,如美光、Intel、鎧俠和長江存儲積極致力于QLC的研發,并相繼發布了各自的QLC產品。隨著技術的不斷進步,人們普遍擔心的QLC擦寫壽命少正逐漸被改善和提高,比如從早期的500次擦寫提高到近年來的2000次擦寫。未來的NAND會有更多層,以及即將推出的PLC(i.e., 5-bit per cell), 都會使得成本被進一步降低,同時也將加速QLC的應用進程。

當然QLC也有缺點,它的寫延遲是12ms,非常長,目前的擦寫次數通常只能達到2000,另一個應用中的較大問題是Data Retention,這些都需要通過主控技術進行補償。

作為全球技術領先的SSD主控設計公司,英韌科技從2016年成立之初,就和美光、鎧俠在QLC方面開展合作?;谔赜械膶@幗獯a技術,英韌科技于2018年成功研發并全面啟用4K LDPC(低密度奇偶校驗Low-Density Parity-Check)糾錯技術,并廣泛應用于自主研發的消費級和企業級主控芯片中(如Shasta+ 和 Rainier),極大地降低了系統UBER(不可糾錯誤碼率Uncorrectable Bit Error Rate),引領了糾錯編解碼技術在行業的技術創新發展。目前英韌的PCIe SSD各類主控芯片Shasta+及Rainier系列均支持4K LDPC,糾錯能力可以完全覆蓋QLC NAND。

4K LDPC牛在哪兒?

隨著NAND Flash的制程越來越先進、單個Cell里面的bit數量不斷增加,數據錯誤率也隨之增長,因此市場對SSD主控的糾錯能力要求越來越高,糾錯技術已經成為SSD主控廠商的核心技術能力。

目前的SSD主控芯片大都采用LDPC編碼來做ECC糾錯,但是受限于芯片面積等因素,主流量產的主控芯片主要采用2K LDPC編碼。英韌科技2018年推出了4K LDPC并在2019年實現量產出貨。在同樣的碼率下(糾錯碼使用bit數量一樣),實測4K LDPC糾錯比2K方案降低UBER至少兩個數量級以上,大大提高糾錯性能。除此以外,英韌主控采用自主研發的LDPC專利算法,在解碼算法迭代的時候,實時動態更新并優化解碼規則,因此糾錯能力比同類競爭對手方案提高30%。

不過在芯片中實現4K LDPC的難度還是很大的,如果不做優化,相當于至少2個2K LDPC,因此對面積、功耗都有極大的挑戰和要求。 英韌科技從芯片架構設計開始,就考慮到了這些問題,比如針對不同的功耗,復雜度和吞吐率等需求,研發了多種不同性能的LDPC解碼專利算法,同時利用機器學習和人工智能技術對各種解碼算法進行結構和參數優化,使得這些算法硬件復雜度和在滿足各自的需求方面都達到最優。最終實現功耗和面積達到現有條件下的極致優化,遠遠小于2K LDPC的2倍。

現在和未來的SSD主控芯片廠商必須要有糾錯算法的自研能力才能在主控設計中游刃有余。

英韌科技的LDPC糾錯碼核心完全自主可控,其糾錯技術優勢主要體現在兩方面的研發、設計能力。一方面是研發設計LDPC糾錯碼。如何設計以及構造性能優異的LDPC校驗矩陣是至關重要的一步,這是因為LDPC校驗矩陣的設計構造往往決定了LDPC糾錯碼的糾錯性能和編解碼算法的實現復雜度,如果校驗矩陣設計考慮不周到或設計不好,僅僅靠解碼算法很難將錯誤平層(Error Floor)降低到不影響系統性能的水平,而且會增加LDPC編解碼算法的實現復雜度,帶來芯片功耗的增加和成本的上升以及系統性能的下降。

另一方面是解碼算法,閃存顆粒隨著讀寫次數增加,錯誤率會逐漸上升。英韌科技的解碼算法可以自適應調整解碼算法的流程,在最低功耗、最低延時的情況下做到解碼成功。

基于以上兩方面的技術優勢,英韌主控的糾錯于設計之初就從底層原理出發,對矩陣構造和編解碼算法都有許多精妙的優化,實現了很多突破。最終糾錯能力極強,發生糾錯失敗從而觸發重讀的概率很小,同時糾錯算法消耗的數據讀取延遲短、功耗低。比如從主機發讀命令到讀取數據,主控的時延只需要10微秒!

目前市場上有多家閃存廠商,每家也有很多型號的閃存芯片,每年也推出最新的產品,這就對ECC糾錯提出了一個更高難度的任務:能否支持各種各樣閃存芯片和未來可能出現的新閃存芯片?如果對閃存芯片支持不好,就將給客戶在選擇采購閃存芯片時造成了很多限制。

英韌主控的ECC引擎做成了指令集的形式,可以通過軟件程序動態配置,更通用化,能夠靈活適配各種閃存顆粒。同樣的NAND在不同生命周期的時候,還可以使用不同的LDPC糾錯碼。比如可以根據壽命改變碼長,早期放少一些,后期放多一些。這樣使得SSD系統在犧牲少許容量的情況下延長使用壽命。這種能力為更高效的使用SSD系統提供了一個可能,讓接近使用壽命的SSD系統繼續發揮余熱,為使用SSD系統的客戶提供了一種新的降低成本避免資源浪費的解決方案。

英韌科技一直在持續不斷的對LDPC糾錯碼進行研究,對現有的SSD控制器中的LDPC編解碼模塊,設計了用于未來升級的接口協議。當一個新的性能更好的LDPC碼產生出來,可以通過該升級接口協議對現有的SSD控制器的LDPC編解碼模塊進行升級,使得用戶能夠及時享受到英韌的最新研究成果,延長客戶產品的使用周期和壽命。

每一個ECC引擎都相當于一個小CPU,幾個ECC引擎就相當于多核并行處理器系統。ECC引擎的擴展性非常重要,因為SSD主控的性能不斷提升,要求每個ECC核心的性能很強,同時支持多核擴展。英韌ECC單核糾錯速度可以到32Gbps。即使是PCIe Gen 5的主控,也只需要增加ECC核心,而不用太大改動,芯片研發速度因此可以大大加快。

但是ECC引擎多了之后,功耗也會隨之升高。以英韌科技的PCIe Gen4主控Rainier為例,主要通過以下幾種方式,實現目前市場上PCIe主控芯片的最強性能和最低功耗:

1. 采用先進的12nm工藝,相較于市場上采用28nm工藝的PCIe Gen4的SSD主控,良好控制溫度,提高用戶體驗;

2. 在不工作的時候降低或者關閉時鐘頻率;

3. LDPC會有大量的片內存儲器訪問,導致功耗高。英韌主控的內部數據搬移非常少,大幅降低功耗;

4. LLR Table的選擇也是做了很多優化,不刻意追求高精度。

閃存芯片未來會怎么演進?

如下圖,SSD性能這么高的秘密就在于有很多個閃存芯片可以并行讀寫,雖然單個芯片帶寬沒那么高,但是集體的力量大,很多芯片并行起來就可以實現非常高的性能。

clip_image008

但隨著QLC的逐漸普及,未來閃存芯片單顆容量會很大,一個SSD里面的閃存顆粒數量不需要那么多,這就會產生一個嚴重的問題,一旦SSD內部沒有這么多的閃存顆粒,并行度就會下降,導致性能上不去,這該怎么辦?

目前閃存廠商在想辦法讓NAND Flash內部提升并行度。主要做法是Plane數目會增加,同時Page Size變?。壳俺R幨?6KB或者8KB)。Page變小之后,可以做更多的plane,相較于目前最多4個plane,未來有可能會有8個甚至16個plane。這些功能的改變都需要強大的主控支持,而英韌最新主控支持多達16個plane!

閃存芯片的接口速度也在日新月異,2016年是667 MT/s,現在是1600 MT/s,國際閃存原廠下一代閃存芯片接口將達到2400MT/s甚至更高?,F在非常值得我們驕傲的是,我國自主的長江存儲采用先進的Xstacking技術,在一個芯片里面把NAND存儲單元和IO接口分開獨立設計與加工,于2020年4月成功推出128層TLC和QLC兩款產品,其接口速度達到1600MT/s,標志著我國閃存芯片的設計能力已達到世界先進水平。隨著對技術創新的不斷投入,我們相信國產自主的閃存芯片廠商會逐漸確立并引領世界技術創新方向,而英韌科技也已經做好了提前一步支持未來的高速接口的準備。

數字經濟在蓬勃發展,作為信息基礎設施的數據中心必然在未來的幾年內不斷對存儲技術和產品提出挑戰,隨著QLC顆粒的應用,以及閃存芯片的不斷演進,作為國際領先的SSD主控芯片廠商的英韌科技,也將繼續推進技術創新,以更高性能的產品和更豐富的產品類型,滿足更廣泛的市場需求。

分類目錄 SSD, 閃存 和標簽 .
掃一掃二維碼或者微信搜索公眾號ssdfans關注(添加朋友->點最下面的公眾號->搜索ssdfans),可以經??吹絊SD技術和產業的文章(SSD Fans只推送干貨)。
ssdfans微信群介紹
技術討論群 覆蓋2000多位中國和世界華人圈SSD以及存儲技術精英
固件、軟件、測試群 固件、軟件和測試技術討論
異構計算群 討論人工智能和GPU、FPGA、CPU異構計算
ASIC-FPGA群 芯片和FPGA硬件技術討論群
閃存器件群 NAND、3D XPoint等固態存儲介質技術討論
企業級 企業級SSD、企業級存儲
銷售群 全國SSD供應商都在這里,砍砍價,會比某東便宜20%
工作求職群 存儲行業換工作,發招聘,要關注各大公司招聘信息,趕快來
高管群 各大SSD相關存儲公司高管和創始人、投資人

想加入這些群,請微信掃描下面二維碼,或搜索nanoarchplus,加阿呆為微信好友,介紹你的昵稱-單位-職務,注明群名,拉你進群。SSD業界需要什么幫助,也可以找阿呆聊。