NVME Fabric 是你的未来吗?

 

唐杰从NVMe工作组前线发回来的最新爆料,非常值得一看。...





作者简介

唐杰

目前在Xilinx从事DC架构,曾任职于Fusion-IO,LSI,希捷等公司。本文是唐杰从NVMe工作组前线发回来的最新爆料,非常值得一看。

想要和唐大师还有全世界的大牛讨论SSD及存储相关技术?加nanoarch为微信好友,拉你进ssdfans微信群

--写在协议发布之前(1

NVMe工作组已经确定在2016年6月3号发布1.2.1的NVMe的规范,其中包含了对NVMe over Fabric上的更加详细的定义。

如何理解NVMe over Fabric,需要我们从NVMe的本质说起。目前的NVMe的方案都是PCIE的连接,而这种连接方式要从2007年的Fusion-io的PCIE SSD方案说起。在这种PCIE连接的方案中,摆脱了原有的SCSI的协议。主要的原因是:原有的SCSI协议的IO堆栈的延时代价和中断响应的代价的问题。

NVMe协议替代了SCSI协议,在目前主流的操作系统中使用一个简单而快速的循环队列的方式实现了对大量的IO请求的处理能力。通过大量的IO请求队列,这个机制甚至可以提供和CPU的Core和上层应用的衔接能力。NVMe自身是基于PCIE设计的,这种设计利用了PCIE的DMA能力,PCIE的EP的设备可以在自身资源有空闲的时候从队列中读取或写入。

NVMe的另外的一个优势是中断的聚合。传统的中断机制需要有状态的切换,中断响应和状态恢复,带来了大量的系统开销。NVMe使用了completion queues这个机制,操作系统的驱动和服务可以一次性大量地从队列中读取数据。

因此,从原生的角度,为NVMe增加连接性的第一步就是基于PCIE。PCIE设备和SATA,SAS以及NIC都是用相同的物理层驱动,都是基于串行的Serdes。比如现有的U.2的接口,可以同时支持NVMe,SATA和SAS设备。

在下一步的演进中,如何将NVMe协议的优势在多主机的环境中得到应用,就提出了在多种Fabric上的实现,这一步不是一个小的改变。引用国内著名的NVMe设备供应商的技术VP的话:”在NVMe over Fabric的制定过程中,已经没有了NVMe 协议刚刚提出时对原有的SCSI协议那种无情抛弃的态度”, 原因在于使用更长的联接会带来对时钟信号以及交换机设备的处理能力的要求,这是一个系统级的改变。

不可置疑的是,在Fabric的选择上的博弈已经开始。一种观点是PCIE fabric,可以带来比较低的延迟和开销。但是PCIE的Fabric目前的实现正在通过PCIE Gen4的协议实现对NVMe的支持。对于现有的PCIE Fabric来讲,最大的问题在于线缆。

PCIE Fabric的线缆和SATA线缆对比,因为底层的物理特性类似,都是SerDes的传播,因为SATA线缆没有携带任何时钟信号,因此可以比较方便的做到2软妹币/米一下,而PCIE的连接线缆的成本至少在10软妹币/米以上,因为需要携带时钟信号。

在PCIE Gen4规范中,PCI SIG以及提出了remoter reference clocker的实现,同时将PCIE的ppm从原来的600ppm扩大到了5600ppm。已经为PCIE Gen4的低成本线缆做准备。

但是,在数据中心的链接站统治地位的Ethernet已经做好了准备。使用RDMA的网卡可以在不改变现有数据中心架构的情况下直接使用NVMe。主流的RDMA的NIC供应上Mellanox已经实现了ROCEv2,使他的协议和现有的3层交换机全面兼容。

当然还有IB网络,因为Oracle的一体机的概念而从HPC领域进入企业计算领域的IB网络也可以实现NVMe的承载功能。同时Intel推出的omniPath技术也已经实现对NVMe的支持。

对于这些已有的连接和NVMe的设备商来讲,在今后的一年内推出NVMe Over Fabric的产品已经是计划中的事情。但是,这里面会带来很多的冲突,为什么?让我们看一下具体的应用。

毫无疑问,NVMe over Fabric的第一位的企业客户就是AFA,现有的企业存储客户首选的连接是FC和Ethernet,而现有的很多AFA都在SAN环境下做数据的加速功能。这里的问题是NVMe over Fabric不能越过FC,但是RDMA over FC是一个比较新的规范,刚刚为NVMe协议提出。同时,FC面临一个链接的性能挑战,对于ethernet已经有了25Gbps的实现,对于40Gbps已经出了快10年,而FC的链接刚刚到达16Gbps。目前Ethernet联盟在规划50Gbps,因此在数据中心市场,没有意外的是Ethernet会继续统治地位。

同时,正在兴起的对象存储,在Sandisk和Redhat的努力下,Ceph已经在SSD上实现了规模部署。RDMA的网络会减低Ceph架构中后端跨节点的网络开销。而对象存储的链接是从Ethernet起步的,对象存储的兴起会进一步坚定Ethernet的统治地位。

在集群系统和存储的领域,一个新的Startup公司X-IO已经提出了NVMe over PCIe Fabriccluster的概念,和国内的天蝎计划一样,基于PCIe 交换机的方面的问题就是成本和可扩展性。

因此,对于希望使用NVMe over Fabric的客户来讲,目前已经看不到他们在新系统中不选择Ethernet而去选用PCIe,IB,FC,和omniPath的因素。因此,各位读者,请准备你的CCIE的认证吧。

对于NVMe over Fabric,故事还没有结束。对于Intel主推的3D Xpoint,它会是NVDIMM这样的产品,不再使用PCIE 通路,但是如何实现多机共享? DDR是并行协议,整个工业界在过去20年把大部分的并行协议串行化,如何对付DDR,可能基于PCIE的RDMA还是唯一的选择。

因此,在NVMe over Fabric的协议发布之前,我们先唱一下赞歌。之后的系列,我们一一道来中间的参与者和受益者。

谢谢大家关注。



公司招聘:
Memblaze华东区高薪招聘,销售经理,FAE  上海/杭州
联想SSD专家招聘,FW,QA,NAND特性工程师,北京/武汉

ssdfans帮你内推

ssdfans帮你赚推荐费欢迎转载,转载请保留二维码!


    关注 ssdfans


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册