三年打磨，英特尔Nervana神经网络系列处理器将于近期问世，设计人分享细节

Neverna NNP使得人们可以跳脱开现有的这些非专为AI所设计的硬件的限制。...

来源：Intel Nervana

作者：Naveen Rao

英特尔人工智能解决方案部总经理，前Nervana CEO

正如我们的CEO Brian Krzanich在华尔街日报举办的D.Live活动上所说的那样，英特尔即将发布世界上第一款专为人工智能所设计的系列处理器（此前我们一直用代号Lake Crest来称呼它)。作为这个系列处理器研发的带头人，我们已经埋头苦干了3年。在这里，我也想和大更深入地分享一下这个世界上第一款神经网络处理器背后的设计动机和原理。

机器学习和深度学习正在迅速成为我们这个时代最重要的计算工具。这些方法使我们可以从数据中获取有价值的信息。一直以来，我们也在不断倾听客户的意见，随时调整公司的产品组合，希望能为客户提供更好的机器学习性能。英特尔Xeon可扩展处理器和英特尔数据中心加速器这两款产品可以满足大部分人对于机器学习的一般需求。与此同时，我们也在不断优化产品线，以支持客户不断演进的数据处理需求。人们对深度学习的计算需求要求我们需要开拓新的思维。因此，英特尔Nervana神经网络处理器(NNP)的设计被提上了日程。

英特尔Nervana NNP是专为深度学习所构建的架构。这个新架构的目的是为深度学习提供所需求的灵活性，但同时又尽可能提高核心硬件组件的效率。Neverna NNP使得人们可以跳脱开现有的这些非专为AI所设计的硬件的限制。

为最大化利用硅计算而设计的新内存架构

矩阵乘法和卷积是在深度学习最重要的基础。这些计算与一般的计算不同，因为它们的操作和数据移动基本上都是先验的。出于这个原因，英特尔Nervana NNP没有一个标准的缓存层次结构，芯片内存则由软件直接管理。这样更优的内存管理使芯片能够在实现更高水平的计算。这就意味着要我们能更快的对深度学习模型进行训练。

使AI模型的可扩展性更上一个台阶

由于具备片上与片外的高速连接，英特尔Nervana NNP可以实现大规模双向数据传输。这款芯片在设计之初就希望可以实现真正的模型并行化，也就是神经网络参数分布在多个芯片上。这使得多个芯片变成了一个大的虚拟芯片，可以容纳更大的模型，允许客户从他们的数据中获取更多的insights。

高度的数据并行：Flexpoint

单片机的神经网络计算在很大程度上受到功率和内存带宽的限制。为了提高神经网络工作负载的吞吐量，除了上述的内存创新之外，我们还发明了一种新的数字格式——Flexpoint。Flexpoint允许将标量计算作为定点乘法和添加，同时允许使用共享指数进行大动态范围。由于每个电路都是小的，因此在一个芯片裸片（die）的并行度上有很大的增加，同时每次计算的能量也在下降。

更佳的性能

今天的人工智能革命实际上是一种计算进化。自从集成电路发明以来，英特尔一直是计算极限的核心推动者。我们在工业和研究领域都有早期的合作伙伴。我们相信这款世界上首度商业化的神经网络处理器将会影响各行各业。我们内部有一个产品路线图，使我们大步向去年所设定的目前迈进甚至超越——到2020年，我们的深度学习训练速度将提升100倍。

在设计英特尔神经网络系列的过程中，英特尔公司再次听取了硅谷公司的意见，以了解如何为客户的最新挑战提供最好的产品。此外，当我们将新一代人工智能硬件推向市场时，我们也很高兴能与Facebook紧密合作，听取他们的技术见解。我们的希望是推动人工智能应用的可能性更上一个台阶。

-END-

欢迎加入将门技术社群！

现已涵盖CV、机器人、NLP、ML、IoT等多个当下火热的技术话题。我们每周邀请来自产学研的优秀技术人进行线上分享，目前群里已汇聚数千位上述领域的技术从业者。

入群方式>>关注“将门创投”（id:thejiangmen）微信公众号，在后台回复关键词“技术社群”，提交入群申请表。通过审核后，我们会在第一时间发出邀请。