Intel在云计算市场的竞争策略

Posted on October 29, 2020 本文总阅读量次

仅代表个人观点

无论愿不愿意承认，Intel在服务器/数据中心市场的产品已不再领先。并且可以预见的是，在至少5年之内这个市场不会再重新回到之前一家独大躺着赚钱的格局。但这并不代表着Intel走向衰落，市场竞争的加剧，反而说明服务器/数据中心市场的健康和潜力。但Intel的决策者仍然要回答这个最关键的问题：采取何种策略参与市场竞争？

答案并不在Intel或者AMD身上，而是在客户身上。作为之前被Intel“垄断”的市场，客户对当前市场的变化是感到兴奋的。毕竟没有客户不希望看到多家供应商互相竞争。具体的体现就是，客户会在一定程度上“扶植”后来者——即便现在的产品可能有一点小问题，但客户也愿意给机会。并且在今后制定技术路线和产品选型策略上，也会强调多供应商”可移植、可替代”的权重（这还不算自主可控这类需求）。

从Intel的角度出发，最直接的应对方式就是增加产品的“独特性”，比如在指令集和CPU内部新特性等方面发力，追求特定工作负载的高性能，同时补齐在制程和核数等方面的短板，以期通过对特定工作负载的加速绑定用户。

但这种做法第一会引起用户的“警惕”，即便加速效果真的不错，也不符合现在用户寻找第二供应商的“心境”，因此也无法和用户当下制定的长期选型策略保持一致。第二，采用这种策略的根本原因，其实是基础创新的乏力。

从整个行业来看，CPU架构的创新和CPU主频的增长一样，已多年没有突破。当前除了能看到向“异构”的方向发展的趋势之外，在微架构、Cache架构、多核互连等方面依然并且长期依然缺少让人激动的创新，百分之十几的IPC的增长，都可以搞一个大新闻。犹记得当年赛扬300A超频到450MHz时的难以置信，以及对10GHz的坚信不疑。虽然用来散热的只是一管硅脂，却能产生液氮溅到皮肤上的战栗…回到我们当前的主题，即便可以在多个工作负载（AI/Crypto/Codec..）领域定向加速，但在摩尔定律已失掉权杖，且制程相对落后的情况下，所谓的“独特性”也并不能构建长期的竞争壁垒。同时把这些“独特性”集于一身，也意味着客户需要为很多并不需要的能力付出成本。

如今再靠单独一个CPU或者单独一个数据中心相关的产品单打独斗肯定已不再是提倡的方式。那么自然一个比较主流的想法就是做整体解决方案，即利用xPU的异构能力，打包成一个整体解决方案提供给客户，直接从方案级别解决客户的业务需求。利用CPU+GPU+DPU+TPU+FPGA+…形成合力，作为一个业务计算平台的基座为数据中心客户提供价值。

此类想法应当说代表了相当一部分行业玩家的想法，从最近半导体巨头之间的频繁收购可见一斑。从客户的角度看，这个套路也非常明显，其实就是全方位的绑定——你CPU用了我的，GPU也必须用我的，否则你性能没有达到预期，肯定是另外一家厂商的产品有问题——这恰恰是用户最不愿意看到的。

同时采用了这种异构的计算架构之后，能不能“用好”对客户来说也是一个挑战。因为在这种“新型”平台上开展业务代码的编写、调试以及更新升级对客户的开发、运维团队来说都是一次对知识体系的更新——以前只需要关心业务软件的架构和编写，现在也要学硬件体系架构的知识了。

当然芯片厂商会提供统一的软件开发框架（e.g. Intel OneAPI）来屏蔽这种复杂性，同时作为数据中心主要客户的公有云厂商也有足够的人才可以快速建立起相应的技术团队。但在这些问题都解决了之后，真正的问题仍然存在——CPU的密度瓶颈。

超售是公有云盈利的唯一方式，即便在添加了各种xPU之后，真正决定超售能力的依然是CPU的计算密度。加速器强大归强大，但如果不能让更多的用户“分享”它的价值，在最根本的商业模式上是会出问题的。未来公有云将会向高密度容器的方向发展，那么其实这仍然是对CPU的密度提出了要求。

堆核是最直接的方式，AMD当下取得的优势很大一部分在于核心数量。当然你也可以用四路服务器替代两路服务器，或者在CPU里集成大小核来提高所谓的perf/watt。但堆核这种方式不是无止境的，抛开成本和功耗不说，核越多内部结构越复杂，有一条以某位产业先驱名字命名的定律是核心复杂度提升一倍，最多也只能带来40%的性能提升，同时随着复杂度越来越高，这个边际效益在持续收窄。

但如果我们再从实质上分析，所谓CPU的密度其实并不是CPU核心数量的密度，而是CPU执行指令的密度，也就是我们所熟知的IPC。这也就是为什么IPC这个指标会被各大厂商着重渲染。但实际上发布新产品时提到的IPC增长多少多少并不是个严谨的说法，因为需要考虑具体的工作负载，同时也没有直接说IPC是多少的，因为这个数字实在是…啧啧。在公有云的服务器中，实际观察下来IPC基本上在1左右徘徊，而理论上的最大值是4。如果我们可以通过某种方法将IPC提升到2，那么就可以认为在CPU核数不变的情况下计算密度翻倍，或者是IPC不变的情况下CPU核数翻倍。

当然理论上IPC和CPU核数并没有什么严格的正比例关系，但从单位时间执行指令总量的角度看这可以作为一个在不升级硬件的前提下提升密度的方式。之所以采用这种方式一是因为IPC有提升的空间，二是因为可以从软件及生态角度下手解决问题，而这两点恰好是Intel现在还保有的优势。

这里所说的软件角度并非是优化某个软件的性能，而是从系统调度角度，以符合CPU流水线的方式编排大量进程在CPU上调度的方式，使运行的进程能以对CPU更加友好的方式在系统中调度——而不仅仅是考虑运行时间上的公平——通过这种方式提升系统整体的IPC。为了完成这个任务，除了软件研发之外，还需要整合生态的力量。

现在出现的芯片厂商间的竞争其实是基础科学无法继续推进的一种必然，并且长期来看也不会有太大的进展。在我个人看来，CPU硬件本身已经足够强大，还有很多能力其实被封禁在软件里。一旦可以释放被封禁的能力，其影响力不啻为一次产业革新。期待未来的精彩。