CL传媒

客服VX:coolfensi，客服QQ：2451468936（QQ/微信客服只做引导和站点通知，不闲聊。有站点内业务疑问以及订单问题的话，请点击【CL-在线售后客服窗口】进行会话）

文章105295
阅读10910462

友情链接

人生倒计时

今日已经过去小时
这周已经过去天
本月已经过去天
今年已经过去个月

热评文章

首页最新知识正文内容

服务器芯片市场份额（国产服务器芯片上市公司）

客服VX（coolfensi）最新知识 2023-04-13 09:04:14 39

独家 | 寒武纪二代芯片发布在即，提前揭秘如何挑战英伟达！

「初创公司要贸然打入云端市场，简直就是自寻死路」。

联系方式：微信：coolfensi
（使用浏览器扫码进入在线客服窗口）
复制联系方式

长久以来，云端的数据中心市场被视为创业公司的禁地，因为英特尔、英伟达、AMD 等巨头林立，竞争太过凶残。

但近年来，云计算势不可挡，云袭培端芯片市场呈现爆发式增长，不乏勇者前来破局。

作为一蔽禅液家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司，寒武纪挑战云端市场的底气十足。

2018 年 5 月，寒武纪发布首颗云端 AI 芯片，并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解，滴滴、海康威视也已经成为寒武纪的客户。

与此同时，寒武纪成数亿美元 B 轮融资。据机器之心了解，目前寒武纪的估值约为 30 亿美元，与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后，寒武纪二代芯片已经箭在弦上，这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉，寒武纪二代云端芯片或将于本月公布，同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源，提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解，寒武纪二代云端 AI 芯片代号为「MLU270」，延续上一代芯片「MLU170」的 MLU（Machine Learning Unit）系列。今年初，寒武纪已经为旗下芯片注册两大中文商标名，分别是「思元」、「玄思」。综上，寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上，虽然还名列有其他芯片，但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式，转向主打云端市场的芯片方案提供商。

在芯片架构方面，寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长，成为数据中心的任务主流，寒武纪在「思元 270」里内建视频解码单元，瞄准海量的视频处理市场专门配置。

据机器之心了解，寒武纪「思元 270」在今年年初研制成功，制程工艺方面明显抛弃了此宏物前终端市场的激进打法，选择仍然沿用台积电 16nm 工艺，定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线，英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺，AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺，寒武纪这次似乎希望单纯依靠技术路线取胜，不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面，「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看，「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算，INT16 的峰值性能为 64Tops（64 万亿次运算），INT8 为 128Tops，INT4 为 256Tops。

对比 Tesla T4，FP16 的峰值性能为 65 Tops，INT8 为 130 Tops，INT4 为 260 Tops。

功耗方面，「思元 270」功耗为 75w，与 Tesla T4 持平。

但值得注意的是，这些「理论峰值」不过是纸面规格，真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人，同时也是阿里云早期核心技术研发人员李立表示，「T4 在实测过程中，75w 功耗维持不了多久就降一半频率。」

据该负责人介绍，他在几个月前已经拿到「思元 270」的具体规格和特性，「对比而言，第一代 MLU100 是试水，第二代 270 就聚焦多了，威力非常大，NV 后面会很难受。」

与此同时，该负责人还指出，「寒武纪的方案在某些领域可能不会特别好使，尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念，整数运算（定点运算）与浮点运算。

它们是计算机计算中最为常用的两种运算表示法，顾名思义，其差异就体现在整数和浮点上，加减乘除运算都是一样的。

整数表示法，即所有位都表示各位数字，小数点固定；浮点表示法，则分成两部分，阶码和尾数，尾数就是数字部分，阶码表示乘幂的大小，也就是小数点位置。所以浮点数在做运算的时候，除了对尾数做加减乘除，还要处理小数点位置。

基于两种不同的运算表示法规则，导致面对同样长度的整数和浮点运算，后者计算模式更为复杂，需要消耗更多的资源去处理，并且二者功耗差距通常是数量级的。简单来说，就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先，定点表示法运算虽然直观，但是固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数，可能「溢出」。

而浮点的精度虽然没有定点大，但是浮点运算的小数点位置可以移动，运算时不用考虑溢出，所以科学计算法一般都使用浮点。所谓「溢出」，指超出某种数据格式的表示范围。

此外，具体到使用 GPU 做训练，业界通常更倾向于浮点运算单元，主要是因为在有监督学习的 BP 算法中，只有浮点运算才能记录和捕捉到训练时很小的增量。由于训练的部分模块对精度要求比较高，所以通常必须是高精度的浮点运算，比如 FP32 才能搞定，FP16 都难。

综上，虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势，但截止目前，浮点计算在云端的训练场景中仍具有不可替代的特性，并且以高精度运算为主。

那么，如何在不增加芯片面积和功耗的前提下，如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路，目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算，业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点，目前大家的研究热点之一，就在于如何全部的定点单元（比如 INT8）代替浮点单元，或者以主要的定点单元配合少量的高精度浮点计算单元（比如 FP32）做更多的训练任务，目的是达到定点计算的快速度，同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文，李立表示，行业相关的研究文章已经有一些，不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」，要做好低精度训练，就要找到一个好的数据表示方法，既能表达最后大的数，又能让 0 附近的小量能够更好地表达，因此这个数据表示可能需要有自适应性，能随着训练的过程调整。

他还补充，「低精度训练确实未必要是浮点数，只要能把数域表达好，0 附近的小量表达好，什么样的数据表示都可以。」

综上，寒武纪在大幅度提升训练阶段的计算功耗比方面，很有可能采用的是以整数为主的低精度运算，这在目前已公布的 AI 芯片项目中属于首创。

实际上，寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间，寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路，也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈： Diannao（电脑）是 ASPLOS'14 最佳论文（亚洲第一次），DaDiannao（大电脑）是 MICRO'14 最佳论文（美国以外国家的第一次）……

而在大洋彼岸，美国两家风头正劲的 AI 芯片公司 Graphcore、GTI（Gyrfalcon Technology, Inc.）正是沿用了 DianNao 系列论文的基本思路，采用大量堆叠的简单计算单元以实现复杂的云端计算。（机器之心曾进行过相关报道，《一款芯片训练推理全搞，Hinton 为其背书，Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地，能效比高出 Tesla10 倍 | CES 直击》）

此外，要切数据中心市场的蛋糕，一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流，其 CUDA 软件生态的基础功不可没。

据机器之心了解，寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链，该平台终端和云端产品均支持，可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容，同时提供寒武纪专门的高性库，可以方便地进行智能应用的开发，迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持，但想要真正在数据中心市场扎下根，以实现陈天石去年在发布会上谈到的目标：到 2020 年底，力争占据中国高性能智能芯片市场的 30% 份额，仍然面临着异常残酷的市场竞争。

整体上，英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场，同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU，AMD、FPGA 占据非常小的份额，剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解，近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示，到 2022 年，全球人工智能训练市场的规模将达到约 170 亿美元，云端推理芯片市场的规模将达到 70 亿美元。

可以预见，2019 年，AI 芯片之争将从端燃及云上，云端的大体量、高增速市场势必迎来更多强劲玩家。

（应采访者需求，文中李立、王一均为化名。）

2021年x86服务器市场占有率

按照2021年统计数衡培据，X86架构市场占比高达97%，以山颤ARM为代表的RISC结构近年来增长迅猛，尤其国内诞生了以华为海思、阿里平头哥咐唯唯为代表芯片企业。

服务器芯片市场份额（国产服务器芯片上市公司）第1张

centermwes7terminal显卡型号

A5000、A4000、A3000、A2000。

集成显卡是将显示芯片、显存及其相关电路都做在主板上，与主板融为一体。集成显卡的显示芯片有单独的，但大部分都集成在主板的北桥芯片中。一些主板集成的显卡也在主板上单独安装了显存，但其容量较小，集成显卡的显示效果与处理性能相对较弱。

多年以来，全球服务器芯片市场都由英特尔所垄断，常年占据90%以上的市场份额。Arm也并不是没有努力过，他们曾经宣称要在2021年拿到服务器芯片市场坦旦25%的份额，但随着高通退出，其他Arm阵营的合作产商进展缓慢，让含扰要达到这一目标根本就是白日做梦。即便同是x86阵营的AMD发展势头迅猛老哗，也仅仅在2020年Q4达到了7.1的市场份额。

AMD正在一步步蚕食Intel原有的芯片市场，Intel真的被AMD超越了吗

Intel的芯片市场被AMD蚕斗慧食

在锐龙诞生之前，Intel在计算机芯片市场里面对于AMD有着压倒性的优势，但是自从锐龙出现后，这个局面被彻底打破。可以说，AMD在计算机芯片市场里面的份额越来越多，正在一步步蚕食昔日的“日不落帝国”的芯片市场。

从2017年末到2018年末，AMD的台式机市场份额提升了3.8%、服务器的提升了3.4%，笔记本的则提升了5.2%。计算机芯片市场就两家独大，AMD每多分一份羹，意味着Intel少一分羹，但是为什么会出现这样的情况？

AMD传统的性价比市场策略

一直以来，AMD都是无奈采用纯性价比的市场营销策略。因为过去很长一段时间，AMD的芯片是无法与Intel芯片产品相媲美，AMD如果不降价销售怕是无法出货。

而Intel因为遥遥领先，日子可过得滋润，不但继续挤牙膏，而且在高端旗舰处理器定价上价格真是想定多高就定多高。想想当时一万多块十核心i7 6950X和现在3000多块的12核心锐龙9 3900X一对比，就知道Intel是多么黑心的商人。

挤牙膏日子的没落

Intel挤牙膏这一市场策略，都因为AMD新的Zen架构而产生变化。虽然锐龙在一些性能测试里落后Intel一点，特别是游戏方面。但是AMD在较低利润的市场耕耘了这么多年，采取了完全不同的CPU设计方式，效果很不错。这样使得Intel挤牙膏日子没维持下去，推出了主流八核处理器i9 9900K。

AMD芯片的模块化设计

为了节省研发成本，AMD选择了模块化设计，能轻松扩大或缩小规模。而在更高端的多核产品上，甚至使用了多个“小芯片（小八核锐龙）”来提高良率。这种模块化设计与激进的廉价芯片策略一同，开始蚕食Intel的统治地位。

从最近AMD锐龙热度如此之高的结果来看，PC用户也很乐意放弃一小部分性能来省下一大笔钱。因此，AMD就是通过这样蚕食部分Intel的芯片市场。

Intel自身原因—产能不足

AMD巧妙的模块化设计与有竞争桐销物力的定价只是其中一部分原因。其实很大程度上市出自Intel自身的原因，就是尽人皆知的10nm制程难产问题。根据原来的路线图，几年前就应该完成的了，但Intel现在只有为数不多的10nm产品在售。

其实CPU的生产局液工艺很重要，因为CPU工艺越精细，意味着CPU晶片上的晶体管尺寸越小。晶体管越小，意味着一定面积里能容纳更多晶体管。这样既能提高芯片性能，也能提高芯片的生产效能。也就是说，使用先进的工艺生产芯片对提升CPU性能和良率非常有用。

在缩小晶体管尺寸方面，AMD当然没遇到什么问题，因为有台积电给他代工，完全不用自己操心。而Intel就不愿意这么干，有自家的晶圆厂，差不多什么都是得靠他们自己搞定。在过去是没有什么问题，Intel的晶体管密度常常高于AMD的。而现在台积电都出7nm的生产工艺了，而Intel依然是14nm工艺，10nm工艺却迟迟不能量产。

实际上，14nm和10nm这样的数字，只是估计值。10nm的Intel芯片，晶体管之间的距离，可能实际上更接近8nm左右，这晶体管尺寸再缩小的变化对Intel自身是有很大的挑战性。

因此，Intel最近四年都在压榨14nm制程，还弄出了14+和14++，这只是拿得出小量的性能提升。对于Intel来说，显然这段时间是停滞期，AMD当然顺势崛起，开始蚕食Intel原有的芯片市场份额。更加悲剧的是，Intel在10nm的困境也加剧了IntelCPU的持续缺货，特别是较低端的产品。

Intel自身也也意识到自己产能不足而造成自己芯片市场被蚕食。因此，Intel在不断投入人力、物力和财力来解决10nm问题。实际上，Intel无力生产出足够的14nm芯片以满足入门级设备与日俱增的需求，比如Chromebook和低性能笔记本。

而对于Intel来说，高端芯片的优先级更高，毕竟这种芯片利润更高。看看i9 9980XE和i9 9900K的价格就知道，高端芯片的利润是多么可怕。但是这也给AMD机会，在普通性能和性价比CPU中，比如锐龙，就很好卖了，AMD就这样卖出了大量低端CPU填补市场空缺。

说到Chromebook，Intel也有另外即将面临的威胁。以骁龙处理器知名的高通，在尝试推出为省电的笔记本CPU系列。

实际上，即便Intel面临着一堆问题，别忘了它仍然是CPU市场的领导者。领先幅度巨大，资金充足，财大气粗，家底厚一直是Intel自身的特性。Intel仍然占据绝大部分的计算机芯片市场，Intel几十年打下来的江山也不是一朝一夕能瓜分和占据的。要知道，Intel还是有很厚多年技术储备，虽然“AMD，Yes！”，但是Intel绝非善类，别被“AMD，Yes！”冲昏了头脑。

因此，Intel还是有时间扭转局势的，在探索显卡技术方面，Intel很是激进。他们也在研究10nm和7nm芯片的新工艺。实际上，Intel的未来处理器会支持PCIe5.0，10nm工艺。锐龙暂时部分性能领先，未来酷睿会更强。

Intel和AMD从诞生开始到现在，都相爱相杀那么多年了，技术上斗过你死我活。到底谁更强，我只能说“神仙打架，我们凡人看看就行”，反正最后受益还是我们。

全球服务器芯片年产量

相较于PC行业增速放缓，服务器行业预计2022年出货量同比增长，2023年再次增长，因消费者对互联空培网服务斗雀唯的使用持续扩大，数字化转型受到企业青睐。 COVID-19 大流行的影响，导致他们采岁猜购了更多服务器。根据 DIGITIMES Research 的数据，预计到 2022 年全球服务器出货量将同比增长 6.4%，达到约 1800 万台。随着他们在全球范围内继续扩展其数据中心基础设施，它们将成为出货量增长的主要贡献者