AI PC芯片卷出“新趋势”

虽然苹果的AI PC预计今年晚些时候才能与消费者见面,但在6月11日凌晨进行的苹果WWDC 2024上,苹果团队详细描绘了Mac系列将具备的AI能力。现场公布的信息显示,苹果将为全产品线配置个人化智能系统Apple Intelligence,将生成式模型置于iPhone、iPad、Mac的核心,根据“个人情景(Personal Context)”为用户提供智能协助。对于Mac系列,Apple Intelligence的测试版本将在今年秋季随MacOS Sequoia推出,支持配备M1的Mac以及后续机型。

无须创建ChatGPT账号,即可将GPT-4o运用于文档、PPT、Pages等写作类App的创作;基于生成式模型能力一键调整文章的风格和语气;收到的邮件不再显示前几行,而是显示摘要,还能按照重要程度排序;执行跨App的任务时,只需对AI助手描述要求,系统就会对日历日程、照片、文件、消息、邮件等信息进行语义索引,帮助用户在不切换App的前提下完成对特定信息的检索、日程规划等任务……苹果展示的AI PC图景背后,是苹果的软硬件整合能力。苹果软件工程高级副总裁Craig Fedrighi表示,A17 Pro和M系列处理器,为驱动Apple Intelligence提供了坚实的算力基础。

从微软的Copilot+PC到苹果由Apple Intelligence加持的Mac系列,AI正在重塑个人计算体验,驱动PC向着个性化、情景化的方向发展。在这个过程中,AI PC处理器也在全维度进化。

NPU算力战火升级 既要好用也要用好

截至2024年6月,主要PC处理器厂商最新产品和架构的NPU(神经网络处理器)算力已经来到40TOPS级别,最高来到50TOPS。“卷”NPU算力也成为第三方处理器厂商争夺AI PC市场份额的重要手段。

而在去年年底之前,NPU甚至还不是PC处理器的标配。NPU作为能够以更低功耗加速AI负载的处理单元,率先应用于手机。2017年9月,华为推出全球首款内置独立NPU的手机处理器麒麟970。同年,苹果、高通分别将NPU搭载于A11 Bionic处理器和Hexagon DSP(数字信号处理器)。这或许也解释了为什么高通、苹果这两件兼具手机和PC业务的Fabless,会先于英特尔、AMD等传统PC处理器厂商,将NPU应用于PC处理器。2020年,苹果在M1芯片搭载了NPU,这枚NPU与苹果手机处理器A14搭载的NPU类似,算力达到11TOPS。高通在2020年9月面向PC发布的Snapdragon 8cx Gen2 5G处理器,搭载了9TOPS算力的Hexagon NPU。

时间来到2023年,面对生成式AI向设备侧蔓延的凶猛势头,老牌PC处理器厂商们以AI PC为目标市场,终于将NPU武装进自家产品线。AMD为2023年发布的Ryzen Mobile 7040系列处理器的部分型号配置了NPU,能提供最高10TOPS的算力。英特尔在2023年12月发布的Meteor Lake处理器首次搭载NPU,算力为11TOPS。

而同一年,苹果最新PC处理器M2 Ultra的NPU算力已经来到31.6TOPS,高通的骁龙X Elite平台NPU算力达到45TOPS。这让作为第三方处理器供应商的高通占据了先机。2024年5月,微软发布了“有史以来速度最快、最智能的 Windows PC”Copilot+PC这一全新AI PC品类,45TOPS的高通骁龙X系列处理器成为首批Copilot+PC的处理器。微软Windows与设备副总裁帕万·达武鲁里(Pavan Davuluri)认为,每台Copilot+PC都需要一个至少能够处理40TOPS的NPU。

有了微软划定的“起跑线”,有着“Wintel”基因的英特尔和它在PC市场的老对手AMD也不甘落后,在6月的台北国际电脑展上纷纷亮出大招。英特尔宣布下一代AI PC旗舰处理器架构Lunar Lake所搭载的NPU能提供48TOPS的AI性能,AMD更是将Ryzen AI 300系列的NPU算力拉到了50TOPS,以倍速提升的算力实现了与Copilot+PC的适配。

但算力的提升只是驱动设备侧AI算力的第一步,如何使NPU算力真正发挥效能,以满足AI大模型的部署要求,仍需要厂商进一步细化架构与系统设计。

比如,在AI推理任务中,FP16(半精度浮点数)和INT8是常见的数据类型。NPU当前以INT8数据类型为主,运行模型所需的计算和内存较少,但牺牲了一定的精度。而FP16有着更高的精度,却不具备INT8的计算和内存特性。这让开发者在设计计算方案时,需要对精度和性能做出平衡。针对不同数据类型的特点,AMD采用了块16位浮点(Block FP16)这一种新的数据格式,将FP16的精度与INT8的性能结合在一起。XDNA2也成为首款支持Block FP16的NPU。

此外,由于CPU和GPU也能够处理特定的AI任务,如何协调这两类芯片与NPU的计算负载,也影响着系统性能的发挥。例如英特尔的Lunar Lake架构,就在AI任务的协调上做了工作,CPU、GPU与NPU分别负责轻型AI负载、创作AI和AI助手类任务。

全天候AI需要更高能效比 WoA阵营迎来机遇

AI PC强调始终在线,也就意味着设备端的AI工具全天候在后台运行。这需要处理器具备更高的能效比,以保证AI PC的续航能力。除了采用NPU这一能够用更低功耗处理AI负载的处理单元,处理器厂商还通过制程、IPC、减少内存访问距离等方式,进一步提升处理器的能效比。

芯片的制程越小,则电流传输距离越短,功耗也就越小。在最新一代AI PC处理器中,苹果M4采用台积电第二代3nm技术,高通骁龙X Elite和AMD Ryzen AI 300都采用了4nm制程,与当前的旗舰型手机同步。

同时,IPC(即每时钟周期执行的指令数)越高,意味着CPU在相同频率下的性能越高。英特尔Lunar Lake性能核的IPC较上一代提升了14%,在相同功耗下能实现10%至18%的性能提升。AMD Ryzen AI 300系列系列处理器采用的Zen 5架构也实现了16%的IPC提升。

同样值得注意的是,无论是Arm架构还是X86架构,都在提升架构的集成度,通过将内存整合进封装来优化功耗表现。Arm在5月底推出的终端计算子系统(CSS)中,采用了系统级高速缓存(SLC),以减少DRAM带宽和访问次数,提升系统能效。苹果M系列处理器,也一直采用封装级内存,将SoC和DRAM芯片安装在一起。而此前的大多数X86处理器,都将主内存外置。在Lunar Lake架构中,英特尔首次把内存集成到封装内。这样的封装方式,让计算核心以更短距离、更低延迟访问内存,将PHY功耗降低了40%。

随着能效比的重要性日益凸显,“WoA”(Windows on Arm)也受到了更多OEM厂商的关注。从架构来看,Arm在功耗和边缘侧AI推理具有优势。从生态来看,Windows正在深化与原生Arm的适配。据统计,在运行Windows10和Windows11的iGPU(集成GPU)笔记本电脑中,用户在87%的应用程序使用时间中,使用的是原生支持Arm的版本。加上Arm在最新的计算平台中,又面向AI设备侧的发展趋势,进一步提升了能效比。比如Arm于5月底推出的终端计算子系统(CSS)所采用的GPU Arm Immortalis-G925,在提供与上一代产品相当的游戏性能时,功耗降低了30%。

当前,WoA主要的芯片玩家是高通,但英伟达和联发科也对这一市场虎视眈眈。英伟达在5月宣布,搭载RTX GPU的Windows11 AI PC将在未来几个月推出,且发布了帮助开发者在Windows PC优化及部署生成式AI模型的开发工具NVIDIA RTX AI Toolkit。而联发科也在近日传出正在开发基于Arm架构的AI PC芯片。摩根士丹利分析师Charlie Chan预计,WoA AI PC芯片出货量将在2024年达到约为200万台,2025年将增至1500万台。

混合AI时代的隐私挑战 苹果芯进入服务器

AI PC这一产品类型的核心价值,是围绕个人情境的计算体验,这就需要结合用户的个人数据。无论微软Copilot+PC主打的Recall功能,还是Apple Intelligence加持的Siri提供的跨App协作能力,底层逻辑都是对用户信息进行语义索引。这也是为什么逐鹿AI PC的处理器厂商,都强调终端侧AI的概念,如Pavan Davuluri所言,设备侧AI意味着更快的响应时间、更好的隐私和更低的成本。

但是,如果为了保护个人数据,就限制用户获得云端大模型的支持,未免“因噎废食”。2023年,高通提出了混合AI架构,也就是根据模型和查询需求的复杂度等因素,选择不同方式在云端和终端侧之间分配处理负载。当用户发起请求时,终端侧神经网络或基于规则而运行的判决器(arbiter)将决定是否需要使用云端。

而苹果在WWDC 2024上,展现了混合式AI的具体图景。当用户向Siri提出专业问题时,Siri会提示用户是否询问ChatGPT或者能否把照片、文档等信息分享给ChatGPT。同时,苹果各产品线的写作工具和图像生成工具,也可以运用ChatGPT进行创作。

但是,一旦在设备侧通过网络获取ChatGPT等部署在服务器端的大模型服务,就有可能面临个人数据被服务器存储的风险。Craig Fedrighi表示,在传统方式中,服务器会存储个人数据,甚至未经同意就使用这些数据,且用户难以验证个人数据是否被滥用。

面向个人数据在混合式AI时代的安全挑战,苹果推出了私有云计算技术(Private Cloud Computing),为服务器大模型提供芯片级安全保护。当苹果设备判断用户的请求无法用设备侧AI解决,会引入基于服务器的模型来处理更复杂的请求,而服务器端的模型会在以苹果芯片(Apple Silicon)打造的服务器上运行,可提供与iPhone相同的芯片级别的隐私安全保护。Apple Intelligence会仅仅将与任务相关的数据发给Apple芯片服务器,同时,独立专家能够检查服务器运行代码,以验证用户的隐私安全是否得到保障。“‘私有云计算’通过加密形式,确保iPhone、iPad、Mac可以拒绝与服务器对话,除非这个服务器的软件已经得到公开的安全标准认证。”Craig Fedrighi说。

原标题:AI PC芯片卷出“新趋势”