详情
【Howie 商业投资】能打星海,但不能打魔兽?Google 的 DeepMind 让 AI 更灵活【Arm 专栏】Arm 2023 全面运算解决方案:为行动运算提供完整的运算平台
距离 Alpha Go 打败人类棋手李世乭已经六年了,当时由 DeepMind 开发的 AlphaStar 演算法在当年红极一时,AI 现在也进入到增强式学习(Reinforce Learning,或称为强化学习)的时代,运用「探索—利用」的方式提升自己的脑力。可惜的是,现在的演算法依旧有无法达到自行推论与完全複製,因此 DeepMind 準备再次出手,扭转这一切。打星海时是强者,玩魔兽变成植物人不久前,DeepMind 让 AI 玩星海争霸 2 与魔兽争霸 3。在星海争霸时,研究团队让 AI 打赢一场又一场的战役与人类玩家,透过大量资料的预先训练 AI 在面对不同敌方种族与调性的对手时能做出对应的反击。但同样是战略游戏,能打赢星海残酷电脑等级的 AI,过渡到魔兽时就不是那么回事了,据说 AI 只产了几只农民后,就开始疯狂採矿但不产兵了;不只如此,这只 AI 在玩 Dota 2 时一样脑死,跌破大家眼镜。这要是搬到现实应用情境,恐怕很多人对于 AI 的能力评价会大打折扣。问题是,能打败棋王的演算法,为何只是换个游戏而已就直接死机呢? ▲据说 AI 打星海时很顺,但换成魔兽就一蹋糊涂。资料来源:Starcraft 2▲AlphaStar 的示範游玩增强式学习虽然可以模拟人类行为,但无法延伸思考增强式学习(Reinforce Learning)最厉害的地方,就是可以在训练与测试的过程中自己与环境互动,衍伸出对应行为并自行回馈资料,演算法再从回馈中反覆学习,如同动物与环境互动一样。但它同样具备缺乏弹性的致命伤,在同个环境里,它可以学习得深,甚至自行形成预测。但换个环境,它反而一点都不智慧,甚至表现更差。这就是能下围棋的 AlphaGo 没办法下象棋跟西洋棋——即便他们有部分逻辑互通,这就能解释同样是战略游戏,即便稍微调整一下不同种族与难度,AI 能打好星海,却在魔兽中惨输的原因,AI 还没有我们想的那么聪明。▲ 增强式学习目前是机器学习中最受欢迎的方式。资料来源:MathworksDeepMind 启动 X Land 专案,无限个关卡等着 AI 来破为了解决增强式学习不足的窘境,DeepMind 启动 X Land 专案。X Land 是一个网状空间,里面是个 3D、可编程、容纳近乎无无限个任务设计的世界,你可以想成游戏中的自订地图,自己在任何地方放置物件、设计关卡、调整难易度等等,然后让 AI 不断在不同环境中完成关卡目标,从找到某个物件,到用打怪积分换取装备都可以。穿梭在其中的是神经网路架构与一种称为 population based Training 的训练方法,这种训练方法佔用更少的运算资源,并会根据 AI 完成的任务,自动生成更难、不同性质的任务,不断训练 AI 的反应能力。除了先进的演算法,X Land 可以使用 Google 近乎无限的云端资源,这也是一般企业难以做到的。截至目前,专案已经让 AI 在 4,000 个世界中玩了 70,0,000 个关卡、完成一共 3,400 万个任务,2,000 亿个执行步骤。一切只为了让 AI 在不同环境中能快速做出正确反应。▲X Land 中的各种关卡设计与放置物。资料来源:DeepMindAI 普及化的关键:更聪明与规模化IBM 曾在一份调查指出,疫情后的全球企业採用 AI 的比例达三分之一;AWS 的一名客户也告诉公司,他们想要部署一百万个 AI 模型。让他们有所犹豫的原因在于,需要一个应用情境让可以说服高阶主管—— - 即便结果有稍微误差;但是要说服管理阶层规模化这些模型可能就有困难了,资料的纯度、品质不佳与数量不足都是让企业却步的原因,而事实上,没有规模化的 AI,就跟动物园的动物一样仅能供人观赏,但无法投入实战。或许 X Land 并不像 Google 的其他黑科技一样着名,但 X Land 可能让 AI 学会玩不同游戏(应用场景),甚至可以逆向工程回推怎么设计游戏(完全智慧化),对于 Google 在 AI 领域的地位与市佔又迈进一大步。 责任编辑:Mia延伸阅读:【Howie 商业投资】自动产生 AI 模型!人工智慧大规模部署的关键:AI 工业化Intel 又收购!纳入机器学习新创,加强 AI 运算实力【AWS re:Invent 2019】AI Head Joel Minnick:机器学习是各行各业都不能错过的科技监督式学习?增强学习?听不懂的话,一定要看这篇入门的机器学习名词解释!Arm 全面运算解决方案在 2021 年首次发布,提供了一套 IP 设计与最佳化无缝协同工作的完整组合。借助该平台解决方案,系统单晶片(SoC)的设计商能够轻鬆应对其运算子系统构建和配置过程中的诸多挑战,包括开发用于汇流排互联、系统级快取(SLC)和记忆体管理单元 (MMU)的第三方厂商系统 IP,以及将所有元件整合到 CPU 和 GPU 丛集等各个环节中遇到的问题。Arm 全面运算解决方案大幅降低了 SoC 设计的複杂性,从而减少了工程成本和资源消耗,并缩短了产品上市时间,协助装置製造商可以更专注于实现其真正的商业价值,推出差异化的硬体和软体。与前几代产品一样,全新的 Arm 全面运算解决方案(TCS23)可以帮助解决这些核心工程设计中的挑战,并顺应更广泛的行动运算趋势,包括对更複杂的用户体验、新软体功能的需求以及对更高性能和效率的持续突破。这些挑战尤其与高阶行动市场高度相关,因为晶片设计商构建的 SoC 正变得越来越複杂。凭藉基于全新 Armv9.2 架构基础的 TCS23,我们可以为合作伙伴提供突破能效和性能边界所需的最新技术,助其打造更为出众的行动 SoC。合作伙伴还可以採用 TCS23 进行不同配置,从而自行创建多样化与可扩展的运算解决方案,从而让 TCS23 的强大功能惠及广泛的消费者市场区隔。深入了解 TCS23TCS23 整合了一系列新推出的 Arm IP 产品,包括 CPU、GPU 和其他系统 IP,目的是为了下一代行动装置提供广泛的运算功能和应用场景。其中包括:性能和能效尤为出众的 Arm GPU 均基于全新第五代 GPU 架构,包括Immortalis-G720、Mali-G720 和 Mali-G620。Armv9.2 运算丛集包含全新 Cortex-X4、Cortex-A720 和 Cortex-A520 CPU,以及DynamIQ Shared Unit ,DSU-120。这些元件协同作用实现了双位数的性能、效率和功耗提升。所有新的 IP 均实现了系统级优化,共同提高了整个 TCS23 平台的可扩展性和效率表现。Photo Credit:Arm除了新的 IP 之外,TCS23 还提供了一系列专为全新一代安卓作业系统量身定制的开发工具、设计与优化,同时也提供了用于加速SoC设计的物理实现支援。同时我们还持续开发 Arm NN 和 Arm Compute Library 等软体库,助力开发者在 Armv9 架构上优化其机器学习(ML)工作负载的执行效率。自今年年初以来,Arm NN 和 Arm Compute Library 已在安卓平台上的 Google Apps 被使用,活跃用户已达到一亿。此外我们也努力在Android Kernel中无缝启用我们的 IP 和全新功能。Photo Credit:ArmTCS23 为开发者提供了各式各样的免费工具和资源,以供其在基于 Arm 架构的行动装置上优化应用。Arm 全球的行动开发者数量近 900 万,Arm 为编写更简单、更安全、更快速的软体提供了其所需的灵活性和通用性,为此我们感到无比自豪。在游戏领域,我们与主流游戏引擎企业建立了深入的合作伙伴关係,以确保我们的图形工具提供高度可扩展的游戏优化效果,同时我们的各种详细资源协助开发者创作专属的游戏内容。最后,经过优化的物理 IP 在全新一代先进制程节点上对 Arm IP 达成了领先的物理实现。Photo Credit:ArmTSC23 – 高阶、性能 和 效率TCS23 大致上提供三种不同配置,分别为高阶、性能和效率,适用于不同设备、应用场景和运算要求。高阶Premium TCS23 提供终极性能和运算密集型体验,可满足高阶和旗舰智慧手机及笔记型电脑的常见需求。此配置推动了整个系统的性能和效率提升,可呈现更具冲击力的视觉效果,例如流畅的沉浸式 AAA 级行动游戏体验、图像和影片增强等先进 AI 应用场景以及装置多工处理。Premium TCS23 实现了高性能和高能效的巧妙平衡,可支援运行数天的体验。性能Performance TCS23 专为满足多个消费电子装置市场区隔的一系列运算要求而设计,包括高阶数位电视和机上盒,以及中阶智慧手机。该配置侧重于提供具有超高可扩展性的高级图形和运算性能,实现出色的使用者体验。强大的图形和运算性能是这些装置上多工处理的关键核心,帮助实现超级流畅的用户体验,尤其是在启动和切换应用的场景中。举例来说,数位电视可以具备多视图功能,例如同时在萤幕上显示影像通话、影片串流和 AI 应用等多个任务。增加的性能还可实现先进机器学习功能,以提升相机和影片应用场景的相关使用者体验。效率Efficiency TCS23 包含可扩展性超高的解决方案,兼具超低功耗、超低成本和高面积利用率等优势。该装置主要适用于更侧重上述能效因素的装置,例如入门级数位电视和机上盒 (STB) 以及可穿戴装置,如智慧手錶等。我们的 IP 以及整体系统的强劲能效可帮助合作伙伴设计出优异的电池续航时间的下一代产品。除此之外,TCS23 为注重成本的市场準备了多款配置选择,例如由全新 Cortex-A520 提供支援的可扩展 CPU 小核丛集,以及可扩展的 Mali GPU。性能和效率的基準测试对于每一代 Arm 全面运算解决方案,我们都会在 FPGA 平台上构建一个完整的运算子系统。此举目的在提供超越单个独立 IP 产品的性能表现,并在运行複杂的运算工作负载和完整作业系统(如 Android 13)时,对完整的解决方案进行性能分析。TCS23 参考平台是一个优质的解决方案,其中包含 Cortex-X4、Cortex-A720 和 Cortex-A520 CPU 小核,以及搭载 8MB 三级快取的全新 DSU-120。该 CPU 丛集与 Arm 第二代 Immortalis-G720 GPU 协同作用,由 CoreLink CI-700 实现互连并提供 SLC,适用于所有 IP。请注意,这只是用于基準测试的配置示例,合作伙伴可根据其需求自行选择其他 TCS23 配置。该参考平台各方面的确表现出色,如下图所示。Photo Credit:Arm频宽用量减少TCS23 经过优化,可改善实际工作负载的回应时间并减少频宽用量。与上一代 TCS22 相比,该平台每帧流量所佔用的 DRAM 频宽平均减少了 30%¹。对于某些内容,特别是游戏,这一结果甚至更为出色。例如,分析热门 AAA 级游戏《堡垒之夜》的场景发现,系统级 DRAM 频宽降低了 44%。频宽越小,系统功耗越低,促使 GPU 和 DRAM 平均功率消耗减小了 20%²。DRAM 频宽的降低主要得益于全新 Immortalis-G720 GPU,作为全新第五代 GPU 架构的一部分,该 GPU 引入了「延迟顶点着色(DVS)」的新功能,并从多个方面提升了效率并优化了 SLC 分配策略。Photo Credit:Arm提升峰值性能我们在 TCS23 平台上执行了多个运算和图形性能基準测试。对于一般的运算,与 1+3+4 TCS22 CPU 配置相比,迁移到 1+5+2 TCS23 CPU 配置后的峰值性能提升了 27%³。当我们聚焦网页流览体验时会发现,TCS23 硬体与上一代 TCS22 具有相同的丛集配置的条件下⁴,但性能却提升了 33%,将 TCS23 硬体与经优化的软体相结合时性能提升了 64%⁵。同时,Manhattan 3.0 图形基準测试的性能提升高达 21%⁶。Photo Credit:Arm异质机器学习运算我们对 TCS23 中的软体和硬体都进行了优化,以加快机器学习工作负载运行速度。将全新 CPU 与 TCS23 平台中经提升的硬体和软体相结合后,Cortex-X4 的机器学习性能平均提升了 12%,Cortex-A720 提升了 9%,Cortex-A520 提升了 13%⁷。在 GPU 方面,我们在去年的硬体提升基础上,进一步从软体方面优化 Arm NN 和 Arm Compute Library,从而将超解析度 FSRCNN 网路的机器学习性能提升了四倍⁸。Photo Credit:Arm安全性,从源头做起Arm 将继续致力于通过 TCS23 引入全新先进技术来发展平台安全性,提高安全保障。TCS23 专为支持安卓虚拟化框架(AVF)而设计,该框架目前已作为一项关键安全特性被 Android 13 採用。AVF 仅适用于基于 ARM64 的装置,可提供安全、私密的代码执行环境,该框架非常适合对使用者资料的安全性和隐私保障更为严格的高级应用场景。指标验证(PAC)和分支目标识别(BTI)通过协同工作可消除几乎所有 ROP 和 JOP 攻击,从而提高控制流的完整性。我们成功降低了与这两种安全功能相关的性能成本,因此对于全新 Cortex-X4 和 Cortex-A720 CPU 内核来说可以忽略不计。此外,通过採用全新 QARMA3 演算法等方式增强 PAC 功能后,PAC 和 BTI 对 Cortex-A520 CPU 内核性能影响可以降低到 1% 以下。最后,我们使用全新 mbedTLS v3.3 库更新了可信赖韧体 Trusted Firmware-A (TF-A),该库提供了全新特性和漏洞修复,从而可增强资料保护能力。定义运算未来的完整平台我们的合作伙伴可以将 TCS23 的强大功能部署到各级行动装置上,从而创造出改变生活的产品、服务和体验。无论合作伙伴选择哪一种 TCS23 配置,都能在 SoC 开发过程中受惠于缩短上市时间并降低成本的优势。每种 TCS23 配置(高阶、性能、或效率)包含的 IP 都具有相同的硬体介面和软体支援,可以更有效地协同工作。Photo Credit:ArmTCS23 的端到端系统优化为现在和未来的行动运算应用场景实现了整体 SoC 性能和效率的优异表现。TCS23 还提供更多的安全功能和软体功能,以进一步激发并释放开发者的创造潜能,为用户带来颇具创新的沉浸式体验。多方面的系统级提升和其他新功能使 TCS23 成为未来行动运算的完整平台。本文章内容由「Arm」提供,经关键评论网媒体集团广编企划编审。附注¹ Power consumption for TCS23 GPU and DRAM+PHY vs TCS22 GPU and DRAM+PHY, measured on Arm FPGA platforms.² Power consumption for TCS23 GPU and DRAM+PHY vs TCS22 GPU and DRAM+PHY, measured on Arm FPGA platforms.³Based on ‘GeekBench 6 MT’ benchmark for General Compute Performance. Measured on FPGA at system level, Android 13 iso-frequency, iso L3/SLC cache size.⁴ Based on ‘Speedometer 2.1’ benchmark for Browsing Experience. Measured on FPGA at system level, Android 13 with 1+3+4 cluster config and iso-frequency.⁵ Based on ‘Speedometer 2.1’ benchmark for Browsing Experience. Measured on FPGA at system level, Android 13 with 1+3+4 cluster config and iso-frequency. Using publicly available Optimized Chromium r114 with PAC/BTI enabled. Comparison against r99 baseline.⁶ Measured on TCS23 at system level, Android 13 iso-process, iso-core count, iso-voltage vs TCS22 Arm reference system, TCS22 using r35p0 and TCS23 using r40p0 DDK.⁷ Average performance uplift (inference time) across a range of ML workloads comparing Arm Compute Library v22.05 with v23.02 and vs TCS22 Arm reference system, comparisons with TCS22 generation equivalent cores iso-frequency.⁸ Average performance uplift (inference time) across a range of ML workloads comparing Arm Compute Library v22.05 with v23.02 and vs TCS22 Arm reference system, comparisons with TCS22 generation equivalent cores iso-frequency.