联发科:移动端执行生成式 AI 任务的时代即将到来,无需倚赖云处理
撰文:Jason Perlow
来源:Zdnet
图片来源:由无界 AI工具生成
联发科正在与 Meta 的 Lllama 2 LLM 合作,旨在直接在移动设备上运行生成式人工智能任务,无需基于云的处理。这样做有几个好处,但也有相应的问题。
生成式人工智能是最热门的新兴技术之一,OpenAI 的 ChatGPT 和谷歌 Bard 聊天系统以及 Stable Diffusion 和 DALL-E 等图像生成系统都采用了这种技术。不过,它仍有一定的局限性,因为这些工具需要使用云端数据中心的数百个 GPU 来执行每次查询所需的计算过程。
但总有一天,我们可以直接在移动设备上运行人工智能生成任务。或是联网汽车,或者在客厅、卧室和厨房里,通过亚马逊 Echo、谷歌 Home 或苹果 HomePod 等智能扬声器运行。
联发科相信,这个未来比我们想象的更近。今天,这家总部位于台湾的半导体公司宣布,它正在与 Meta 合作,将这家社交巨头的 Lllama 2 LLM 与该公司的最新一代 APU 和 NeuroPilot 软件开发平台结合起来,以便在设备上运行生成式 AI 任务,而无需依赖外部处理。
当然,这也有一个问题:这种结合不会完全消除数据中心。由于 LLM 数据集的大小(它们包含的参数数量)和存储系统所需的性能,我们仍然需要一个数据中心,尽管规模要小得多。
例如,Llama 2 的“小”数据集有 70 亿个参数,约 13 GB,适合一些初级的生成式人工智能功能。然而,更大版本的 720 亿个参数,即使使用先进的数据压缩技术,也需要按比例增加大量存储空间,这超出了当今智能手机的实际能力。未来几年,正在开发中的 LLM 的大小将很容易达到 Llama 2 或 GPT-4 的 10 到 100 倍,存储需求将达到数百 GB 甚至更高。
这对于智能手机来说很难存储,也很难有足够的 IOPS 来满足数据库性能的要求,但对于专门设计的具有快速闪存和 TB RAM 的缓存设备来说肯定不是这样。因此,对于 Llama 2,现在可以在单个机架单元中托管一个为移动设备服务而优化的设备,而无需进行繁重的计算。这不是一部手机,但无论如何它都令人印象深刻!
联发科预计,基于 Llama 2 的人工智能应用将在采用其下一代旗舰 SoC 的智能手机上推出,计划于今年年底投放市场。
要让设备上的生成式人工智能访问这些数据集,移动运营商必须依靠低延迟边缘网络 – 与 5 G 塔快速连接的小型数据中心/设备机柜。这些数据中心将直接位于运营商的网络上,因此在智能手机上运行的 LLM 在访问参数数据之前无需经过多次网络“跳转”。
除了在使用联发科等专用处理器的设备上运行人工智能工作负载外,还可以在“受限设备边缘”场景中,通过在微型数据中心内与这些缓存设备混合运行的方式,将特定领域的 LLM 移至更靠近应用工作负载的位置。
那么,使用设备端生成式人工智能有哪些好处呢?
- 减少延迟: 由于数据是在设备上处理的,因此响应时间大大缩短,尤其是在对参数数据集的频繁访问部分使用本地化缓存方法的情况下。
- 提高数据私密性: 将数据保存在设备上,数据(如聊天对话或用户提交的训练)就不会通过数据中心传输,只会通过模型数据传输。
- 提高带宽效率: 如今,生成式人工智能任务需要将用户对话中的所有数据来回传输到数据中心。而通过本地化处理,大量数据将在设备上完成。
- 提高运行弹性: 通过在设备上生成,即使网络中断,系统也能继续运行,尤其是在设备拥有足够大的参数缓存的情况下。
- 能源效率: 数据中心不需要那么多计算密集型资源,也不需要那么多能源将数据从设备传输到数据中心。
不过,要实现这些优势,可能需要拆分工作负载并使用其他负载均衡技术,以减轻集中式数据中心的计算成本和网络开销。
除了对快速连接的边缘数据中心的持续需求(尽管计算和能源需求大大降低)之外,还有另一个问题:在当今的硬件上到底能运行多强大的 LLM?虽然设备上的数据在网络上被拦截的担忧较小,但如果管理不当,本地设备上的敏感数据被渗透的安全风险也会增加,而且在大量分布式边缘缓存设备上更新模型数据和保持数据一致性也是一个挑战。
最后是成本问题:谁来为所有这些小型边缘数据中心买单?目前,边缘网络由边缘服务提供商(如 Equinix)采用,Netflix 和苹果的 iTunes 等服务都需要边缘网络,而 AT&T、T-Mobile 或 Verizon 等移动网络运营商传统上不需要边缘网络。OpenAI/微软、谷歌和 Meta 等生成式人工智能服务提供商也需要做出类似的安排。
设备端的生成式人工智能需要考虑很多因素,但很明显科技公司正在考虑这个问题。五年内,你的设备上的智能助手可能会自己思考。准备好将人工智能装进你的口袋了吗?它即将到来,而且比大多数人预想的要快得多。