5月21日,武汉光谷万豪酒店,阿里云“AI领袖峰会”。
到达现场后,嘉宾们发现了一件不同寻常的事,这是近一个月以来,在杭州、北京、西安举办的系列峰会,这次阿里云高级副总裁、智能集团总裁刘伟光亲自到场,阿里云这次或许是要搞大事情了。
果然,发布会刚开始十多分钟,刘伟光就开始讲硬件领域的常见话题“摩尔定律”。
对一个极客最高程度的致敬,是“show me code”;对一个商业教父最高程度的致敬,是将他的观点变成行业规律,而摩尔定律就是其中之一。
1965年,英特尔联合创始人表示,“单位面积晶体管的密度每隔18个月就会翻一番。”这主导了半导体产业60多年的发展。
然而随着摩尔定律的逝去,摩尔定律在微观晶体管领域逐渐褪色,冯·诺依曼架构和量子隧穿原本的局限性,都成为了挡在我们面前的障碍。
那么如何换一个角度,更宏观一点,更以用户为中心一点,这也是阿里云思考了很多年的问题。
从用户角度看,晶体管密度只是次要的,摩尔定律最根本的含义是,每隔18个月,用户就能以同样的价格购买到翻倍的计算能力。
但很显然,要实现越来越便宜的计算能力,只靠晶体管密度是不够的。
公有云和AI或许是阿里云超越摩尔定律的尝试。
01
人工智能推理成本,
开始呈指数下降
“我认为只有每年把AI推理的成本降低十倍甚至百倍,才能真正推动AI在各行各业应用的爆发式增长。”
刘伟光话音刚落,全场众人面面相觑:目前中国80%的科技公司、一半的大模型公司都在阿里云上跑,阿里云每年跑百余次,这意味着阿里云将把使用国产大模型的成本一步拉到地板价。
随后不久,阿里云官方宣布,旗下九大核心商用开源模型将全部降价,即日起通过阿里云百联官网开放使用。其中,阿里云与GPT-4相当的长文本模型Qwen-Long价格已降至GPT-4价格的1/400,为全球最低。
Qwen-Long 是统一千文的增强长文本模型,主要适用于消耗 token 最多的长文本场景,最大上下文长度为 1000 万,可处理约 1500 万字或 1.5 万页的文档。
官方宣布后,其API输入价格从0.02元/千字降到了0.0005元/千字,直接降幅达97%。这意味着1元钱可以买到200万,相当于5本新华字典的文本量。相比之下,国内外厂商的GPT-4.5 Pro、3、Ernie-4.0每千字的输入价格分别为0.22元、0.025元、0.022元、0.12元,远高于Qwen-Long。同时,Qwen-Long的输出价格也从0.02元/千字降到了0.002元/千字,降幅达90%。
而近期发布的统一千纹旗舰大型号Qwen-Max,在权威基准跑分上性能与GPT-4-Turbo不相上下,也参与了此次降价,API投入价格降至0.04元/千元,降幅达67%。
其它开源机型方面,Qwen1.5-72B、Qwen1.5-110B等5款开源机型投入价格也均下降了75%以上。
从最广泛的应用范围到最好的性能,阿里云都拿出了最重要的产品,足见其决心。
02
阿里云的决心:成为大榜样
基础设施爆炸式增长
为什么要降价?
答案就写在本次活动的主题里:“让每个人都能轻松实现AI应用”,成为大模型时代的基础设施。
多位内部人士透露,阿里云对AI的定位已经上升到前所未有的战略高度。在多次内部会议中,阿里云高管曾将2024年的AI与2017年的短视频、2012年的移动支付做对比。2012年至2013年,3G向4G过渡期间,中国移动支付两年增长800%;2017年至2018年,多家短视频公司的爆发,实现了全中国短视频8.5倍的增长。
未来AI爆发的速度,会远远超出大家的想象,现在国内所有大型模型公司每天的API调用量都不超过1亿次,到年底这个数据量会达到100亿次,百倍的增长。
为了实现“AI基础设施”,阿里云将自己定位为四个:
有实力提供全球领先的模型服务。不久前,Sam转发了Arena榜单,验证了GPT-4o的能力。全球排名前20的模型中,有3位同益千文模型,代表着中国的模型实力位居世界前列。
Sam 在 X 上转发了 GPT-4o 测试结果|X
第二,我们有能力构建国内最大的推理集群,通过全球30个公有云,共计89个可用区,实现推理吞吐量提升4倍,计算资源节省8倍,并支持分钟级快速动态扩容。
三是要有开放的态度,持续开源。作为最早提出MaaS(模型即服务)理念的云厂商,阿里云百联模型服务平台目前可以调用众多第三方及垂直领域的大模型,目标是为模型提供更好的服务。魔塔社区是国内最大的模型社区,累计模型数量超过4500个,用户超过500万。统筹持续开源全模态全尺寸模型家族,开源模型下载量累计700万次。
有了四个“有”,我们有信心迎接AI应用的爆发。财报数据显示,阿里云AI相关收入同比增长三位数。
相对于阿里云的“四个有”,业界有“两个贵”。
一方面,开发和微调的人力成本高昂。大模型人才稀缺是行业共识,某消费电子巨头曾算过,大模型研发平均税后人才成本为100万元。对于普通公司来说,即便跳过基础模型这一步,直接使用开源大模型进行微调,成本依然高昂。
另一方面,硬件成本“硅谷贵”。一家拥抱大模型的创业公司,起步价其实就需要购买50台GPU服务器,甚至100台、200台甚至更大的集群。如果对标世界顶尖水平,训练一个100B规模的LLM,以系列模型为例,它的资源消耗是3.5万亿个token,一个集群大概有4096台A100,训练时间大概是70天。其中一台A100的价格通常在1万美元以上。除了购买GPU,搭建集群还包括软件部署、网络费、电费、运维费,以及不断投入的试错成本,成本远超一般企业能承受的范围。
那么,对于阿里云来说,下一步的核心目标,就是利用阿里云的“四个有”来解决AI爆发式增长遇到的“两个贵”的问题。
03
决定 API 价值的因素:
高技术水平+包容能力
不难发现,阿里云此次的重点有两个,第一是强调API的价值,第二是降低价格,实现普遍接入。
API简单易懂,互联网发展没必要再重新发明轮子,大模型开发也不一定所有人都从基础模型开始,API与公有云的结合,不仅可以减少大模型开发的人力成本,也是让大模型通用化的必由之路。
一方面,云厂商天然的开放性可以为开发者提供私有部署所不具备的丰富模型和工具链。阿里云百联平台汇聚了统一、百川、Llama系列等国内外数百种优质模型,内置大模型定制和应用开发工具链。开发者可以轻松测试和比较不同模型,开发专属大模型,轻松构建RAG等应用。从模型选择、模型调整、应用构建到对外服务,一站式搞定。
另一方面,云上让多模型调用更加便捷,提供企业级的数据安全。阿里云可以为每个企业提供专属的VPC环境,实现计算隔离、存储隔离、网络隔离、数据加密,充分保障数据安全。目前阿里云已经主导或深度参与了10多项大模型安全相关的国际国内技术标准的制定。
降价背后的逻辑是为了能够提供普遍的利益。
PC 时代,安迪-比尔定律主导了行业的不断发展,安迪代表卖 CPU 的英特尔,比尔代表做操作系统的微软。两人的结合,随着操作系统所代表的软件体量越来越庞大,用户不得不定期更新迭代新的硬件。
在AI时代,大模型发展得越好,对云计算等算力的需求就越高。“生成式AI所依赖的算力,不只是CPU和简单技术带来的策略,更多的是大规模集群。大规模GPU集群带来的是算力的基础,包括网络存储背后能力的提升。因此,生成式AI无论是推理还是训练,都在逐渐更多地走向云端,再次引爆公有云的爆发”,刘伟光直言。
此次史无前例的降价原因在于云计算本身超越了摩尔定律。
过去,在摩尔定律主导下,每18个月芯片单位面积晶体管的密度就会增加一倍,同样的算力,18个月内用户的使用成本就降低了一半。
如今,晶体管的摩尔定律已经失效,但公有云的技术红利和规模效应依然可以带来计算成本的持续优化,比如阿里云在过去十年里计算成本降低了80%,存储成本降低了90%。
具体在AI领域,阿里云基于自研的异构芯片互联、高性能网络HPN7.0、高性能存储CPFS、人工智能平台PAI等核心技术和产品,构建了极其灵活的AI算力调度体系,结合百联分布式推理加速引擎,大幅降低了模型推理成本,加速了模型推理速度。
因此即便是同样的开源机型,在公有云上的调用价格也远低于私有部署,例如采用月用量1亿的Qwen-72B开源机型,在阿里云百联上直接调用API只需600元/月,而私有部署费用平均每月在1万元以上。
目前来看,大模型的爆发才刚刚开始,但如何打好这场持久战、如何奠定阿里云基础设施的基础,其实早已在悄悄酝酿之中。
阿里云引发的连锁反应
事实上,阿里云的大幅降价并不会结束这个故事。
就在今天,继上午阿里云大模型价格大幅下调后,百度又宣布下午旗下两款轻量级主力大模型免费。虽然这与阿里云降价的模型能力并不完全匹配,在势头上看似是快速反应,但毫无疑问,阿里云这波大模型能力的上线将引发行业进一步的连锁反应。
对于应用创新来说,大模型API成本的下降,甚至可以接近免费试用,对于刺激应用创新来说是一件好事。过去,中国在实体经济中被称为基建狂魔,“先修路,才能富起来”成为家喻户晓的常识。其背后的底层经济规律是,基础设施的价格与社会创新总量之间存在着微妙的跷跷板结构:
只有基础设施的价格下降,创新才能像成熟的蒲公英一样,借助风力把种子传播到很远的地方。过去在实体经济中是如此,我们预计在AI时代也会如此。
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。