短短两个月,生成式AI引发的大模型军备赛不仅没有熄火,反而愈加激烈。踩准每次浪潮,是每家企业的梦想,而现在,大模型为许多应用增添了更多想象力。
IDC在《2022中国大模型发展白皮书》中预测,2026年中国人工智能软件及应用市场规模将达到211亿美元,未来各行各业都会被AI所推进。
大模型技术是流动性的,随着行业对它的投入和关注不断提高,行业或将会出现你追我赶的状态,而不是长期被一两家垄断的局面。未来,除了驰骋多年的老将,更多新兵也将加入到大模型之争。但大模型不仅参数量巨大,算力需求也巨大,这些厂商该怎么办?一切方向指向了云。
【资料图】
踏云而飞,并不简单
近年来,AI已被深植入各个垂直应用中,而大模型为它们创造了更多想象力,但大多情况下,行业并不需要非常通用或巨大的基座模型。
比如,传统药物研发周期长、成本高、失败率高,大模型则能让制药子弹飞地更快、更正中靶点。虽然大模型可承载更多生物信息,但大多高质量数据是药企竞争核心。
又如,金融领域的语言大模型客服,需大量高质量语料做增量训练,但大多语料拥有版权,基座模型很难获得这样的数据。
竞逐大模型并非易事,创新门槛比过去高很多。比如,原先做视觉模型,几台机器就可以搞定,而大模型则动辄上百、上千张计算卡,还要面任务稳定性差、项目成本高等问题,解决这种问题的方法就是上云。
由生成式AI带动的商业场景中,云计算是距离商业变现最近的那一个,也是大模型淘金潮中最重要的“卖铲人”。看似美好,但铲子也要称手,才能挖掘出更多潜在的黄金。并不是所有云,都能做好大模型。
首先,大模型的数据安全非常重要,要牵扯到内容安全、隐私保护、知识产权保护等问题;其次,现在大多大模型只有三四十分,仍需长期投入训练基础模型;另外,大模型更要考虑长期成本,训练大模型真的很贵,更别说长期持续推动。
云计算并不是一个碗,什么都能装,也需要为大模型定制,不断与企业齐头并进,才能让大模型伸向千行百业生长。
从上云用云,到云上创新
在大模型浪潮中,催生出更多商业模式,比如说在最近频繁提及的MaaS(模型即服务)。不过,以现在视角来看,传统云不止AI类业务,IaaS仍会是现在的主流。
和其它云厂商力推自家大模型不同的是,火山引擎正与多家大模型客户合作,立志于大模型市场的火山引擎又有什么不同?
一是从算力层面,支持大模型客户把基座大模型训练得更稳、更快、更省。
没有经验,谈何产品。火山引擎总裁谭待指出,尽管火山引擎看似是2021年新进市场的年轻的云厂商,但实际其采用的是内外统一的架构。所以从规模上来讲,内外加在一起可与一线厂商对等,是支持千卡甚至万卡GPU的云平台;从服务上来讲,对外提供的技术是经过抖音等业务长时间实践的;与此同时,对于碎片化导致的大模型饥饿、小模型排不上队的问题,火山引擎拥有完善的调度系统和算法,增强其自身的弹性。
“火山引擎核心差异化的点在于火山引擎与字节中国区业务大规模并池,比如通过并池就可以将云的经营效率和售卖率提升到非常高的水平,售卖率提高,成本就非常低了。”谭待强调,这对于寻求降本增效的客户,尤其是关心成本的大模型客户,非常有吸引力。此外,还可通过与抖音潮汐资源混布,进一步降低运营成本。相比普通计算实例,火山引擎SPOT实例价格最高减少80%。
芯片搭配干活,才能更高效。未来3年内,大规模算力中心都将形成“CPU+GPU+DPU”的混合算力结构,CPU负责通用计算,GPU负责AI计算,DPU负责资源卸载、加速和隔离。其发布的新一代自研DPU网络性能可达5000万pps转发能力、延迟低至20us,加之此前的自研mGPU与自研虚拟网络vswitch,能够拥有极致性能。
除此之外,大模型任务工程中,可能会随机发生各种硬件故障,火山引擎则有非常快速的故障迁移能力,比如在大模型训练中,一旦GPU、服务器或网络出现故障,火山引擎的集群可以在3分钟的SLA条件下,实现调度,将任务无缝迁移到新主机上。
二是不断与大模型客户优化算法和算子,提升大模型训练效率。
火山引擎的Lego算子优化在业内已小有名气,去年年底,使用该高性能算子库可将Stable Diffusion模型在128张A100的训练时间从25天减少到15天,训练性能提升40%。
另外,由于AIGC模型训练时占用GPU显存容量大,未经优化的模型只能运行在高端的A100 80GB GPU上。火山引擎高性能算子库通过大量消减中间操作,将运行时GPU显存占用量降低50%,使得大多数模型可从A100迁移到成本更低的V100或A30等GPU上运行。
三是不同的负载如何放到不同的云上,让企业更好地用好云,才能做好大模型。
根据谭待的介绍,中国数字化进程云渗透率偏低,到现在仍拥有10倍以上的增量。此外,调研发现,4000多家云消耗在100万以上的公司,有88%的企业已采用多云的架构。而在边缘侧,随着业务现场的终端变革和应用复杂度变高,连接与计算将广泛存在不同空间。
因此,建设分布式云需要解决好三个问题:一是从单一公有云架构向多公有云架构升级,增加弹性、降本增效;二是从传统架构向混合云架构升级,保障既有投资和数据安全;三是基于“算力靠近数据”的理念,形成覆盖1-40ms不同延时的现场边缘、近场边缘和云边缘的体系化架构。火山引擎则拥有分布式云原生、多云安全、多云CDN、veStack等产品,帮助客户解决这种问题。
通过上述优势,火山引擎能够支持各类大模型场景。在大模型分布式并行训练场景的GPU实例中,跨节点提供800Gbps RDMA网络带宽,相较上一代实例集群性能最高提升3倍以上。
毫末智行CEO顾维灏
目前火山引擎的成果已经出现,在毫末智行与火山引擎合作中,毫末智行依托智算中心MANA OASIS成功推出DriveGPT。DriveGPT的包含4000万公里量产车驾驶数据,参数量达到1200亿,如此规模通常要几百或上千张GPU训练几个月时间,更困难的是,训练过程中的波动会造成整个系统崩溃。MANA OASIS则拥有67亿亿次/秒浮点运算性能、2T/秒存储带宽和800G/秒通信带宽。在RLHF加持下,Hardcase通过率提升48%。此外,双方合作中,针对异常大规模训练,也做了很多硬件异常的处理和捕获。
在过去,创立一家AGI(通用人工智能)公司几乎是天方夜谭,就算拥有深厚技术积累,也难以支撑巨大的算力消耗。MiniMax就是一家成立于2021年底的初创公司,在火山引擎的算力支持和算子优化和网络调优之下,MiniMax正不断探索AGI的更多商业价值。
谭待指出,国内距离全球最高水平的大模型还需要比较长的时间,现阶段不可能用三四十分的模型去做应用,也不可能做好应用,只有修炼好内功,先做好模型,才能在各行业找到更多的商业场景。
目前,很多大厂都在做大模型,也有很多创业公司蓄势待发,OpenAI本质也是一家创业企业,所以未来市场很有可能是百花齐放的态势,将来也会多家大模型共存,相互竞争和演进。
对火山引擎来说,能够做的就是服务好各行各业,支持他们不断创新。但火山引擎所覆盖的并不只是大模型相关企业,而是深入千行百业。
让云赋能百业
“对于云厂商来说,最重要的就是驱动云背后的逻辑是什么。不管人工制定规则也好,机器学习也好,如何让各行各业数据本身产生更大价值,带动更多计算和存储发展,是非常重要的。火山引擎希望通过在云上布局的各种技术,为各行业带来更多业务创新。”
火山引擎不是一家只提供IaaS层技术的公司,实际上,企业转型过程中会存在更多增长和发展的诉求,因此如何将云所在生态资源聚合,并与实体企业业务发展需求结合会是火山引擎关注的重点。
就比如说,去年抖音上世界杯的直播体验非常丝滑,其背后技术源于火山引擎,包括很多视频解码、直播优化和RTC等技术。更重要的是,火山引擎会将与抖音C端业务深度融合的经验,带给更多客户,这样既能解决运营问题,又能解决解决数字化提效问题。
多年云计算中,火山引擎发现业界普遍关注的话题是数据能够产生很多价值,但做数据的团队的价值该通过什么方式来度量?谭待指出,火山引擎的数据BP(数据业务伙伴)服务标准叫做0987,即“0数据事故、90%的需求满足、80%分析能够通过主题表或中间表的方式覆盖、70%的NPS(净推荐值)”,这样的量化方式帮助到了华泰证券、光大证券在内的强数据驱动企业。
在科学领域,火山引擎和科研机构合作开发了生物医学大数据操作系统Bio-OS,这套系统帮助科学家将实验室里需要逐个用试管操作的实验,转变为云计算的AI模拟算法,一个个算法又装配成一条条数据分析流水线,对数十万计的基因组学、蛋白组学进行批量分析计算,像拼图一样拖拽图标就能完成复杂的生物计算,从海量的基因信息中找到最为关键的致病位点。
晶泰科技联合创始人兼CEO马健
在医药领域,火山引擎也让云上自动化智能化药物研发成为现实。在与晶泰科技合作中,针对AI药物研发的算法并行度高和算力突发性强的问题,火山引擎为晶泰科技构建了极致弹性的云,其秒级弹性拉起上万核心,集群装箱率95%以上,同时在全流程AI生成策略、蛋白质孪生可视化、视觉辅助算法加持下,展现出超高通量筛选。
这样的例子不胜枚举,在火山引擎的努力下,AI正在各个领域不断创造价值,迄今为止,大模型中有7成以上是火山引擎的客户。谭待表示,选择上云,是解决大模型时代大量成本开销和巨大价值不确定性的最优解,火山引擎所做的一切只为让千行百业真正做到“用好云”。