亚马逊在re:Invent大会上直接把新一代AI训练芯片和一套新模型服务一起端出来:TrAInium 3已在多个数据中心上线并对外开放,同时推出Nova 2系列模型、Nova Forge“开放式训练”服务和Nova Act浏览器代理服务。市场瞬间有反应,股价短时上扬,几家对手也在盘中出现波动。说白了,就是把硬件、模型和服务一把抓,往AI基础设施的高地上推一把。
发布会的现场节奏很快。AWS副总裁Dave Brown在台上说,Trainium 3已经部署在印第安纳、密西西比、宾夕法尼亚等地的数据中心,并从当天开始对客户开放使用。Brown还强调,明年初会迅速扩大规模。听起来节奏超快,这代产品比上一代间隔不到一年就出来了,和英伟达近年的“每年推新芯片”的频率差不多。简单一句话,就是不拖。
回头看技术细节,Trainium 3在制程上是AWS首款采用3纳米工艺的AI芯片。官方给出的数值不少:每颗芯片的FP8算力被表述为2.52千万亿次浮点运算,单颗芯片内存提升到144GB HBM3e,带宽升到4.9TB/s,和上一代比,算力、带宽和内存容量都大幅提升。把芯片装满的Trn3 UltraServer能放144颗芯片,总算力宣称可达362 PFLOPs,合并内存20.7TB,聚合内存带宽706TB/s。亚马逊还说,这套系统比上一代速度提升超过4倍,内存容量提高4倍,能效比提升40%,性能功耗比提高4倍,每兆瓦输出的token数增加超过5倍,同时延迟保持相当水平。听这些数字,技术面看起来确实进步明显。说句我的看法,这种直观数据给人的信心是有的,但生态和落地还得看后续。
在可扩展性方面,AWS把目光放得很大。Trn3 UltraServer能在EC2 UltraClusters 3.0里横向扩展到数万甚至更多颗芯片。AWS提到的目标是:年底前为AI初创公司Anthropic提供100万颗芯片。现在Anthropic已经是主要用户之一,亚马逊早些时候说,已经把超过50万颗芯片连起来帮Anthropic训练最新模型。只是Anthropic并不只用AWS的设备,他们也在用谷歌的TPU,早前还与谷歌达成了大额计算资源协议。换句话说,Anthropic愿意把预算分配到多个供应商上,这对AWS来说既是机会也是竞争局面的一部分。
另外,AWS没有只把重点放在硬件上。当天他们也同步推出Nova家族新成员和几个服务。Nova 2系包括Lite、Pro、Sonic、Omni四款模型,分别瞄准不同场景:Lite主打低成本、快推理,能处理文本、图片和视频并生成文本;Pro是高智能推理模型,适合复杂任务如长期规划和代理编码;Sonic是语音到语音的统一模型,支持实时类人的对话和大上下文窗口;Omni则是统一的多模态生成和推理模型,可一次性处理大量文本、长音频、长视频和海量文档。官方还把基准测试摆出来说事:Lite在多个测试里优于或不逊于Claude Haiku 4.5和GPT-5 Mini;Pro在若干基准里对比Claude Sonnet 4.5、GPT-5.1和Gemini 2.5 Pro也有竞争力。这样的对比,亚马逊是把自家模型能力和价格性能比放到台面上比拼。
和模型配套的服务更值得注意。Nova Forge主打“开放式训练”的概念,允许企业访问预训练/中期/后训练的模型检查点,把自有数据和亚马逊的策划数据混合训练,给定制模型提供更灵活的路径。亚马逊把这种定制能力描述为能解决企业遇到的三类难题:把专有知识嵌入模型时深度受限、要继续训练开源权重但缺原始训练数据、或从零开始造模型成本太高。Forge还允许客户在自有环境里进行强化学习训练(他们称为“gyms”)、选择生成更小更快的模型,以及使用一套负责任AI工具来做安全控制。Reddit、Booking.com、Cosine AI、Nimbus Therapeutics、野村综合研究所、OpenBabylon和索尼等都被点名在用或测试Forge。Reddit的CTO说,他们用Forge把多个模型合并,想用一种更统一的方法做内容审核。不少企业愿意试,说明这个服务确实触到了企业在定制化上的痛点。说实话,这种把训练检查点开放出来的做法,能不能真正吸引大量客户,还得看价格和使用难度。
另一个新服务是Nova Act,聚焦浏览器端自动化的AI代理。它用定制的Nova 2 Lite驱动,在大量模拟网络环境里训练,官方说早期客户的可靠性达到了90%。这种能力对做重复性网页操作、更新CRM数据、测试网站功能或提交理赔流程很有用。亚马逊给出了一些真实案例:Sola Systems在接入Nova Act后每月自动化数十万个工作流;1Password用它减少了跨数百网站检索登录信息的人工步骤;Hertz把端到端测试的周期从数周缩短到数小时,软件交付速度提升了5倍。这类能直接替代大量人工操作的工具,企业会很在意成本和稳定性。个人感觉,自动化可靠到90%听着不错,但在关键业务里,剩下10%出问题的场景依旧会被放大。
当然,光有硬件和模型还不够。生态问题是AWS不得不面对的现实。英伟达的CUDA生态已经被大量主流AI应用采用,软件和工具链成熟,客户往往选择更“开箱即用”的路线。Bedrock Robotics的CTO Kevin Peterson就说,他们在AWS上跑基础设施,但在训练挖掘机模型时仍使用英伟达芯片,因为他们需要性能强且易用的方案——那是英伟达现有的优势。AWS知道这一点,所以在发布会上强调Neuron SDK和对PyTorch的原生支持,目标是让开发者不改模型代码就能在Trainium上训练和部署,试图缩短技术迁移门槛。
发布会还透露了下一代产品的规划。亚马逊预告了Trainium 4的研发计划,称这会带来更大的性能飞跃,并将支持英伟达的NVLink Fusion高速互联技术。换言之,未来Trainium 4的系统能和英伟达GPU互通互操作,方便把基于英伟达开发的大型AI应用迁移或扩展到AWS平台上。考虑到很多模型和工具是围绕英伟达架构优化的,这种兼容性会降低客户切换的阻力。不过,亚马逊没有给出Trainium 4的明确发布时间,只说在来年的re:Invent上会有更多消息。
把这些消息拼起来看,市场短期反应是:亚马逊股价在消息发布后逼近日高239美元,日内涨幅一度扩大到将近2.2%;英伟达盘初涨幅收窄,盘中波动后回吐部分涨幅;AMD当天股价则有不同程度下跌。收盘时亚马逊微涨,英伟达小幅上涨,AMD下跌近2.1%。这类市场变化反映出投资者对AWS动作既有期待也有疑问——期待的是替代成本更低的选项,疑问是生态和实际效果能否跟上。
客户分布上,除Anthropic外,AWS点名的Trainium 3用户并不算多,主要还集中在几家机构上。官方披露,日本的LLM Karakuri、Splashmusic和Decart也在使用第三代Trainium并声称降低了推理成本。总体来说,AWS希望通过硬件+模型+服务的组合,争取那些看重性价比的企业客户。
会议现场的节奏、技术数据、客户案例和市场反应已经记下了。亚马逊在同一场合同时推出硬件和面向企业的训练与部署服务,动作明显是在用一套整体解决方案去争取市场。至于后来会怎样,得看这些产品的实际部署效果、价格策略和软件生态能不能快速跟上。你要是关注落地和成本,接下来几个月会比较有意思。