*新闻详情页*/>

文件名是sarvam-30b和sarvam-105b。任何人都可以免费下载,免费修改,免费部署。这是开源协议中最宽松的一种——Apache 2.0,连商业使用都不设障碍。
但对于理解这个动作的人来说,这两个文件意味着一件事:一家印度AI公司,从零开始训练出了一个在全球基准测试上有竞争力的大模型——然后把它送了出去。
这家公司走到这一步,用了两年半。中间有一个让全网嘲笑过的失败,有一笔让外界议论至今的政府交易,还有一个在公开羞辱发生后写下的、只有一句线月开始。
4100万美元,种子轮加A轮合并计算。领投方是Lightspeed,Peak XV和Khosla Ventures跟投。按照TechCrunch的说法,这是印度AI创业公司在这个阶段完成的最大单笔融资。
没有人知道这家公司之前做过什么——它是从隐身模式直接跳出来宣布融资的。但投资人显然不需要更多时间判断。Peak XV和Lightspeed在种子轮时不到一周就拍了板。Khosla Ventures创始人Vinod Khosla在声明里说:我们需要像Sarvam这样的公司,为印度、在印度构建AI的深度能力。
Vivek Raghavan,IIT Delhi本科,卡内基梅隆博士。毕业后在EDA行业做了整整二十年,做到Synopsys的副总裁级别。然后他做了一个不太符合职业逻辑的选择:回印度,去UIDAI——那个负责Aadhaar身份证系统的政府机构——做生物识别基础设施,一做就是十二年。Aadhaar今天覆盖了超过十亿印度人,是全球最大规模的数字身份系统之一。Raghavan是这套系统底层技术的参与建设者。
他们看到的机会,和ChatGPT在2022年11月出现有直接关系。不是因为要复制ChatGPT,而是因为ChatGPT的出现让一件事变得显而易见:语言模型正在成为新的基础设施,而这套基础设施如果只懂英语,对一个有二十二种官方语言、大多数人口不以英语为母语的国家来说,意味着一种结构性的排斥。Raghavan在融资公告里说了一句话:我亲眼见证过在基础层创新、并在人口规模上部署的巨大价值。他指的不是抽象的愿景,而是Aadhaar。
这就是VC在不到一周内决定投资的原因:这不是两个在硅谷学了几年深度学习就回来创业的人,而是两个真正在印度数字基础设施最深处工作过的人,在AI范式切换的时间节点上,做了一个在他们背景下极为自然的选择。
2024年2月,微软CEO纳德拉访印主持AI Tour,宣布将与Sarvam合作开发印度语音AI工具,并将Sarvam的印度语音大模型上线月,世界经济论坛把Sarvam列入Technology Pioneers 2024名单——全球100家,印度10家,Sarvam在列。2024年10月,公司发布了第一个公开模型Sarvam-1:20亿参数,支持10种印度语言,在部分印度语言任务上的表现超过了规模更大的全球模型。
媒体的描述越来越顺滑:印度AI的国家队、主权模型的希望、下一个DeepSeek。
2025年4月26日,印度政府在67家申请机构中选中Sarvam,承接IndiaAI Mission的主权大模型项目。这是一笔条件特殊的交易:政府提供算力——4096块NVIDIA H100,使用期六个月,托管在Yotta数据中心——换取Sarvam的股权。算力的总账单是2.47亿卢比,政府补贴其中的9868万卢比,剩余部分由Sarvam承担。
Sarvam-M是一个240亿参数的混合模型,支持10种印度语言,针对数学和代码任务做了强化训练。发布公告里列了一串基准测试数字,措辞是它在多项指标上与全球领先模型相当。
问题不在于这些数字是否属实。问题在于模型的底座:Sarvam-M建立在法国公司Mistral的开源模型Mistral Small之上。Sarvam的工程师在这个基础上用印度语言数据做了大规模的后训练。这是一种在资源受限条件下相当务实的选择,业界也有不少成功先例。
名字里的M,代表Mistral。这不是外界的解读,而是媒体报道中普遍流传的说法,Sarvam没有公开否认。一家宣称要造印度自己的AI、刚刚拿到政府主权模型合同的公司,交出的第一个成果,用的是法国人的底座。
逻辑上可以解释:政府的H100算力4月底才到位,Sarvam-M的开发应该在此之前已经进行了相当长时间;发布Sarvam-M,是为了给开发者提供一个可用的工具,同时为从零训练积累数据管道和后训练经验;这是一个过渡性产品,不是最终答案。
这些解释都站得住脚。但对于外部观察者来说,一个从零训练的承诺,和一个建立在Mistral底座上的发布,之间的距离是真实存在的。
内容不长,但足够精准:印度最大的AI创业公司,估值十亿美元的Sarvam,刚刚发布了它的旗舰大模型。上线两天,Hugging Face下载量:23次。作为对比,他附上了另一组数字——两名韩国大学生做的开源模型Dia,上个月的下载量:约20万次。
这条帖子的转发量在几小时内突破了印度科技圈的日常阈值。不是因为它特别刻薄——它确实刻薄——而是因为它把一个让很多人隐隐不安的问题用数字说出来了:印度的AI,到底在哪里?
技术路线的质疑最直接:基于Mistral微调,在IndicLLM基准上的得分仅比原始Llama高出0.02,这是Sarvam值得骄傲的成绩吗?有开发者在X上贴出了对比数据——Sarvam-M 0.49,Llama原版 0.47,Gemma 0.48——然后问:这是可感知的提升吗?
生态批评则更结构性。有投资人指出,印度没有了Koo这样的本土社交平台,Sarvam-M缺乏一个天然的早期用户反馈场,下载量低不只是模型的问题,是整个生态的问题。也有人算了另一笔账:印度H100极度稀缺,出口管制压力持续存在,在这种资源约束下,Sarvam能交出一个可用的24B印度语言模型,本身就不是一件容易的事——用Hugging Face几小时的统计数据来定性一个项目,是在刻意误读。
支持的声音里最有分量的,来自Zoho联合创始人Sridhar Vembu。他在X上写道:我们做过的每一个产品,没有一个一开始就是爆款。
他在X上转发了批评帖子,写了一句话:「很高兴收到大家对Sarvam-M的反馈,请继续。等我们开始训练主权模型的时候,这些都会用上。」
他没有辩解Sarvam-M的技术选择,没有解释为什么用了Mistral底座,没有反驳下载量数字,也没有指责批评者不懂印度的资源限制。他做的事情是:把一次公开羞辱,原地转化成了一个公开宣言。等我们开始训练主权模型的时候——不是如果,是等。不是我们将来考虑从零开始,是我们正在开始。
此后的几天里,Sarvam-M的Hugging Face下载量从23个反弹到334个,然后继续缓慢爬升。不是什么了不起的数字,但至少证明最初的统计确实是因为Hugging Face数据延迟造成的偏差,而不是真实的用户冷漠。
真正的结局,发生在八个月之后。届时,曾经在X上写下「丢人」的那个人,会主动发文说:I was wrong.
但那是后线月,Sarvam需要面对的现实是:政府的4096块H100已经就位,承诺从零训练的合同已经签署,外界的嘲讽已经变成了历史记录。接下来没有别的路,只有一条。
4096块NVIDIA H100,六个月使用期,托管在孟买郊外的Yotta数据中心。总账单2.47亿卢比,政府补贴其中的9868万卢比。作为交换,Sarvam让出了一部分股权,训练完成的模型必须开源。
这是印度政府在IndiaAI Mission框架下签下的第一批主权模型合同之一。67家机构参与申请,最终四家入选:Sarvam、Gnani.ai、Gan.ai和Soket AI Labs。Sarvam拿到的算力分配是四家中最大的一块。
从外部看,这是一笔对Sarvam极为有利的交易:政府出钱补贴算力,Sarvam用政府的GPU训练模型,训练完开源,政府拿一点股权。性价比高得有些不真实。
开源意味着Sarvam不能把这个模型变成护城河。股权意味着政府成了Sarvam的股东,这个身份在任何国家都意味着某种隐性的期待和潜在的干预空间。算力是政府补贴的,但账单的剩余部分——超过1.5亿卢比——要Sarvam自己承担。对一家年收入只有2910万卢比的公司来说,这个数字意味着巨大的财务压力。
更深的约束是时间。六个月,4096块H100,目标是一个从零开始、在全球基准测试上有竞争力、同时精通印度语言的大模型。
在全球AI军备竞赛的背景下,这是一个听起来有些冒险的赌注。2025年初,OpenAI的融资总额已经超过180亿美元。DeepSeek用相对有限的资源训练出了震惊业界的R1,但它背后是中国成熟的AI基础设施生态。Sarvam的114名员工,要在一个GPU基础设施还不完善、训练数据需要自己从头整理的国家,完成这件事。
Sarvam的工程师首先重新设计了tokenizer——这是大模型处理文字的最底层组件。现有的主流tokenizer对印度文字效率极低,处理梵文、泰米尔文、孟加拉文这类非拉丁字母体系时,需要消耗比英文多出数倍的token。Sarvam重新训练的tokenizer,对印度文字的处理效率提升了三到四倍。这一步没有任何可见度,不会出现在发布会的PPT上,但它决定了后续所有训练的成本和效率。
数据管道是另一个自建的基础设施。Sarvam在内部搭建了一套评估数据质量的工具,从头整理训练语料。最终用于预训练的数据量,30B模型约为16万亿token。这些数据的收集、清洗、标注,全部在印度国内完成。
强化学习基础设施也是自研的。这个环节决定了模型在推理任务上的最终表现,也是DeepSeek-R1让业界重新注意到的核心技术路线。Sarvam选择了同样的方向,并把整套训练流程完整地跑了一遍。
公司账面上的年收入是2910万卢比,折合约350万美元。这是一个健康的早期创业公司收入,但在大模型训练的语境下,这个数字说明Sarvam几乎没有任何财务缓冲。他们在用一家小公司的资源,做一件通常需要十倍体量才敢启动的事情。
对外沉默的背后,是一支114人的团队在训练一个他们自己也不确定能否成功的模型。
策略是刻意设计的:在India AI Impact Summit召开前的两周,每天发布一个新产品或新功能,连续十四天不间断。语音识别模型Saaras V3、文字转语音模型Bulbul V3、文档数字化工具Sarvam Akshar、多语言内容创作平台Sarvam Studio……一个接一个,节奏像节拍器一样准确。
这个策略有一个明显的参照对象:OpenAI在2024年末的12 Days of OpenAI发布攻势。Sarvam把它改成了14天,因为峰会日期决定了窗口长度,但逻辑是一样的——用密集的发布节奏制造舆论动能,让媒体和开发者在峰会开幕之前就持续关注这家公司。
在峰会开幕前的密集发布期间,有一件事悄悄发生了。2月7日,Sarvam发布Bulbul V3语音合成模型当天,Deedy Das——那个在2025年5月写下「丢人」的人——主动在X上发了一篇帖子,开头三个字:I was wrong.他说,他一年前认为训练小型Indic语言模型的方向是错的。但他们做到了转变。他们有Indic语言最好的语音合成、语音识别和文字识别模型,这是真正有价值的东西。从「丢人」到I was wrong,八个月,触发转变的不是大模型,而是一个语音产品。
印度Modi总理在Bharat Mandapam的展览区走了一圈。他在Sarvam的展台前停下来,试戴了一副黑色眼镜。这副眼镜叫Sarvam Kaze,是Sarvam研发的AI智能眼镜原型,支持十种以上印度语言的实时语音交互,Pratyush Kumar在X上发了一张Modi戴着眼镜的照片,配文只有一句:「第一个试戴的人?总理。」
两个模型,都从零训练。30B模型预训练用了约16万亿token,支持32000 token的上下文窗口,MoE架构下每次推理只激活约10亿参数,推理成本大幅压缩。105B模型支持128000 token的超长上下文,在AIME 25数学竞赛基准上得分88.3,使用工具后达到96.7;MMLU得分90.6;Math500得分98.6。
有人在X上翻出了Sarvam-105B的架构配置文件,指其为DeepSeek的山寨缩水版。有帖子把配置文件扔进ChatGPT,得到的描述是Mini DeepSeek-V2风格模型。这个截图被广泛转发。对于刚刚经历过Sarvam-M事件的人来说,这个指控听起来似曾相识——上次是法国人的底座,这次是中国人的架构。
Pratyush Kumar的回应比上次更直接。他在X上写道,团队欣赏DeepSeek的研究,也从中学习,但Sarvam-105B是用更小的规模做到了这些结果。一名Sarvam工程师补充:公司所有模型都是从零训练的基础模型,没有例外。
这场争议的实质,是一个在AI领域反复出现的认知误区:架构和模型是两件不同的事。架构是蓝图,是发表在学术论文里供所有人使用的设计方案;模型是训练的产物,是数据、算力和工程决策共同生成的结果。
2月20日,Sarvam发布了面向普通用户的对话产品Indus,登陆App Store和Google Play。这是Sarvam第一次走出开发者和企业市场,直接面对消费者。
Pratyush Kumar在X上写了一段话:「开源Sarvam 30B和105B。从零训练,所有数据、模型研究和推理优化全部在内部完成。这些模型在大多数全球基准测试上表现突出,同时在印度语言上表现卓越。」
这句话里有一个词值得停下来看一眼:all done in-house,全部在内部完成。不是Mistral的底座,不是借来的架构实现,是一支114人的团队,在一个GPU基础设施直到最近才勉强够用的国家,自己搭建tokenizer、自己整理数据管道、自己写强化学习基础设施,从头到尾跑完了一遍。
从2023年12月那场18人公司的融资发布会,到这两个文件挂上Hugging Face,中间过去了二十七个月。
这二十七个月里发生的事情,放在任何一个叙事框架里都可以讲得通:可以是一家公司如何在公开羞辱中找回初心,可以是印度国家意志如何通过一纸算力合同把一家创业公司绑上主权叙事的战车,也可以是两个深度参与印度数字基础设施的人,在AI范式切换的时间节点上,做了一次代价高昂但方向正确的押注。
Sarvam现在面对的问题,比两年前更难回答:开源之后呢?当模型权重免费可得,公司的商业护城河在哪里?当全球大模型开始认真处理印度语言,Sarvam的差异化还能维持多久?政府成为股东之后,商业利益和公共利益之间的张力,迟早会在某一个具体决策上显现出来。
但那两个文件已经在网上了。任何人都可以下载,任何人都可以修改,任何人都可以拿去用。
如何让农村老人更有安全感?全国人大代表建议70岁以上农村老人免缴医保|两会开放麦
截至2024年末,我国60岁以上老人达3.1亿人,占总人口的22%。第七次全国人口普查数据显示,我国农村60岁及以上老年人口达1.2亿人,占农村总人口的23.81%,老龄化浪潮日益加深。
11日,北汽男篮将在主场迎战全华班的四川队,这将是北汽男篮在常规赛第二阶段的第一场比赛。在第一阶段结束后,北汽男篮战绩为14胜9负,暂列第7。这与外界预期有一定距离。伤病对北汽男篮产生了很不利影响。
伊朗百万民众涌上街头,对新任领袖穆杰塔巴表达忠诚!特朗普:对伊朗军事行动会很快结束,但不是本周,将取消一些制裁以平抑油价
美国总统特朗普9日在佛罗里达州迈阿密市举行的一场新闻发布会上称,美国对伊朗的军事行动会“很快”结束,但不是本周。
C视觉·航拍四川|影像赛收官!《冬宁·南国冰雪季》航拍垂直影像赛获奖作品揭晓
2025年冬季,C视觉影像数据库“2025航拍四川垂直影像系列征集赛”第四期——《冬宁·南国冰雪季》面向广大摄影师征稿。赛事邀请创作者运用无人机垂直镜头,探寻四川冬雪秘境,领略南国雪色的别样风姿,定格热闹鲜活的冬日文旅场景。
近日四川省精神文明建设办公室公布2025年度“四川好人榜”上榜名单其中甘孜州纪委监委驻州委统战部纪检监察组副组长巴桑卓玛原甘孜州石渠县人民法院洛须人民法庭庭长罗江益入选上榜他们一位是四十一载行走雪线的“马背法官”,一位是二十余年深耕纪检监察的“贴心干部”,虽岗位不同、经历各异,却
这几种菜特别适合在春天吃,对肝脏也很友好! 食用时宜采用快炒、焯烫、凉拌等烹饪方式 #河南好医声 #春天 #科普
想让西瓜结得又大又甜?压蔓可是关键一步!使养分集中供给果实 #三农 #种植小技巧 #西瓜压蔓 #乡村生活 #农业知识
花盆不长绿藻的克星来喽,有需要小车里下单46A的型号就行#用一张照片证明你是花友 #分享家庭养花知识
哈梅内伊遇难身亡后的第9天,伊朗终于选出了新一任最高领袖。当地时间3月8日,伊朗专家会议力排众议,确定让穆杰塔巴·哈梅内伊担任伊朗的新任最高领袖。
随着消费市场的持续细分与品质化需求的不断攀升,白酒定制在2026年已超越简单的“贴牌”概念,演变为企业品牌塑造、圈层营销乃至个人情感表达的重要载体。
演贪官太像被喊话“建议查查”?四川这位纪检干部,凭实力演绎什么叫“戏如人生”四川大英县纪委监委的一则“趣闻”近日在网络上不胫而走,引发热议。故事的主角是该县纪委监委信访室主任向星,他在多部反腐警示教育短视频中饰演贪官“贾局长”。
