欢迎来到不出所料网网首页

正式宣布字节豆包大模型团队!征服关键技术 节省了40%的培训成本

来源:不出所料网 时间:2025-03-12 11:52:55

  3月10日,正式字节字节豆包大模型团队正式宣布开源一项针对MoE架构的宣布型团关键优化技术,可提高大模型培训效率1.7倍,豆包大模队征天语e619没法装电话卡节约成本40%。服关

  据悉,键技该技术已实际应用于字节万卡集群训练,术节省有助于节省数百万GPU小时训练计算能力。培训

  。成本MLSsyss入选顶级会议 2025。正式字节

  据了解,宣布型团MoE是豆包大模队征目前大模型的主流结构,但在分布式训练中存在大量的服关天语e619没法装电话卡跨设备通信费用,严重制约了大模型训练的键技效率和成本。以海外主流模型Mixtral-8x7B为例,术节省在训练过程中通信时间的培训比例可达40%。

  针对这一问题,字节开发了COMET计算-通信重叠技术,通过多项创新,大大降低了MOE专家的通信空转时间。

  与DeepSeek最近开源的DualPipe等Moe优化方案相比,COMET可以像插件一样直接访问现有的Moe培训框架,支持行业内大多数主流大型模型,而无需侵入性地改变培训框架。全球机器学习系统顶级会议MLSysysy以5/5/5/4的高分入选 2025 ,被认为是“在大规模生产环境中具有很大的应用潜力”。

  由COMET和Deepsek开发的DualPipe方案也可以联合使用。在降低Moe通信成本方面,COMET采用了计算-通信集成算子的优化方法,而DualPipe则通过排列算子来掩盖通信,这两种方案并不冲突,结合使用或将更大程度地降低模型训练成本。

  目前,COMET支持多种MOE并行模式,部署灵活方便。与此同时,COMET的核心代码已经开源,并为开发者提供了一套友好的Python API,该计划与Triton等编译生态相兼容。

  近年来,国内大型R&D技术取得了快速突破,相关APP下载量也迅速增加。下载排名已成为外界观察各大模型实用能力最直接的窗口。截至发布时间,DeepSeek在中国苹果应用商店免费APP下载排名第一,第二名是豆包,第三名是腾讯元宝。

  。最新辟谣。

  3月10日,寒武纪(688256.SH)下午股价上涨,一度上涨5%以上,收涨3.87%,报79元/股,总市值3252亿元。

  据市场报道,字节跳动向寒武纪下单4万个580芯片,单价2.5万元,总价值10亿元。

  对此,字节跳动相关负责人表示,消息不真实。

  最近一度大火的Manus也传言婉拒了字节的投资。

  据报道,开发Manus的中国初创公司——Monica,2024年初与字节进行了一轮收购谈判。当时字节出价3000万美元,但谈判最终因为远远达不到创始人肖弘的心理价格而分手。

  接近Monica的从业者表示,字节收购的逻辑是以3000万美元的价格收购团队,并将其团队和产品集成到豆包系统中。然而,Monica进入字节后,将与字节大模型战略绑定,从而失去Monica产品的独特优势。这也是肖红及其团队对收购不乐观的主要原因。Monica目前估值接近1亿美元。

  到目前为止,字节跳动还没有得到回应。

  。tiktok将连接到大型豆包模型。

  最近有消息称,抖音app正在测试接入豆包app的AI能力,为用户带来更丰富多样的智能体验。

  在测试版本中,抖音为豆袋应用程序开放了两个超级入口:一个放置在短视频界面上,与拇指、评论、转发等功能并列;另一个放在抖音的新闻列表中,深入整合人工智能技术和社交功能,进一步加强用户互动体验。

  此前,虽然豆包app具有对话、创作、图像生成等功能,但用户需要离开抖音app才能使用,这在一定程度上限制了豆包大模型的使用频率。

  通过将豆袋直接嵌入抖音的两个重要入口,抖音应用程序将直接通过豆袋模型中成熟的人工智能功能,用户可以使用人工智能服务,不仅可以加强抖音自身的人工智能能力,实现流量和功能的深度绑定,还可以通过抖音庞大的用户基础,促进“人工智能生态闭环”的建设。

  此外,tiktok还可以延长用户在tiktok的停留时间,增加流量和用户粘性,为广告、电子商务等传统业务提供更大的空间。

(来源:证券时报网)。