谷歌正式推出Gemini 1.5 Pro 能够理解音频支持系统指令/JSON模式

来源：不出所料网时间：2025-03-12 23:31:25

两个月前谷歌在 Google Ai Studio 中提供了 Gemini 下一代版本 Gemini 1.5 Pro 供部分开发者测试，谷歌够理该模型具有 1M 上下文窗口并且具有原生的正式音频理解能力。

谷歌今天宣布 Gemini 1.5 Pro 模型在全球 180 多个国家或地区推出，推出统世界原油价格战结束正式上线后该模型还推出了系统指令和 JSON 等新功能，解音让开发者可以更好地控制模型的频支输出。

此次谷歌还推出了下一代文本嵌入模型，持系其性能由于同类模型，式蓝开发者可以通过 Google Ai Studio 创建和访问 API 密钥然后调用该模型进行构建。点网

音频和视频模式解锁新用例：

谷歌扩展了 Gemini 1.5 Pro 的谷歌够理输入模式，包括 Gemini API 和 Google Ai Studio 中的正式世界原油价格战结束音频理解，同时该模型还能够对上传的推出统视频图像 (帧) 和音频 (语音) 进行推理，谷歌很快会为此添加 API 支持。解音

新增的频支系统指令功能：

使用系统指令可以指导模型的响应，现在在 Google Ai Studio 和 Gemini API 中提供，持系开发者可以定义角色、式蓝格式、目标和规则，针对特定用例对模型进行引导。

JSON 模式：

只是模型仅输出为 JSON 对象，此模式可以从文本或图像中提取结构化数据，开发者可以使用 cURL，后续将支持 Python SDK。

函数调用的改进：

开发者现在可以选择模式来限制模型的输出，从而提高可靠性。选择文本、函数调用或仅函数本身等。

性能改进的新嵌入式模型：

从今天起开发者可以通过 Gemini API 访问下一代文本嵌入模型 text-embedding-004/text-embedding-preview-0409。

谷歌称其在 MTEB 基准测试中实现了更强的检索新年，并且由于具有可对比纬度的现有模型。

有关以上内容可访问谷歌官方博客查看资源链接：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html