共计 722 个字符,预计需要花费 2 分钟才能阅读完成。
近日,AI 工具“豆包”在厦门发布了其最新的模型和云原生服务升级成果。这一系列的升级措施将为企业和开发者在构建智能体及实际应用 AI 技术时提供全面的支持。
此次更新的内容涵盖了豆包·图像编辑模型 3.0、同声传译模型 2.0,此外,还推出了适应更多商业化场景的豆包大模型 1.6 系列。同时,新增了扣子核心能力的开源方案和企业自行托管模型的工具。值得注意的是,这些新模型将向企业开放。
为了应对 AI 图像编辑过程中常见的“指令理解不清、内容误改、生成效果不佳”等问题,豆包·图像编辑模型 3.0(SeedEdit 3.0)通过增强指令遵循、图像保持能力及生成质量,使用户能够仅通过自然语言完成去除多余元素、调整光影、替换构件等操作。此外,该模型还能够实现风格及材质的转变、姿势的调整等创新修图功能,广泛应用于影像创作、广告营销等领域。
另一个升级的同声传译模型 2.0(Seed-LiveInterpret 2.0)则将语音延迟从 8 -10 秒降低到了 2 - 3 秒,实现了文本与语音的同步生成。此外,该版本的模型还具备实时生成同音色外语语音的能力,无需提前录制,甚至能够匹配不同的方言口音,显著提升了跨语言沟通的沉浸体验。
此外,为了推动智能体的端到端开发与实施,火山引擎在 AI 云原生全栈服务方面持续进行优化。对有模型定制需求的企业而言,无需管理底层 GPU 资源及复杂配置,即可实现自主研发模型的全托管服务。