财新传媒
公司 > 要闻 > 正文

GPT革命|字节跳动发布豆包视觉理解模型 定价比行业低85%

文|财新 关聪
2024年12月18日 13:27
字节跳动将在2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版
资料图:字节跳动。图:视觉中国

  【财新网】字节跳动正加速视觉、语音等多模态模型的商业化。12月18日上午,字节跳动旗下火山引擎在上海发布豆包视觉理解模型,通过火山引擎开放给企业客户,并再次打出了低于行业的定价。

  视觉理解模型即“看图说话”,可以识别图像中的物体类别、形状等要素,理解物体之间的关系,给出空间和场景的整体判断,能用在图片问答、医疗健康、教育、科研、电商等场景。

  在现场演示中,豆包视觉理解模型识别出了杂志插图中的外太空星云、一段“贪吃蛇”游戏代码并给出修正意见、桌面上的物件和使用方法、体检报告中的单项指标解读、联想图画想表达的谚语、推荐穿搭以及根据实物发送抖音商城里的商品链接等。目前豆包视觉理解模型已经接入豆包App和PC端产品。

  推荐进入财新数据库,可随时查阅公司股价走势、结构人员变化等投资信息。

责任编辑:覃敏 | 版面编辑:吴秋晗
推广

财新网主编精选版电邮 样例
财新网新闻版电邮全新升级!财新网主编精心编写,每个工作日定时投递,篇篇重磅,可信可引。
订阅