网站首页 > 教程文章 正文
IT之家 7 月 4 日消息,阿里“通义大模型”公众号今日发文宣布,通义实验室首个音频生成模型 ThinkSound 现已正式开源,将打破“静音画面”的想象力局限。
ThinkSound 首次将 CoT(Chain-of-Thought,思维链)应用到音频生成领域,让 AI 学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”,而是真正“听懂画面”。
为了让 AI 学会“有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集 AudioCoT。
AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景,为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力,研究团队设计了一套精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关以保障数据集的整体质量。
在此基础上,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 在后续阶段对细化与编辑功能的需求。
ThinkSound 由两个关键部分组成:一个擅长“思考”的多模态大语言模型(MLLM),以及一个专注于“听觉输出”的统一音频生成模型。正是这两个模块的配合,使得系统可以按照三个阶段逐步解析画面内容,并最终生成精准对位的音频效果 —— 从理解整体画面,到聚焦具体物体,再到响应用户指令。
据官方介绍,近年来,尽管端到端视频到音频(V2A)生成技术取得了显著进展,但仍难以真正捕捉画面中的动态细节和空间关系。像猫头鹰何时鸣叫、何时起飞,树枝晃动时是否伴随摩擦声等视觉-声学关联,往往被忽视,导致生成的音频过于通用,甚至与关键视觉事件错位,难以满足专业创意场景中对时序和语义连贯性的严格要求。
这背后的核心问题在于:AI 缺乏对画面事件的结构化理解,无法像人类音效师那样,一步步分析、推理、再合成声音。
IT之家附开源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound
猜你喜欢
- 2025-08-02 微软新专利探索Copilot AI应用,匹配视频等生成背景音乐
- 2025-08-02 告别工具切换烦恼!Kimi-Audio开源:一个模型搞定所有音频任务
- 2025-08-02 音乐的指纹:听歌识曲app是怎么识别音乐的?算法原理揭秘
- 2025-08-02 利用代码实现_剪映小助手数据生成器_的audio_infos功能
- 2025-08-02 视频文件音频提取工具深度解析:三款主流工具技术对比与选型指南
- 2025-08-02 剪映音频处理深度全解:从基础操作到专业混音的2000字终极指南
- 2025-08-02 Qwen2.5-VL视觉模型本地部署:支持发票识别/视频分析/JSON输出等
- 2025-08-02 用python编辑视频神器:moviepy
- 2025-08-02 音频工程师首选的音频分析神器分享给大家
- 2025-08-02 利用Python实现录音播放并翻译,真正的实时进行翻译
- 08-02微软新专利探索Copilot AI应用,匹配视频等生成背景音乐
- 08-02告别工具切换烦恼!Kimi-Audio开源:一个模型搞定所有音频任务
- 08-02通义开源音频生成模型ThinkSound:可像“专业音效师”一样思考
- 08-02音乐的指纹:听歌识曲app是怎么识别音乐的?算法原理揭秘
- 08-02利用代码实现_剪映小助手数据生成器_的audio_infos功能
- 08-02视频文件音频提取工具深度解析:三款主流工具技术对比与选型指南
- 08-02剪映音频处理深度全解:从基础操作到专业混音的2000字终极指南
- 08-02Qwen2.5-VL视觉模型本地部署:支持发票识别/视频分析/JSON输出等
- 最近发表
-
- 微软新专利探索Copilot AI应用,匹配视频等生成背景音乐
- 告别工具切换烦恼!Kimi-Audio开源:一个模型搞定所有音频任务
- 通义开源音频生成模型ThinkSound:可像“专业音效师”一样思考
- 音乐的指纹:听歌识曲app是怎么识别音乐的?算法原理揭秘
- 利用代码实现_剪映小助手数据生成器_的audio_infos功能
- 视频文件音频提取工具深度解析:三款主流工具技术对比与选型指南
- 剪映音频处理深度全解:从基础操作到专业混音的2000字终极指南
- Qwen2.5-VL视觉模型本地部署:支持发票识别/视频分析/JSON输出等
- 用python编辑视频神器:moviepy
- 音频工程师首选的音频分析神器分享给大家
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- mybatis plus page (35)
- vue @scroll (38)
- 堆栈区别 (33)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)
- redis aof rdb 区别 (33)
- 302跳转 (33)
- http method (35)
- js array splice (33)