云计算、AI、云原生、大数据等一站式技术学习平台

网站首页 > 教程文章 正文

阿里端出最强语音模型!英文rap精准转文字,准确率干翻全球

jxf315 2025-09-18 02:18:14 教程文章 1 ℃

8秒听写一段200字英文rap,错一个字算我输!

这段视频在海外疯转:嘈杂地铁里,手机外放的trap节奏盖过人声,阿里新模型却把连珠炮歌词一字不落敲进字幕,连歌手即兴改的俚语都写对。

测试页面开放三小时,服务器被挤爆两次,逼得官方临时扩容。

有人连夜用模型跑完一整张Kanye旧专辑,发现漏词量不到千分之六,低于同价位人工速记。

油管上靠听写歌词吃饭的团队已经炸锅:再这样下去,副业收入直接腰斩。

真功夫藏在细节。

模型把背景风声、报站广播、旁人通话全过滤,只留下需要的人声。

四川人讲川普、福建人讲闽南话,它都能秒切识别,不用手动点方言按钮。

更猛的是背景词库。

做跨境电商的团队把自家SKU、品牌名做成TXT扔进去,直播里再快的口播报价也能锁定关键词。

高校教授拿它录网课,化学试剂名称、俄语地名统统写对,连学生咳嗽声都被踢出成稿。

实测上传一段电竞解说:解说员激动到破音,观众尖叫声高达90分贝,模型依旧分清谁在说双杀谁在说开团,还把选手ID挂准确。

体验入口已经挂到ModelScope、HuggingFace、阿里云,点三下就能免费用。

有开发者把接口塞进剪映插件,剪视频时自动生成字幕,省掉两小时手打。

留给普通人的时间窗口不多。

平台现在免费用,后期会不会按分钟收费没人敢打包票。

今晚把想转写的音频扔进去跑一次,省下的时间拿去睡觉,或者拿去抢下一波流量,自己选。

最近发表
标签列表