网站首页 > 教程文章正文

阿里端出最强语音模型!英文rap精准转文字，准确率干翻全球

jxf315 2025-09-18 02:18:14 教程文章 32 ℃

8秒听写一段200字英文rap，错一个字算我输！

这段视频在海外疯转：嘈杂地铁里，手机外放的trap节奏盖过人声，阿里新模型却把连珠炮歌词一字不落敲进字幕，连歌手即兴改的俚语都写对。

测试页面开放三小时，服务器被挤爆两次，逼得官方临时扩容。

有人连夜用模型跑完一整张Kanye旧专辑，发现漏词量不到千分之六，低于同价位人工速记。

油管上靠听写歌词吃饭的团队已经炸锅：再这样下去，副业收入直接腰斩。

真功夫藏在细节。

模型把背景风声、报站广播、旁人通话全过滤，只留下需要的人声。

四川人讲川普、福建人讲闽南话，它都能秒切识别，不用手动点方言按钮。

更猛的是背景词库。

做跨境电商的团队把自家SKU、品牌名做成TXT扔进去，直播里再快的口播报价也能锁定关键词。

高校教授拿它录网课，化学试剂名称、俄语地名统统写对，连学生咳嗽声都被踢出成稿。

实测上传一段电竞解说：解说员激动到破音，观众尖叫声高达90分贝，模型依旧分清谁在说双杀谁在说开团，还把选手ID挂准确。

体验入口已经挂到ModelScope、HuggingFace、阿里云，点三下就能免费用。

有开发者把接口塞进剪映插件，剪视频时自动生成字幕，省掉两小时手打。

留给普通人的时间窗口不多。

平台现在免费用，后期会不会按分钟收费没人敢打包票。

今晚把想转写的音频扔进去跑一次，省下的时间拿去睡觉，或者拿去抢下一波流量，自己选。