豆包音频生成模型1.0实测 – 多角色配音、有声书一键生成

你是否也曾为 AI 生成的影视作品感到些许遗憾?画面逼真,却在角色开口时瞬间打破沉浸感。本应惊心动魄的生死关头,配音却像是平淡无奇的产品介绍;情感爆发时,又显得生硬刻意,全凭一声声大吼。更令人头疼的是,同一角色在不同片段中的音色差异巨大,难以保持连贯性。
更别提后续还需要自行添加环境音、音效、背景音乐,甚至进行口型匹配,过程繁琐耗时。
不久前,在火山引擎 FORCE 原动力大会上,字节正式推出了豆包音频生成模型 1.0,它能够一站式生成丰富且富有情感的声音素材,彻底改变了这一现状。
只需输入一段提示词,豆包音频生成模型 1.0 就能一次性生声、音效、配乐和场景声。这不仅省去了繁杂的多轨混剪工作,还能模拟出真人说话时细微的呼吸和情绪变化,让 AI 生成的声音更加自然、充满人情味。
那么,在实际创作中,它的表现究竟如何?今天,我们就来一同实测一番。
01. 多场景下的 AI 声音魔法
我们打开火山方舟体验中心,选择豆包音频生成模型 1.0。普通用户享有 30 分钟的免费体验额度,后续可通过 API 调用。
我们输入效果提示词和合成文本,点击生成,即可获得一段包含人声和环境音的完整音频片段。
单人配音
我尝试生成了一段小说人物的独白。
背景音乐轻柔铺底,以低沉的弦乐、远处的鼓声和空灵的女声吟唱为主,开篇营造出压抑肃穆的氛围,宛如风雪前的宁静。随着人物情绪的推进,音乐逐渐加强,但需避免盖过人声。整体基调从孤身赴局到破局立道,应体现庄严、悲壮、克制而又高燃的情感。谢长安(青年女声,音色清冷通透,声线稳定,略带压抑感,后段逐渐坚定高燃)平静而克制地说道,仿佛在万众瞩目下立下自己的道:“满朝贵人都爱惜己身,那就只能由我这样一个小人物来动手。我的道,是众生道,众生,人人可走。有局必有破局之法,与其顺应而行,不如绝地求生,说不定柳暗花明,就在意想不到的第三条路。”
起初我设定的青年女声,清冷通透,但生成的声音略显柔弱,仙气有余,压迫感不足。调整提示词为“青年女中音,不要甜美,不要软萌,不要少女感”后,效果则更接近我想要的大女主形象。
同步生成的背景音乐也极具气势,与人物声音和情感高度契合。
多角色配音
我们上传了一段双人相声脚本,并设定了两个差异较大的角色:
背景音乐极轻,以小剧场开场锣鼓和短促的三弦点缀为主,开场伴有轻微的观众环境声,整体氛围热闹、轻松、接地气。笑声可少量出现,但需避免频繁或盖过对白,人声必须清晰且靠前。女逗哏(青年女声,声音明亮清脆,语速快,口齿伶俐,带一点京味儿和俏皮感,情绪外放但不尖锐)状态兴奋、得意,仿佛发现了新工具,说道:“我跟你说,现在 AI 配音可厉害了,我把稿子一输进去,它直接给我说出来。”男捧哏(中年男声,声音低沉厚实,语速稍慢,语气沉稳,带一点冷幽默和怀疑感)状态淡定、质疑地接话道:“这有什么新鲜的?以前也能说。”女逗哏(青年女声,语气抬高,夸张但可爱)说道:“以前那叫说吗?以前那叫电梯播报。”男捧哏(中年男声,慢半拍,认真接梗)说道:“还挺有纪律。”女逗哏(青年女声,快速接住,带笑)说道:“纪律是有了,感情是一点没有。”男捧哏(中年男声,低声笑一下)说道:“主打一个众生平等。”女逗哏(青年女声,继续兴奋,语速快)说道:“现在不一样了。你让它说儿童故事,它能温柔;你让它说悬疑短剧,它能压低声音;你让它说大女主,它还能带点破局的劲儿。”男捧哏(中年男声,故意怀疑)说道:“那让它说相声呢?”女逗哏(青年女声,停顿一下,认真)说道:“这不正说着呢吗?”男捧哏(中年男声,慢半拍,突然反应过来)说道:“合着我也被生成了?”
双人对话的实测效果,其自然度远超普通 TTS。女逗哏的节奏更快,情绪转换流畅;男捧哏的反应稍慢,每个音色都极具特色,并且音色一致性保持得非常出色。
更重要的是,豆包音频生成模型 1.0 还直接生成了相声表演现场的观众笑声,听起来非常逼真。
短短一句话,就营造出一种身临其境的感觉,AI 配音的效率提升显而易见。
有声书长文本
复杂有声书通常需要多角色、多环境音的配合。我们尝试了一段包含多角色的古风悬疑片段:
背景音乐轻柔铺底,以低沉弦乐、远处鼓声和冷峻古琴为主,整体氛围肃杀、冷冽、压抑,带有古风权谋感。第一章宫门与朝堂场景,音乐庄严紧绷,如同风雪压城;第二章偏殿密谈场景,音乐更低沉、更幽暗,增加一丝悬疑感。环境音包括风雪声、宫门开启声、衣料摩擦声、殿内灯芯爆响、远处禁军脚步声。人声必须清晰靠前,音乐和环境音不应盖过对白。旁白(成年女声,低沉沉稳,叙事感强,语速中等偏慢,声音富有画面感和悬疑感,避免播音腔)状态冷静、克制,仿佛在讲述一场风雪夜里的朝堂杀局。沈照雪(青年女中音,声线冷冽、稳定、偏低,有胸腔支撑,咬字清晰,尾音干净,避免甜美、软萌、少女感)状态隐忍、冷静、锋利,前期压抑着怒意,后期逐渐展现破局的决绝和掌控力。萧承(青年男声,低沉清冷,语速不快,声音克制,带有东宫太子的疏离感和试探感)状态谨慎、沉稳、压抑,像多年蛰伏之人试探一把可能伤人的刀。裴敬之(中老年男声,低沉薄冷,语速慢,咬字稳,带有权臣的压迫感和审视感)状态从容、傲慢、危险,像习惯了掌控朝局之人首次遇到失控变量。小皇帝(少年男声,声音偏稚嫩但努力端正,语气带有紧张和不安)状态被朝局压制,既想探究,又畏惧。周侍郎(中年男声,声音略虚,语速先稳后乱)状态心虚、惊慌、强撑镇定。禁军/守将(成年男声,声音低沉短促,语气服从、紧张)状态肃穆、戒备。小太监(少年男声,声音发抖,气息不稳)状态恐惧、崩溃、求生。 沈照雪进京那日,北境的讣告比她先到。讣告上写得明白:镇北军粮道使沈照雪,押送军粮途中遇匪,连人带车坠入黑峡,尸骨无存。可黄昏时分,她披着一件洗得发白的狐裘,牵着一匹瘦马,站在了朱雀门外。守门的禁军看见她腰间那枚半裂的铜雀符,脸色当场变了。铜雀符是赐给镇北军的调兵信物,一半在北境,一半在御案。天下人都知道,北境那半枚,十年前随沈家满门入狱后便失踪了。沈照雪抬手,把铜雀符放在守将掌心。“烦请通传。”她说,“死人回京,想见一见活着的诸公。”风雪灌进宫门,守将的手一抖。半个时辰后,太极殿灯火尽燃。殿中站满了人。左相裴敬之披着紫袍,手里的象牙笏板压在袖中。他年过五旬,眼皮很薄,抬眼看人时,总像在看一页将要烧掉的纸。太子萧承坐在御阶下首,指尖缓慢摩挲茶盏。他身旁的小皇帝只有十二岁,肩上的龙袍宽得像借来的。沈照雪跪在殿中,雪水从衣角滴到青砖上。裴敬之先开口。“沈氏罪女,既未死,何不先去刑部投案?”沈照雪抬起头。她脸色很白,眼神却稳。“臣女若先去刑部,今晚诸位大人就听不见北境的消息了。”殿上有人冷笑。“你一个罪臣之后,能带什么消息?”沈照雪从袖中取出一卷油布,双手呈上。“十七万石军粮,三个月前出了洛仓,账上写着已入北境。可镇北军收到的,只有五万石。”殿中一静。裴敬之没有动。太子萧承却轻轻放下茶盏。“继续说。”沈照雪道:“缺的十二万石,换成白银,足够养三万私兵一年。”有人当场斥道:“放肆!你可知自己在说什么?”“知道。”沈照雪看向那人,“户部右侍郎周大人,您批的出仓文书,印泥里掺了朱砂。臣女从黑峡捡回来的半截粮牌上,正好也有这个印。”周侍郎脸上的血色褪得干干净净。裴敬之终于抬眼。“沈姑娘坠崖未死,倒是长了一张利口。”沈照雪笑了笑。“坠崖前,臣女也不爱说话。”殿外风声更重。小皇帝攥紧龙椅扶手,小声问:“那粮呢?”这句话落下,满殿官员都低了头。沈照雪看着那个少年皇帝。“粮没了。”她顿了顿。“北境也快没了。”太子萧承的眼神沉下去。“镇北军如何?”“七日前,羌戎破了霜河口。镇北军退守沉沙城,城中只余两日粮。”小皇帝站了起来。“为何无人奏报?”沈照雪没有立刻答。她从怀中拿出第二样东西。一支断箭。箭杆上缠着半截红布,红布已经被血浸成黑色。“因为送奏报的人,死在入京前三十里。”她把断箭放到地上。“这是第六个。”殿中无人再笑。太子萧承缓缓起身,走下御阶。他停在沈照雪三步外,视线落在她肩头那片未融的雪上。“你想要什么?”“开仓。”“只要开仓?”“还要一队禁军,护我去洛仓提粮。”裴敬之终于笑了一声。“你要兵?”沈照雪看向他。“裴相说错了,我要的是路。”裴敬之的笑意淡了。“洛仓在京畿,守仓兵马皆归户部调度。一个罪臣之女,凭什么开仓?”沈照雪将手伸进袖中。禁军齐齐按刀。她取出的却是一封。上的字已经糊了大半,只剩最后一行仍看得清楚。臣沈怀山,愿以满门性命,换北境三年无战。沈怀山是她父亲。十年前,他被定为私通羌戎,满门下狱。沈照雪那年十五岁,跪在刑部门口三日,没人敢给她一口水。如今那封从未送到御前的,躺在殿上,像一块迟来的骨头。小皇帝脸色发白。裴敬之的手指在袖中动了一下。沈照雪看见了。她俯身叩首,声音不高,却压过了殿外风雪。“臣女凭沈家十年前没能送到的一封奏疏,凭北境七万将士的命,凭沉沙城中尚未断气的百姓。”她抬起头。“若仍不够,臣女愿立军令状。”萧承问:“几日?”“三日。”“若粮不到沉沙城?”沈照雪看着他,一字一句道:“我死在城门前。”殿上安静得能听见灯芯爆响。
豆包音频生成模型 1.0 能够智能识别有声书内容,例如文本中“风雪灌进宫门”的描写,会自动推断并匹配合适的音效。
女主声音冷静克制,大臣声音沉稳带有压迫感,旁白及不同角色的声线辨识度都很高。
人声、环境音和背景音乐的音量比例也相对均衡,避免了在剪辑软件中反复调整音量的繁琐操作。
不过,豆包音频生成模型 1.0 单次最多生成 2 分钟的音频。如果需要制作完整的有声书,则需要分段生成。
对于长文本生成,效果尚可,但部分对话顺序可能出现颠倒,多音字识别也不够稳定,需要额外标注读音。
AI 短剧配音
我们再来尝试生活化的 AI 短剧。普通 TTS 仅能朗读台词,而短剧需要声音具备空间感。
背景音乐轻柔铺底,以温暖钢琴、舒缓弦乐和微弱城市环境音为主,整体氛围真实、生活化,带有一丝温情和反转,避免悬疑恐怖。环境音包括咖啡店轻微人声、杯子碰撞声、门铃声、手机震动声、雨后街道车辆声。人声必须清晰且靠前,音乐不应盖过对白。旁白(成年女声,音色温和沉稳,语速中等,带有生活故事叙事感)状态平静、细腻,仿佛在讲述一件普通人身上的小事。林夏(青年女声,声音干净清亮,语气略显疲惫但很克制)状态从失落、强撑体面,到后半段慢慢释然。周砚(青年男声,音色低沉温和,语速不快,语气真诚但略显笨拙)状态小心、愧疚、努力解释,避免霸总腔。店员(青年女声,声音轻快自然,语气礼貌)状态短暂出现,生活化。章节内容:《靠窗的位置》旁白:“林夏和周砚约在那家咖啡店,是分手后的第七天。”旁白:“雨刚停,窗外的树叶还在滴水。林夏坐在靠窗的位置,桌上放着两杯咖啡。一杯热的,一杯已经凉了。”店员:“您好,需要帮您换一杯热的吗?”林夏:“不用了,谢谢。”旁白:“她说完,看了一眼手机。周砚迟到了二十六分钟。”旁白:“门口风铃响起时,林夏已经把那句‘以后别再联系了’在心里排练了三遍。”周砚:“对不起,我来晚了。”林夏:“你一直都很会来晚。”周砚:“今天是真的堵车。”林夏:“上次是加班,上上次是临时会议。周砚,我不是来听理由的。”旁白:“周砚站在桌边,手里拎着一个纸袋。袋口被雨打湿了一点。”周砚:“我知道。”林夏:“那就坐下,把话说完。”旁白:“他坐到她对面,却没有碰那杯已经冷掉的咖啡。”周砚:“你那天说,我从来没有把你放在第一位。”林夏:“难道不是吗?”周砚:“是。”旁白:“林夏抬眼看他。这个答案太干脆,反倒让她准备好的责备卡在喉咙里。”周砚:“我总觉得,先把工作做好,先把房贷攒够,先把生活稳定下来,我们就会好一点。”林夏:“可我等到的,是你一次又一次缺席。”周砚:“所以我今天不是来求你原谅。”林夏:“那你来干什么?”旁白:“周砚把那个纸袋推到她面前。”周砚:“还你东西。”旁白:“林夏打开纸袋。里面不是她落在他家的围巾,也不是钥匙。”旁白:“是一叠车票、电影票根,还有十几张外卖小票。”林夏:“这是什么?”周砚:“你说我什么都不记得。其实我记得,只是没说。”旁白:“林夏翻到最下面,看见一张已经褪色的便利贴。”旁白:“上面是她两年前写的字:如果以后吵架了,就去靠窗的位置和好。”林夏没有说话。周砚:“我知道,现在说这些有点晚。”林夏:“确实晚。”周砚:“嗯。”旁白:“窗外有车经过,水声轻轻溅起来。”周砚:“但我想把它们还给你。不是为了让你回头,是想告诉你,那些日子我没有忘。”林夏:“那你为什么不早点说?”周砚:“因为我一直以为,做比说重要。”林夏:“后来呢?”周砚:“后来我发现,只做不说,也会让人觉得自己不重要。”旁白:“林夏低头看着那张便利贴。纸角已经翘起来,字却还清楚。”林夏:“周砚,我不想再等一个总是迟到的人了。”周砚:“我知道。”林夏:“但这杯咖啡,我可以陪你喝完。”旁白:“周砚愣了一下,慢慢笑了。”周砚:“它已经凉了。”林夏:“那就换一杯热的。”旁白:“店员走过来收走冷咖啡。窗外的云散开一点,阳光落在靠窗的位置上。”结尾音效:杯子轻轻放下,门铃响起一声,背景音乐温柔收束。
人物的对白非常生动自然,能够传递出情感的起伏。雨声、卡片翻动的声音都有效地帮助我们构建画面感。
声音不再是视频制作完成后最后添加的素材,而是可以从脚本阶段就参与到创作流程中。
复刻声音
豆包音频生成模型 1.0 目前单次最多生成 2 分钟的音频。如果我们要创作长音频或续集,如何保证声音的连贯性,避免串戏?
我们可以上传参考音频,或将历史生成的音频作为参考,单次最多支持 3 条。在提示词中,可以指定某个角色使用特定的音色。
例如,我们尝试复刻一下豆包的声线:
音乐开场由轻快的爵士鼓点、短促的贝斯和几下俏皮的钢琴声引入,背景伴有小剧场观众低声交谈、杯子轻碰、零星笑声。整体氛围松弛、热闹,带有都市夜场脱口秀的风格。演员开口后,音乐迅速减弱,仅保留极轻的贝斯律动。观众的笑声、起哄声和掌声可以自然穿插,但需避免盖过人声。脱口秀演员(青年女声,普通话,音调偏低,声音略带沙哑,语速中等偏快,吐槽节奏感强,有自然的停顿和包袱停顿,避免播音腔,扮演者为 @音频1 )状态松弛、自嘲,如同在小剧场与观众闲聊:“我最近发现,AI 最大的影响不是替代工作,是让我妈终于确认了,我确实没什么用。”观众轻笑。脱口秀演员(认真铺垫)继续说道:“以前我妈遇到问题会喊我。手机坏了喊我,电视没声音喊我,微信找不到群喊我。现在不一样了,她先问 AI。”停顿半秒。脱口秀演员(语气略微低沉)说道:“问完 AI,再喊我。”观众笑。脱口秀演员(无奈)说道:“她说,AI 给了答案,但她不放心,想让我确认一下。我说妈,你这是把我从技术支持,降级成了人工复核。”观众笑声增强。脱口秀演员(语速加快)说道:“最可怕的是,她现在会用 AI 写朋友圈。以前她朋友圈是:今天包饺子。现在是:岁月在面粉里沉淀,亲情在褶皱中发光。”停顿。脱口秀演员(压低声音)说道:“我爸看完问她,今天这饺子是能吃,还是要展览?”观众大笑。脱口秀演员(继续吐槽)说道:“我妈还特别认真地问我,这样发会不会太普通。我说不会,挺好的,就是不像你。她说哪里不像?我说你平时发朋友圈,标点符号都不放,突然亲情在褶皱中发光,亲戚会以为你被面粉夺舍了。”观众笑。
生成的音色与参考音色高度相似,并成功捕捉了脱口秀所需的自嘲和松弛感。包袱点的停顿以及观众笑声的穿插都显得十分自然。
豆包音频生成模型 1.0 不仅能模仿音色,还能代入更多情感,更像是通过音色完成一场表演。
02. 一些分享
以往的 AI 配音,我们只是将文字输入给它;如今,我们需要像导演一样在提示词中为角色“讲戏”——详细描述角色的年龄、音色特征、当下情绪、呼吸气口,以及背景环境中应有的声响。提示词越具体,生成的效果往往越接近预期。
过去配音、配乐、寻找音效、对齐混音等繁琐的工作流程,现在可以通过一个合理的 Prompt,快速生成初版完整小样,效率提升显而易见。短剧、广告、课程、虚拟 IP 的制作速度将大幅加快。
目前,火山方舟体验中心已开放豆包音频生成模型 1.0 的体验,普通用户可获得 30 分钟免费体验额度。未来还将集成到剪映、番茄小说等日常工具中,进一步降低普通人制作音频内容的门槛。
如果说过去的 AI 配音解决了“有没有声音”的问题,那么豆包语音模型 1.0 则开始着力解决“声音有没有戏”的难题。
当然,作为 1.0 版本,豆包音频生成模型 1.0 在一些复杂的物理声场变化、多音字、重音细节处理上,仍有改进和优化的空间。但豆包语音模型 1.0 所展现的一站式生成潜力,已经预示着音频生产力变革的雏形。
当图像、视频、文案和音频的 AI 工具链日益完善,AI 配音将成为提升内容体验的关键一环。


