豆包音频生成模型1.0实测

豆包音频生成模型1.0实测 – 多角色配音、有声书一键生成

豆包音频生成模型1.0实测

你是否也曾为 AI 生成的影视作品感到些许遗憾？画面逼真，却在角色开口时瞬间打破沉浸感。本应惊心动魄的生死关头，配音却像是平淡无奇的产品介绍；情感爆发时，又显得生硬刻意，全凭一声声大吼。更令人头疼的是，同一角色在不同片段中的音色差异巨大，难以保持连贯性。

更别提后续还需要自行添加环境音、音效、背景音乐，甚至进行口型匹配，过程繁琐耗时。

不久前，在火山引擎 FORCE 原动力大会上，字节正式推出了豆包音频生成模型 1.0，它能够一站式生成丰富且富有情感的声音素材，彻底改变了这一现状。

只需输入一段提示词，豆包音频生成模型 1.0 就能一次性生声、音效、配乐和场景声。这不仅省去了繁杂的多轨混剪工作，还能模拟出真人说话时细微的呼吸和情绪变化，让 AI 生成的声音更加自然、充满人情味。

那么，在实际创作中，它的表现究竟如何？今天，我们就来一同实测一番。

01. 多场景下的 AI 声音魔法

我们打开火山方舟体验中心，选择豆包音频生成模型 1.0。普通用户享有 30 分钟的免费体验额度，后续可通过 API 调用。

我们输入效果提示词和合成文本，点击生成，即可获得一段包含人声和环境音的完整音频片段。

单人配音

我尝试生成了一段小说人物的独白。

背景音乐轻柔铺底，以低沉的弦乐、远处的鼓声和空灵的女声吟唱为主，开篇营造出压抑肃穆的氛围，宛如风雪前的宁静。随着人物情绪的推进，音乐逐渐加强，但需避免盖过人声。整体基调从孤身赴局到破局立道，应体现庄严、悲壮、克制而又高燃的情感。谢长安（青年女声，音色清冷通透，声线稳定，略带压抑感，后段逐渐坚定高燃）平静而克制地说道，仿佛在万众瞩目下立下自己的道：“满朝贵人都爱惜己身，那就只能由我这样一个小人物来动手。我的道，是众生道，众生，人人可走。有局必有破局之法，与其顺应而行，不如绝地求生，说不定柳暗花明，就在意想不到的第三条路。”

起初我设定的青年女声，清冷通透，但生成的声音略显柔弱，仙气有余，压迫感不足。调整提示词为“青年女中音，不要甜美，不要软萌，不要少女感”后，效果则更接近我想要的大女主形象。

同步生成的背景音乐也极具气势，与人物声音和情感高度契合。

多角色配音

我们上传了一段双人相声脚本，并设定了两个差异较大的角色：

背景音乐极轻，以小剧场开场锣鼓和短促的三弦点缀为主，开场伴有轻微的观众环境声，整体氛围热闹、轻松、接地气。笑声可少量出现，但需避免频繁或盖过对白，人声必须清晰且靠前。女逗哏（青年女声，声音明亮清脆，语速快，口齿伶俐，带一点京味儿和俏皮感，情绪外放但不尖锐）状态兴奋、得意，仿佛发现了新工具，说道：“我跟你说，现在 AI 配音可厉害了，我把稿子一输进去，它直接给我说出来。”男捧哏（中年男声，声音低沉厚实，语速稍慢，语气沉稳，带一点冷幽默和怀疑感）状态淡定、质疑地接话道：“这有什么新鲜的？以前也能说。”女逗哏（青年女声，语气抬高，夸张但可爱）说道：“以前那叫说吗？以前那叫电梯播报。”男捧哏（中年男声，慢半拍，认真接梗）说道：“还挺有纪律。”女逗哏（青年女声，快速接住，带笑）说道：“纪律是有了，感情是一点没有。”男捧哏（中年男声，低声笑一下）说道：“主打一个众生平等。”女逗哏（青年女声，继续兴奋，语速快）说道：“现在不一样了。你让它说儿童故事，它能温柔；你让它说悬疑短剧，它能压低声音；你让它说大女主，它还能带点破局的劲儿。”男捧哏（中年男声，故意怀疑）说道：“那让它说相声呢？”女逗哏（青年女声，停顿一下，认真）说道：“这不正说着呢吗？”男捧哏（中年男声，慢半拍，突然反应过来）说道：“合着我也被生成了？”

双人对话的实测效果，其自然度远超普通 TTS。女逗哏的节奏更快，情绪转换流畅；男捧哏的反应稍慢，每个音色都极具特色，并且音色一致性保持得非常出色。

更重要的是，豆包音频生成模型 1.0 还直接生成了相声表演现场的观众笑声，听起来非常逼真。

短短一句话，就营造出一种身临其境的感觉，AI 配音的效率提升显而易见。

有声书长文本

复杂有声书通常需要多角色、多环境音的配合。我们尝试了一段包含多角色的古风悬疑片段：

背景音乐轻柔铺底，以低沉弦乐、远处鼓声和冷峻古琴为主，整体氛围肃杀、冷冽、压抑，带有古风权谋感。第一章宫门与朝堂场景，音乐庄严紧绷，如同风雪压城；第二章偏殿密谈场景，音乐更低沉、更幽暗，增加一丝悬疑感。环境音包括风雪声、宫门开启声、衣料摩擦声、殿内灯芯爆响、远处禁军脚步声。人声必须清晰靠前，音乐和环境音不应盖过对白。旁白（成年女声，低沉沉稳，叙事感强，语速中等偏慢，声音富有画面感和悬疑感，避免播音腔）状态冷静、克制，仿佛在讲述一场风雪夜里的朝堂杀局。沈照雪（青年女中音，声线冷冽、稳定、偏低，有胸腔支撑，咬字清晰，尾音干净，避免甜美、软萌、少女感）状态隐忍、冷静、锋利，前期压抑着怒意，后期逐渐展现破局的决绝和掌控力。萧承（青年男声，低沉清冷，语速不快，声音克制，带有东宫太子的疏离感和试探感）状态谨慎、沉稳、压抑，像多年蛰伏之人试探一把可能伤人的刀。裴敬之（中老年男声，低沉薄冷，语速慢，咬字稳，带有权臣的压迫感和审视感）状态从容、傲慢、危险，像习惯了掌控朝局之人首次遇到失控变量。小皇帝（少年男声，声音偏稚嫩但努力端正，语气带有紧张和不安）状态被朝局压制，既想探究，又畏惧。周侍郎（中年男声，声音略虚，语速先稳后乱）状态心虚、惊慌、强撑镇定。禁军/守将（成年男声，声音低沉短促，语气服从、紧张）状态肃穆、戒备。小太监（少年男声，声音发抖，气息不稳）状态恐惧、崩溃、求生。沈照雪进京那日，北境的讣告比她先到。讣告上写得明白：镇北军粮道使沈照雪，押送军粮途中遇匪，连人带车坠入黑峡，尸骨无存。可黄昏时分，她披着一件洗得发白的狐裘，牵着一匹瘦马，站在了朱雀门外。守门的禁军看见她腰间那枚半裂的铜雀符，脸色当场变了。铜雀符是赐给镇北军的调兵信物，一半在北境，一半在御案。天下人都知道，北境那半枚，十年前随沈家满门入狱后便失踪了。沈照雪抬手，把铜雀符放在守将掌心。“烦请通传。”她说，“死人回京，想见一见活着的诸公。”风雪灌进宫门，守将的手一抖。半个时辰后，太极殿灯火尽燃。殿中站满了人。左相裴敬之披着紫袍，手里的象牙笏板压在袖中。他年过五旬，眼皮很薄，抬眼看人时，总像在看一页将要烧掉的纸。太子萧承坐在御阶下首，指尖缓慢摩挲茶盏。他身旁的小皇帝只有十二岁，肩上的龙袍宽得像借来的。沈照雪跪在殿中，雪水从衣角滴到青砖上。裴敬之先开口。“沈氏罪女，既未死，何不先去刑部投案？”沈照雪抬起头。她脸色很白，眼神却稳。“臣女若先去刑部，今晚诸位大人就听不见北境的消息了。”殿上有人冷笑。“你一个罪臣之后，能带什么消息？”沈照雪从袖中取出一卷油布，双手呈上。“十七万石军粮，三个月前出了洛仓，账上写着已入北境。可镇北军收到的，只有五万石。”殿中一静。裴敬之没有动。太子萧承却轻轻放下茶盏。“继续说。”沈照雪道：“缺的十二万石，换成白银，足够养三万私兵一年。”有人当场斥道：“放肆！你可知自己在说什么？”“知道。”沈照雪看向那人，“户部右侍郎周大人，您批的出仓文书，印泥里掺了朱砂。臣女从黑峡捡回来的半截粮牌上，正好也有这个印。”周侍郎脸上的血色褪得干干净净。裴敬之终于抬眼。“沈姑娘坠崖未死，倒是长了一张利口。”沈照雪笑了笑。“坠崖前，臣女也不爱说话。”殿外风声更重。小皇帝攥紧龙椅扶手，小声问：“那粮呢？”这句话落下，满殿官员都低了头。沈照雪看着那个少年皇帝。“粮没了。”她顿了顿。“北境也快没了。”太子萧承的眼神沉下去。“镇北军如何？”“七日前，羌戎破了霜河口。镇北军退守沉沙城，城中只余两日粮。”小皇帝站了起来。“为何无人奏报？”沈照雪没有立刻答。她从怀中拿出第二样东西。一支断箭。箭杆上缠着半截红布，红布已经被血浸成黑色。“因为送奏报的人，死在入京前三十里。”她把断箭放到地上。“这是第六个。”殿中无人再笑。太子萧承缓缓起身，走下御阶。他停在沈照雪三步外，视线落在她肩头那片未融的雪上。“你想要什么？”“开仓。”“只要开仓？”“还要一队禁军，护我去洛仓提粮。”裴敬之终于笑了一声。“你要兵？”沈照雪看向他。“裴相说错了，我要的是路。”裴敬之的笑意淡了。“洛仓在京畿，守仓兵马皆归户部调度。一个罪臣之女，凭什么开仓？”沈照雪将手伸进袖中。禁军齐齐按刀。她取出的却是一封。上的字已经糊了大半，只剩最后一行仍看得清楚。臣沈怀山，愿以满门性命，换北境三年无战。沈怀山是她父亲。十年前，他被定为私通羌戎，满门下狱。沈照雪那年十五岁，跪在刑部门口三日，没人敢给她一口水。如今那封从未送到御前的，躺在殿上，像一块迟来的骨头。小皇帝脸色发白。裴敬之的手指在袖中动了一下。沈照雪看见了。她俯身叩首，声音不高，却压过了殿外风雪。“臣女凭沈家十年前没能送到的一封奏疏，凭北境七万将士的命，凭沉沙城中尚未断气的百姓。”她抬起头。“若仍不够，臣女愿立军令状。”萧承问：“几日？”“三日。”“若粮不到沉沙城？”沈照雪看着他，一字一句道：“我死在城门前。”殿上安静得能听见灯芯爆响。

豆包音频生成模型 1.0 能够智能识别有声书内容，例如文本中“风雪灌进宫门”的描写，会自动推断并匹配合适的音效。

女主声音冷静克制，大臣声音沉稳带有压迫感，旁白及不同角色的声线辨识度都很高。

人声、环境音和背景音乐的音量比例也相对均衡，避免了在剪辑软件中反复调整音量的繁琐操作。

不过，豆包音频生成模型 1.0 单次最多生成 2 分钟的音频。如果需要制作完整的有声书，则需要分段生成。

对于长文本生成，效果尚可，但部分对话顺序可能出现颠倒，多音字识别也不够稳定，需要额外标注读音。

AI 短剧配音

我们再来尝试生活化的 AI 短剧。普通 TTS 仅能朗读台词，而短剧需要声音具备空间感。

背景音乐轻柔铺底，以温暖钢琴、舒缓弦乐和微弱城市环境音为主，整体氛围真实、生活化，带有一丝温情和反转，避免悬疑恐怖。环境音包括咖啡店轻微人声、杯子碰撞声、门铃声、手机震动声、雨后街道车辆声。人声必须清晰且靠前，音乐不应盖过对白。旁白（成年女声，音色温和沉稳，语速中等，带有生活故事叙事感）状态平静、细腻，仿佛在讲述一件普通人身上的小事。林夏（青年女声，声音干净清亮，语气略显疲惫但很克制）状态从失落、强撑体面，到后半段慢慢释然。周砚（青年男声，音色低沉温和，语速不快，语气真诚但略显笨拙）状态小心、愧疚、努力解释，避免霸总腔。店员（青年女声，声音轻快自然，语气礼貌）状态短暂出现，生活化。章节内容：《靠窗的位置》旁白：“林夏和周砚约在那家咖啡店，是分手后的第七天。”旁白：“雨刚停，窗外的树叶还在滴水。林夏坐在靠窗的位置，桌上放着两杯咖啡。一杯热的，一杯已经凉了。”店员：“您好，需要帮您换一杯热的吗？”林夏：“不用了，谢谢。”旁白：“她说完，看了一眼手机。周砚迟到了二十六分钟。”旁白：“门口风铃响起时，林夏已经把那句‘以后别再联系了’在心里排练了三遍。”周砚：“对不起，我来晚了。”林夏：“你一直都很会来晚。”周砚：“今天是真的堵车。”林夏：“上次是加班，上上次是临时会议。周砚，我不是来听理由的。”旁白：“周砚站在桌边，手里拎着一个纸袋。袋口被雨打湿了一点。”周砚：“我知道。”林夏：“那就坐下，把话说完。”旁白：“他坐到她对面，却没有碰那杯已经冷掉的咖啡。”周砚：“你那天说，我从来没有把你放在第一位。”林夏：“难道不是吗？”周砚：“是。”旁白：“林夏抬眼看他。这个答案太干脆，反倒让她准备好的责备卡在喉咙里。”周砚：“我总觉得，先把工作做好，先把房贷攒够，先把生活稳定下来，我们就会好一点。”林夏：“可我等到的，是你一次又一次缺席。”周砚：“所以我今天不是来求你原谅。”林夏：“那你来干什么？”旁白：“周砚把那个纸袋推到她面前。”周砚：“还你东西。”旁白：“林夏打开纸袋。里面不是她落在他家的围巾，也不是钥匙。”旁白：“是一叠车票、电影票根，还有十几张外卖小票。”林夏：“这是什么？”周砚：“你说我什么都不记得。其实我记得，只是没说。”旁白：“林夏翻到最下面，看见一张已经褪色的便利贴。”旁白：“上面是她两年前写的字：如果以后吵架了，就去靠窗的位置和好。”林夏没有说话。周砚：“我知道，现在说这些有点晚。”林夏：“确实晚。”周砚：“嗯。”旁白：“窗外有车经过，水声轻轻溅起来。”周砚：“但我想把它们还给你。不是为了让你回头，是想告诉你，那些日子我没有忘。”林夏：“那你为什么不早点说？”周砚：“因为我一直以为，做比说重要。”林夏：“后来呢？”周砚：“后来我发现，只做不说，也会让人觉得自己不重要。”旁白：“林夏低头看着那张便利贴。纸角已经翘起来，字却还清楚。”林夏：“周砚，我不想再等一个总是迟到的人了。”周砚：“我知道。”林夏：“但这杯咖啡，我可以陪你喝完。”旁白：“周砚愣了一下，慢慢笑了。”周砚：“它已经凉了。”林夏：“那就换一杯热的。”旁白：“店员走过来收走冷咖啡。窗外的云散开一点，阳光落在靠窗的位置上。”结尾音效：杯子轻轻放下，门铃响起一声，背景音乐温柔收束。

人物的对白非常生动自然，能够传递出情感的起伏。雨声、卡片翻动的声音都有效地帮助我们构建画面感。

声音不再是视频制作完成后最后添加的素材，而是可以从脚本阶段就参与到创作流程中。

复刻声音

豆包音频生成模型 1.0 目前单次最多生成 2 分钟的音频。如果我们要创作长音频或续集，如何保证声音的连贯性，避免串戏？

我们可以上传参考音频，或将历史生成的音频作为参考，单次最多支持 3 条。在提示词中，可以指定某个角色使用特定的音色。

例如，我们尝试复刻一下豆包的声线：

音乐开场由轻快的爵士鼓点、短促的贝斯和几下俏皮的钢琴声引入，背景伴有小剧场观众低声交谈、杯子轻碰、零星笑声。整体氛围松弛、热闹，带有都市夜场脱口秀的风格。演员开口后，音乐迅速减弱，仅保留极轻的贝斯律动。观众的笑声、起哄声和掌声可以自然穿插，但需避免盖过人声。脱口秀演员（青年女声，普通话，音调偏低，声音略带沙哑，语速中等偏快，吐槽节奏感强，有自然的停顿和包袱停顿，避免播音腔，扮演者为 @音频1 ）状态松弛、自嘲，如同在小剧场与观众闲聊：“我最近发现，AI 最大的影响不是替代工作，是让我妈终于确认了，我确实没什么用。”观众轻笑。脱口秀演员（认真铺垫）继续说道：“以前我妈遇到问题会喊我。手机坏了喊我，电视没声音喊我，微信找不到群喊我。现在不一样了，她先问 AI。”停顿半秒。脱口秀演员（语气略微低沉）说道：“问完 AI，再喊我。”观众笑。脱口秀演员（无奈）说道：“她说，AI 给了答案，但她不放心，想让我确认一下。我说妈，你这是把我从技术支持，降级成了人工复核。”观众笑声增强。脱口秀演员（语速加快）说道：“最可怕的是，她现在会用 AI 写朋友圈。以前她朋友圈是：今天包饺子。现在是：岁月在面粉里沉淀，亲情在褶皱中发光。”停顿。脱口秀演员（压低声音）说道：“我爸看完问她，今天这饺子是能吃，还是要展览？”观众大笑。脱口秀演员（继续吐槽）说道：“我妈还特别认真地问我，这样发会不会太普通。我说不会，挺好的，就是不像你。她说哪里不像？我说你平时发朋友圈，标点符号都不放，突然亲情在褶皱中发光，亲戚会以为你被面粉夺舍了。”观众笑。

生成的音色与参考音色高度相似，并成功捕捉了脱口秀所需的自嘲和松弛感。包袱点的停顿以及观众笑声的穿插都显得十分自然。

豆包音频生成模型 1.0 不仅能模仿音色，还能代入更多情感，更像是通过音色完成一场表演。