导读:AI超拟真有声书还原度有多高 究竟是怎么回事?在不到六个月的时间里,成立两年的TTS(语音合成)技术初创公司reflect Sound开启了新一轮融资。
reflection Sound基于端到端神经网络和深度学习合成器开发了自己的情感和情感控制模块,在音色仿真、情感显示、定制服务、多语言等方面达到了行业领先水平。
它的融资也在快速进行。此前,该创业公司已于2019年5月完成300万元的天使轮融资,今年5月完成1000万元的pre-A轮融资,正在启动目标规模2000 - 3000万元的A轮融资,以加速技术研发,加速产品在垂直场景下落地。
在北京建外SOHO的一间办公室里,一场新的语音合成职位争夺战正在酝酿。建外SOHO是一家初创企业,团队不到20人。
最近,志东去了他们在北京的总部。通过与创始团队的深入沟通,我们了解了公司的诞生和成长故事,也看到了他们对AI语音技术创新的很多探索和坚持。
1. 促进百度小米智能音箱的诞生,反映声音的开始
2013年左右,毕业于北京航空航天大学云计算专业硕士学位的肖硕加入百度语音技术部门。刚从伦敦帝国理工学院(Imperial College London)获得人工智能硕士学位的李晓(音译)也同时加入了该团队。此时,百度的人工智能(AI)业务才刚刚起步。
在百度工作期间,肖硕和李晓团队开发了国内首个情感语言合成系统,先后开发了小都智能音箱、百度呼叫中心等产品,为未来百度智能语音生态系统的建设和丰富奠定了重要基础。
此外,他们还在猎豹移动投资的AI创业公司Orion Sky工作,在一年的时间里与创业团队一起参与了小米首款夏爱智能音箱的开发项目。
这些年来,小硕和李晓因为两次从零开始搭建技术解决方案的经历,逐渐产生了创业的想法。在Orion奋斗的经历也让他们接触到了很多创造性的知识和经验,“消除了对创业的恐惧。”
2019年,随着百度语音技术步入成熟发展轨道,其语音技术战略已不再专注于语音合成,而是更多地关注语音交互。与此同时,硬件的改进、计算能力的提高和深度学习场景的扩展正在使处于早期发展阶段的语音合成技术取得革命性的突破。
因此,肖和李决定离开百度,开始自己的创业生涯。2019年3月,映声在杭州正式注册成立。由于很多百度团队的前合伙人跟随他们创业,他们也选择将公司总部“落户”在北京,成立两个月后就获得了300万元的天使轮融资。
萧硕和李晓的征途正式起航,映音的挑战也才刚刚开始。
其次,押注于有声书和人工智能新闻报道,语音合成的想象力是巨大的
然而,AI voice出现在如此广泛的音轨上,为什么reflect audio坚决选择voice synthesis track?
在肖朔看来,语音识别是语音技术最早爆发的领域,科大讯飞、云音等公司已经深入工作多年,推出了智能医疗、智能翻译笔、智能会议录入系统等成熟产品,留给新选手的市场机会很少。
在技术方面,李晓认为目前的语音识别技术已经进入了识别精度简单的成熟阶段。相比之下,还有很多语音合成的分割场景有待探索,包括广播剧、有声书、游戏配音,甚至亚文化中的虚拟偶像。这些都是未来落地的方向,有着巨大的想象空间。
例如,在有声书、广播剧等长音频作品的制作过程中,前期需要手工绘制大量的文本脚本,中期需要进行配音,后期需要进行编辑。整个过程需要几个月的时间,涉及大量的劳动力成本。但是,如果采用语音合成技术,可以大大降低每个环节的时间和财务成本,只需几天甚至几个小时,就可以完成一个很长的音频制作。
对于电影和游戏配音来说,为了保证用户的观看和游戏体验,制作团队需要花费大量的时间为角色选择合适的配音演员。同时,他们还需要考虑配音演员的休息时间和续集声音的连续性,这也给制作周期带来了很多不确定性。利用语音合成技术,只需输入脚本,就可以快速生成适合文字形象和工作需要的声音。
然而,因为用户有很高的要求,语音合成技术的运动感觉,如果这项技术不能实现效应水平与真实的人,很难让用户支付,用户购买意愿成正比技术的改进效果。
“因此,语音合成是语音交互链上的最后一击,一旦它实现了,市场将会更大。”肖硕评价。
目前,映音主要专注于有声图书和人工智能新闻播报,为创作者、版权所有人和融媒体平台提供高性能、低成本的音频制作服务。
在有声读物方面,reflect Audio主要提供了一个有声读物交易和制作的平台,用户可以通过这个平台实现从稿件覆盖、配音录制到音频编辑的整个云制作过程。用户还可以选择自动/半自动制作、纯AI主播、AI语音+人工主播录音等。
例如,在处理的早期阶段,该平台可以实现手稿的筛选和清洗。如果内容是广播剧级别的,还可以对内容进行深度改造,包括配音的角色划分、人物描述、情感风格等元素,从而改编出适合收听的文本。
在人工智能新闻播报方面,映音与中央广播电视总台音频客户端云天APP合作,打造人工智能新闻主播,为音频内容服务提供一站式解决方案。与国内其他人工智能新闻主播相比,反声播报效果更加饱满自然,音色模拟、情感展示、多语言表达达到行业领先水平。
三、科技城建设背后,语音合成三大优势
无论是有声读物还是人工智能新闻广播,都离不开反射音频在语音合成领域的技术积累与创新。
李晓说,过去,传统的语音合成技术主要有两种方式,分别为拼接法和参数法。例如原来的小米Ai采用的是拼接方法,几乎是用真人的语音片段进行算法拼接和组合。优点是音色和自然性都很好,缺点是操作复杂度很高,数据量也很大。
“那时候,我们让配音人员录制了将近半年的时间,总计数百个小时,才把小爱打磨得非常好。”李萧说。
随着端到端深度学习延伸到语音合成领域,语音合成技术实现了质的飞跃。
一方面,基于深度学习的语音合成技术内部计算模块和网络结构更加复杂,无论是参数数量还是技术复杂度都远高于以往。另一方面,内部结构的复杂性使得模型构建后的后续使用非常简单,不需要使用大量数据来进行底层支持。
总体而言,反射声音的语音合成技术主要有三个核心优势。
一是拟像度,这是语音合成技术的核心。语音合成通常包括有声绘本、有声读物、新闻广播、呼叫中心等许多场景,不同场景的技术表达和动作逻辑有较大的差异,比如语调不同,比如儿童、成人、老人或模拟不同动物、怪物的声音,是一个较大的问题。
反射声音可以大大减少语音合成与人的表达之间的差异,缩短合成声音与人的表达之间的距离。合成声音的采样率可以达到48kHz,更接近录音室真人录制的声音,而市场上主流的合成采样率是16kHz。
在多情感方面,反映声音的语音合成技术可以更准确、细腻、丰富地表达情感。同时还支持英文、中文和英文的混合合成,跨语言定制成本低。
二是定制能力。基于数据积累在过去的两年里,反映出音频积累了成千上万的真正的主持人在自己的平台上,和它的语音合成和定制能力已达到近100%的恢复一个人的声音只有200字(约30分钟),并且可以达到商业化水平。
即使用户只需要录制10-15句话并反映声音就可以“克隆”出相似度达90%的声音,但“克隆”的主要是声音线,句子数量非常少,所以需要其他算法技术来弥补情感恢复。
三是结合语音合成技术。反射音频除了语音合成的单点技术外,还关注与之密切相关的上下游技术点。例如,在有声读物场景中,实现了反射音频的自动绘制能力。每个句子的音库和情感风格与语音合成技术密切相关。
有声书产业快速发展的背后,反映了有声书的下一步
自2019年3月成立以来,reflect Sound花了一年多的时间打磨和积累基础技术,直到2020年5月正式商业化。在2020年,他们将在9月运行有声图书轨道,在12月运行广播、电影和媒体轨道……最大的变化是联合创始人兼首席营销官何培成的加入。
“何总裁补充了我们的营销和商业团队,并将reflection Audio从一家纯粹的技术出口公司转变为一家产品服务公司。”肖说,在这次转型中,该公司在几个垂直场景下形成了一整套产品和服务,在打开市场的同时进一步扩大了公司的收入。
“去年的重点是技术和产品阶段,营收基数较低。”贺培成表示,今年,该公司的收入出现了显著的爆炸式增长,预计收入将达到数百万美元,同比增长700%。
今年,反映Audio的主要目标仍然集中在技术和市场两个方面。一是巩固他们已经进入的有声读物和人工智能新闻报道市场,成为模范客户,实现更大的收入和市场份额,这是他们今年的核心目标。其次,它希望基于自己的语音合成技术扩展到更多的商业场景。
在技术方面,李晓认为语音合成的关键挑战在于如何使情感表达更加细腻。“这将是我们继续深入挖掘的重点。只有攻克了语音合成技术,才能将语音合成技术应用到更多的场景中。”他说,如何在长音频中使语音合成感觉自然流畅也是一个挑战,因为语音合成仍然专注于单个句子。
简单地说,目前语音合成技术最大的瓶颈不再是计算能力,而是语音合成技术本身。如何用一个更好的数学模型来解释人的发音的生理结构和原理,可能是语音合成技术下一个最重要的突破。
因此,下一步的反声技术研究和发展方向,一方面要从纵深入手,不断探索细腻的情感表达,更好地控制在长文本连贯逐渐强,逐渐弱自然的表达。与此同时,低成本定制也是关键之一。
另一方面,从广度上看,应加强与语音合成密切相关的上下游技术环节,包括自然语言处理(NLP)中的自动角色划分和文本级情感预测。李认为,在更远的地方,还有许多由声音驱动的场景,比如由声音驱动的虚拟角色的面部或身体表情。
“总的来说,语音合成在有声读物和媒体中都有明显的地位。真正的挑战是探索增量情景。”肖硕表示,未来还将服务东南亚,以及俄罗斯、日本、韩国等非英语国家,进一步扩大海外业务范围。
结论:语音合成技术具有很大的潜力
智能语音作为一项如日中天的技术,已经成为各行各业智能化进程中不可或缺的工具,尤其是语音交互和语音识别技术,已经渗透到人们生活和工作的各个方面。相比之下,语音合成技术确实正处于全面发展的阶段。
但有声读物在语音合成电路上增长迅速。据市场研究公司艾媒咨询(IMedia Consulting)称,中国有声读物行业已从2016年的23.7亿元增长到2019年的63.6亿元,连续三年增长率超过30%,预计到2020年将达到约95亿元。
反射声的建立无疑为语音合成技术在更多领域的融合创新提供了一个值得借鉴的商业范例。这个创业团队让我们看到了语音合成技术更广阔的想象力,从有声读物到人工智能新闻播报,从游戏到电影电视剧,从机器人到虚拟主播……似乎所有有视听内容输出的场景都有许多潜在的机会。
未来,随着语音合成技术逐渐进入爆发式发展阶段,我们期待它能为各行业带来更多的创新突破和转型。