深几度

吳儁宇

公告

作者系独立撰稿人,钛媒体、品途网2016年度十大作者,腾讯科技2015年度最具影响力自媒体。关注人工智能、移动互联网以及数码家电的产业融合,文章在界面新闻、今日头条、搜狐科技、腾讯、新浪、网易等30余家平台发布。

文集

科技(5)

统计

今日访问:4532

总访问量:6188234

百度地图语音定制功能启示:百度正在用AI改变一切

2019年09月20日

评论数(0)


文|吴俊宇

美国鬼才科普作家詹姆斯·弗拉霍斯用《智能语音时代》这样一个标题形容了如今语音科技对人们的影响。

他的副标题很有趣——商业竞争、技术创新与虚拟永生。

在他看来,每十年左右,人与技术的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些定义了新的时代范式的公司,而落伍者将破产倒闭。

语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的手段。语音打破了世界上一些最有价值的公司的商业模式,为新的应用创造了机会。

这一次,百度地图用语音定制功能同时展现了品牌营销和技术积淀的双重能力。其中的语音技术未来的ToB、ToC领域也都有宽阔的运用空间。

品牌营销的创新

过去地图行业常常找来明星站台,通过明星语音包的方式展开品牌活动。

这种策略的确卓有成效,事实上,不管是汤唯、林志玲语音都很受用户的欢迎。但是要知道,明星的粉丝毕竟圈层有限,明星语音可能仅仅只能吸引一部分粉丝用户,想要真正扩大圈层,实现营销破圈,可能要采取一些别的策略。

不过有趣的是,9月19日,百度地图发布语音定制功能,直接推出了用户定制专属语音包。

定制方式很简单,打开百度地图App,唤醒“小度小度”后说“录制我的语音”,或点击百度地图首页的“出行助手”后进入“语音定制”,便可开启语音定制之旅。在安静的环境中,跟着百度地图指引,念出卡通和影视台词等充满趣味性的录制文本,等待大约20分钟,就能拥有一个自己专属的语音包。

百度地图事业部总经理李莹

最后你就可以用自己的语音包替换掉其他明星语音包,可以在百度地图的景区智能语音导览、智能语音交互、导航等全部场景使用。

让用户使用地图时听着自己的语音,这或许是一个对所有人来说,都是个饶有趣味的尝试,这种尝试的有趣之处在于:

1、满足新鲜感;明星语音已经是市面上大部分手机地图的常规操作,由于传导机制的不同,人们听自己声音与自己声音的录音往往不同,这种“奇妙而羞耻”的感受往往比明星语音来得更有趣。

2、打破了圈层;明星语音毕竟只是一部分粉丝群体会选择使用,但是自己的语音却是所有人都感兴趣的,不花一分钱请明星做代言,不针对少部分粉丝用户群体,直接用技术手段覆盖所有用户群体,这种策略可谓是四两拨千斤。

可以说,这既是一次营销活动,也是一次技术展示。而且两者有着很好的结合,

已经很少有品牌营销能够真正让技术能力得到释放,但是百度地图这次做到了。它让技术和营销软硬兼备。

语音技术的跃进

这个功能主要应用了百度独创的风格迁移技术Meitron模型。

所谓风格迁移这个概念最早来源于图像领域的概念,简单说就是:将一张图片的艺术风格应用到另外一张图片上。

语音的风格迁移其实也被称作是“语音克隆”(voice clone)、“多说话人风格迁移”(multi-speaker)、“风格迁移”(style transfer)、“语音转换”(voice conversion)。

要知道语音的风格迁移非常困难。

因为深度网络对于语音处理困难。一来不如图像和文本领域研究火热,二来语音所具有的信息,难以编码到高维隐空间。一段语音时间序列中,混杂着以下方面的信息:说话人特征(如一个人的音色,音调等);语言学内容(语音表述的内容);副语言特征(如情感等)。

2017年,美国曾有一篇名为《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》的学术论文讲述风格迁移的问题。

百度地图这次采用的Meitron模型其特点主要体现在发音人音色转换,多情感朗读和韵律风格迁移三个方面,从而让个性化语音合成的定制门槛大大降低。

要知道,过去明星地图语音的录制非常麻烦。以高德地图的林志玲语音为例,它的制作分成两块。

一块是按照录音稿录制出来的语音内容。另一块则是高德当时找专人,跟了林志玲几个月,贴身录音,把原始声音文件处理提取出数字特征。再采用通用的、很完善波型合成技术,将元音、辅音及音调等采样,通过算法实现文语转换。

这是2014年明星语音生成的处理方案——看完你大概会想,录个音实在太难了。

但是在Meitron模型下情况就不一样了,这个模型背后的技术支撑是百度大脑语音技术的赋能。AI的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展。

百度语音首席架构师贾磊

该模型是目前行业领先的语音合成技术。用手机即可完美复刻说话者的音色,风格,情绪等。

关键是,仅仅只需要20分钟就能全部生成。也就是说,未来不管是什么明星,他们的语音只需要在Meitron模型里跑20分钟,基本就能生成一个完整的导航语音包。

语音合成能力越强,其实也说明未来人机交互、语义理解的可能性越大,机器阅读的能力越强。

短短5年时间,AI加持下的语音技术可谓突飞猛进。百度大脑的实力可见一斑。

未来商业的结合点

这次品牌营销其实也是百度语音技术的一次能力展示,它未来在ToB侧、ToC侧都可以有更多结合之处。

比如深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让客户的应用、设备开口说话,更具个性。

1、教育和阅读类产品:让课程和讲解变得更生动

通过阅读类APP阅读小说或新闻时,如果使用语音合成技术为用户提供多种发音人的朗读功能,释放双手和双眼,获得更极致的阅读体验。

2、生活和服务类产品:让服务交互效率得以提升

语音合成还可应用于打车软件、餐饮叫号、排队软件等场景,通过语音合成进行订单播报,让用户便捷获得通知信息。面部识别则是可以展开顾客识别、订单校对。

3、智能硬件类产品:让人机活动变得更鲜活有趣

可集成到儿童故事机、智能机器人、平板设备等智能硬件设备,使用户与设备的交互更自然、更亲切。

当然,对百度地图自身而言,这次语音合成技术的使用使其人工智能地图的称谓名副其实——所谓人工智能地图指的是,在AI赋能下,地图在交互体验、位置信息、出行服务以及出行决策等方面产生了重大变革。

对ToC用户来说,未来的百度地图会具备更多AI能力和语音交互能力,它在使用过程中会变得更便捷、更智能,比如说,结合用户的使用习惯和当前的场景,通过用户画像、深度学习等能力,给每个用户带来个性化信息和服务推荐。

对ToB用户而言,未来的百度地图同样可以运用AI能力和语音交互能力,为客户和商家基于语音的地理位置服务,结合人口分布、客流分析、设施分布等多项大数据分析服务;面向规划、房产、商业、零售等行业提供解决方案。

当“你应我答”的模式出现,在人与人之间、人与机器之间,交谈就绝不只是一种纯粹依靠逻辑展开的过程。语言永远不是脱离内容的外壳,人都会被语言影响或打动。

未来,我们与无处不在的机器构成的世界,将是一个前所未见的更加丰富多彩的感性世界。

詹姆斯· 弗拉霍斯有这样一个设想:

在云时代,“只要简单地加上一个麦克风和一个Wi-Fi芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。”这几乎意味着“万物能言”的童话世界真的实现了。

在这样的世界之中,商业逻辑和产品逻辑也将有着更多改变。语音可能真的要成为地图等产品的入口之一。

--------------------------------------------

作者 | 吴俊宇 公众号 | 深几度

作者系独立撰稿人,微信号852405518

关注科技公司、互联网现象的解读

曾获钛媒体2015、2016、2018年度作者

新浪创事记2018年度十大作者

品途网2016年度十大作者

腾讯科技2015年度最具影响力自媒体

文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+吳儁宇。