深几度

吳儁宇

公告

作者系独立撰稿人,钛媒体、品途网2016年度十大作者,腾讯科技2015年度最具影响力自媒体。关注人工智能、移动互联网以及数码家电的产业融合,文章在界面新闻、今日头条、搜狐科技、腾讯、新浪、网易等30余家平台发布。

文集

科技(5)

统计

今日访问:1298

总访问量:5268055

央视五四晚会,百度大脑AI虚拟主持人“小灵”和真人没得差!

2019年05月05日

评论数(0)

文|吴俊宇

昨天是五四青年节,提及青年节,就不得不说“德先生”和“赛先生”。

100年前的五四运动中,响彻着“只有德先生、赛先生可以救中国”的口号。

“德先生”,即“Democracy”,德莫克拉西(音译)——意指先进的思想。

“赛先生”,即“Science”,赛因斯(音译)——意为,“科学”,所谓“科学”是指近代自然科学法则和科学精神。

今年央视五四晚会的主持人包括“赛先生”——春晚红包之后,央视和百度再携手五四晚会百度大脑AI虚拟主持人“小灵”。

这个虚拟主持人和主持人王俊凯、尼格买提同台竞技,丝毫不落下风。

“小灵”背后的技术提供就是百度大脑,其中糅合了百度视觉、语音、大数据以及AR能力,打通了大小屏,让每个电视机前的观众不仅可以看到晚会中的虚拟主持人,还能直接与它进行互动体验。

当年五四运动的“总司令”陈独秀如果见到“小灵”,恐怕也会惊叹今天中国技术之强大。

技术秀在哪儿

在五四晚会中,主持人“小灵”邀请旁边的真人主持人用人脸识别测测自己是祖国的什么花。女主持人和“小灵”的互动非常自然流畅。

很多观众有个非常强烈的感受——这个AI主持人似乎远比市面上其他AI主持人更细腻。

其他AI主持人似乎都是机器人腔,而且发声时嘴巴只是一张一合,明显对不上号。百度大脑这个AI主持人,怎么看怎么觉得舒服。

要做到“舒服”可不容易,这需要语音、表情、唇动这些技术都拟合在一起。

1、语音音色要自然

一般AI语音背后都有个语音库。我在谷歌AI博客上找了下AI语音合成的技术模型图。

大概翻译一些这个图的意思:AI语音库制作的步骤大概是三步。

第一步是将文本变成音频,先确定音色、风格、使用领域、产品特性、角色要求。

第二步找到配音员试音,根据需求设计试音文本,收集录音。

第三步是确投入音库生产线,录音脚本设计、录音资源训练、效果优化、丰富音色。

百度大脑为此准备了几十个音库,找播音主持专业的学生专业录制了各式各样的声音,具备非常丰富的音色矩阵。

每个音库只要用户喜欢,都可以做成一个虚拟主播、虚拟人物的形象。这背后的技术其实基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,可以让应用、设备开口说话,更具个性。

我在百度大脑AI开放平台找到了百度大脑AI开放平台语音合成技术的体验区。以度逍遥这个情感男声为例测试了一句话:今年是五四运动一百周年。

这个男声有着非常明显的特点,非常舒服浑厚的京腔,不知道的人还以为是一个播音主持人在和自己说话。

可以说,百度机器学习模型的研究上取得了突破性成果,其生成的仿人类语音更加逼真自然,将仿人类语音与真实人类声音之间的差异大大减小了。

2、表情唇动要丰富

人的表情,其实是由面部肌肉以及唇动共同组成的,不同人有不同肌肉动作。

以下面这张图为例,人可能有千百种表情,不同人在表达喜悦、恐惧、得意、焦虑的时候,表情都不一样。

真的把表情交到人类面前时,我们都不一定可以把不同表情做准确归类。

但是机器可以做到啊。基于大量的面部特征的数据学习去做提取,机器可以把面部肌肉、唇部动作最细腻的表现都展开学习、归纳,然后从中总结,学习人类的表情特征。

在需要输出的时候,再用深度学习做表情驱动,使得表情更加丰富,甚至连发色、年龄都可以自动生成。

百度大脑的技术逻辑和这个其实也基本大同小异。

百度大脑AI开放平台上提到,百度大脑在检测出人脸后,可对人脸进行分析,获得眼、口、鼻轮廓等150个关键点定位,准确识别多种人脸属性,如性别,年龄,表情等信息。这个技术还可适应大角度侧脸,遮挡,模糊,表情变化等各种实际环境。

百度大脑把声音、表情、嘴唇的这些素材经过了数据采集、特征分析、模型训练,用深度学习的一些核心算法和思想做了唇动技术,让唇动、表情和语音更好的用不同的特征表示联系在一起。

过去其他的AI主持人只是有一个语音库,表情和唇动非常初级,百度等于是把三项技术全部都拟合在一起了,而且再通过AR技术输出出来,比别的厂商想得更多、更细。

产品用在哪儿

你以为百度大脑的AI主持人只能用于这种晚会主持?

当然不止于此。它背后涉及的技术包括面部识别、语音合成、AR输出等等。这些AI技术可以组合成不同的产品,开放给其他客户使用,帮助行业客户改善服务、提升效率。

事实上,依托于百度大脑的百度AR Lab(百度增强现实实验室),就在提供AR技术、产品、服务一站式智能交互解决方案,业务已广泛覆盖营销、娱乐、教育、文化等各个领域。

1、教育和阅读类产品:让课程和讲解变得更生动

通过阅读类APP阅读小说或新闻时,如果使用语音合成技术为用户提供多种发音人的朗读功能,释放双手和双眼,获得更极致的阅读体验。

实际上,熊猫看书、快听小说已经在使用百度大脑这项技术。用户可以直接用语音播放电子书中的内容。

教育类的客户同样可以引入这样的AI主持人,在一些儿童故事机、智能机器人这类教育类设备或课程之中定制属于自家产品的形象、声音,让课程变得更亲切。

深圳一家名为AiMouse的智能鼠标厂商以及Kido儿童手表品牌都使用了百度这项技术。Kido通过运用百度语音识别和语音合成技术,优化了机器人的语音交互体验,让儿童手表实现语音交互。这款手表的日活跃量也达到了百万级别。

2、生活和服务类产品:让服务交互效率得以提升

语音合成还可应用于打车软件、餐饮叫号、排队软件等场景,通过语音合成进行订单播报,让用户便捷获得通知信息。面部识别则是可以展开顾客识别、订单校对。

不管是语音合成还是面部识别,都天然适合服务业场景。一些酒店、饭店等服务业可以定制一些属于自己的机器人,帮助顾客做客服。在订单校验的过程中则是可以用顾客的面部特征为基础展开服务。

嘀嗒出行出租车业务的“听单”以及顺风车业务的“听单功能+派单服务”中都用到了百度的语音合成技术。

从2017年10月开始接入百度语音合成SDK。随着嘀嗒业务的增长,调用量每日都在攀升,日调用超过千万次以上,而错误率几乎为零。百度语音合成技术保证了核心派单功能的稳定服务。

3、影视文娱产业:节省动漫动画行业的人力

影视、动漫行业未来效率也能因百度大脑这套AI技术得到很大提升。

过去动漫、影视剧行业为了给动画人物唇形、表情,必须手动一点点调整,而且很看动画师主观的思考。

百度这一套技术输出给动漫行业的话,直接机器生成就OK,动画师后期修改也很方便。程序驱动以后,动画人物语言的唇动连续性也是完全一样的。不会出现在说同一个词汇时出现不同唇动的现象。

影视剧、动漫产业的动画师未来可以把更多精力放在更多有价值的工作上,这样不仅可以节省人工成本,还缩短了工作时间。

当然,文中列举的这些案例完全不能概括面部识别、语音合成、AR这些技术融合带来的应用场景。

我列举这些案例的意思是,你只有非常努力,才能看起来毫不费劲。

百度领军“赛先生”

央视五四晚会上这个AI主持人表面上看起来只是在主持一档晚会。实际上它所需要用到的AI技术底蕴深厚,放到各行各业可以有更大的实际效益。

这也正如美国软件技术专家艾德·伯内特说过的一句话:

现在天上有三十一颗卫星在地球上空环绕,不为别的,就为了告诉你便利店怎么走。

如果你只看到了手机地图上的便利店要怎么走,你显然低估了很多事情。

因为天上那三十一颗卫星不仅仅在服务你,更在服务各行各业——那才是你没看到的东西。

英国学者李约瑟(Joseph Needham)在编著的《中国科学技术史》中提出此问题:

尽管中国古代对人类科技发展做出重要贡献,但为什么科学和工业革命没有在近代中国发生?

作为享誉世界的文明古国,在技术上有过那么多自豪成就。明明自己发明了火药,却被八国联军炸掉了封建牌坊;明明发明了指南针,却被英国的战列舰找上门来。

100年前的五四运动就是探寻这个答案的过程。五四青年们因为国家积贫积弱,走上呼唤“德先生”和“赛先生”的道路。

可以说,德先生和赛先生,是推动中国社会前进的两个车轮。

在今天,全世界范围内同样在展开一场围绕着“赛先生”的竞争——未来20年,是AI的时代,AI就是当代“赛先生”。

百度为代表中国企业在AI领域已经不遑多让,多年以前呼吁的“赛先生”已经不是短板。“赛先生”甚至正在成为今天中国走到世界技术之巅的重要基石。

以AI为代表的“赛先生”让万事万物都处于精确计算之中,正如当代哲学家西闪《国家的计算》所说的:

在现实世界的“赌局”中,帕斯卡的上帝已经隐退,取而代之的,是作为信仰的“未来”。它像一个永恒的奖杯,在时间的尽头闪闪发光。计算则取代了程式化的行为训练,演变成为一种新的思维习惯。“理性的计算”已经成了是近现代的过程最主要的特征。

五四运动的倡导者陈独秀如果看到中国科技企业把“赛先生”搞得这么强,怕是也要说一句,“你真秀!”

----------------------------------------------

作者 | 吴俊宇 公众号 | 深几度

作者系独立撰稿人,微信号852405518

关注科技公司、互联网现象的解读

曾获钛媒体2015、2016、2018年度作者

新浪创事记2018年度十大作者

品途网2016年度十大作者

腾讯科技2015年度最具影响力自媒体

文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+吳儁宇。