01′41″

视频 | AI合成主播亮相世界互联网大会

时讯

看看新闻Knews记者王琳琳吕心泉金普庆

2018-11-08 12:21

“AI合成主播”到底是什么？主播长什么样？在发布会现场的体验中，观众只要输入一句既有的新闻文本，屏幕上就会出现一位合成的新华社新闻主播，他不仅会用和真人一样的声音进行播报，连唇形、面部表情也能完全吻合。这样的视频效果，无论看上去还是听起来，都与现实中的新华社主播的本人播报没有太大差别。

11月7日，第五届世界互联网大会在浙江乌镇拉开帷幕，在开幕当天，搜狗与新华社合作开发、全球第一个全仿真智能合成主持人——“AI合成主播”正式亮相。而随着“AI合成主播”的发布，搜狗未来人工智能的核心技术“搜狗分身”也终于浮出水面，成为大会开幕日的最大亮点之一，该项技术也入围了今年世界互联网领先科技成果。

据了解，在合成主播的开发过程中，技术人员同新闻主播一同进行了各种探索尝试，在“搜狗分身”技术的支持下，通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术，并结合语音、图像等多模态信息进行联合建模训练后，“AI合成主播”正式诞生。

随着“AI合成主播”系统的成功上线，支撑其正常运转的核心技术也引起了大家的广泛关注。据搜狗公司智能语音事业部总经理王砚峰介绍，这项技术是搜狗人工智能的核心技术之一，诞生于“自然交互+知识计算”这一人工智能理念之下。该技术能够从图像表情，声音语言习惯，逻辑思维等层面对AI进行拟人化训练，然后克隆制造人类的AI分身，进而帮助人类提高信息表达和传递的效率。

以“AI合成主播”为例，该产品就创造性的使用新华社中、英文主播的真人形象，配合“搜狗分身”的语音、合成等技术模拟真人播报画面，使大众享受到逼真度极高的图像效果。这种播报形式，突破了以往语音图像合成领域中，只能单纯创造合成形象，并配合语音输出唇部效果的约束，极大地提高了观众信息获取的真实度。同时，利用该项技术，“AI合成主播”还能实时高效地输出音视频合成效果。在该技术的支持下，使用者通过文字键入、语音输入、机器翻译等多种方式输入文本后，将获得实时的播报视频。这种操作方式将极大减少新闻媒体在后期制作的各项成本，让新闻视频的制作效率有了极大的提高。

据介绍，制作AI合成主播的技术团队，曾多次在机器视觉国际顶级赛事IEEE CVPR WAD、Pascal VOC、Mega Face以及语音合成领域最具权威性的Blizzard Challenge赛事上斩获冠军。

此次“AI合成主播”这一创新的信息传播形式，帮助媒体在融媒体转型、新闻时效性和跨语种传播能力等方面再上台阶，增强中国传媒业的国际影响力和全球竞争力。除了在媒体融合领域的应用外，这项技术未来还将在娱乐、医疗健康、教育、法律等多个领域提供个性化的内容。运用人工智能技术，中国的主流声音将更有效地传播到世界各地，为构建“人类命运共同体”，推进“一带一路”倡议下的国际合作发挥成效。

（看看新闻Knews记者王琳琳吕心泉金普庆编辑：陈佳雯）

APP 内打开

打开看看新闻参与讨论