搜狗CEO王小川——技术与价值的关系
2018-11-10 10:42:46
  • 0
  • 1
  • 0

来源:  全中看传媒

技术与价值的关系

王小川

技术和价值观的关系,是一个值得社会各方思考的话题。搜狗就“技术和价值观”问题做了很多探索,包括技术如何助力媒体传播主流价值观,前沿技术的作用与未来的发展等。

科技助推传媒业发展,参与内容生产创作

传统理解中,技术主要用做内容审查和流量分发,但是随着AI技术的产生,已有更多技术开始跟媒体产生关系,参与到内容生产和传播中,比如:

腾讯新闻研发的Dreamwritter写稿机器人,能够基于搜集到的信息,在数秒内完成初级稿件写作,还能自动配图和自动剪辑视频片段,帮助记者和编辑提高写作效率。

除了文字新闻、视频新闻可以由人工智能完成,搜狗在今年夏天的RISE科技大会上展示了搜狗虚拟主播技术:首先由机器捕捉并记录主播的面部表情和声纹特征,而后只需向机器输入新闻文字稿,它就可以自动生成视频,完成音频和视频的合成,成为虚拟主播,技术在内容创作上又前进了一步。

今年8月,人民日报与搜狗合作推出了“党媒推荐”频道,依托搜狗的内容分发技术,为主流媒体提供优质的内容分发机制和平台,目前已在“搜狗搜索”和搜狗“今日十大热点”两个客户端上线。

语言承载着人类思想,亦是人工智能皇冠上的明珠

探讨技术和媒体价值观时,我们首先应清楚地认识到:技术之上还有语言,语言是技术之上一个更重要的概念。为什么这么说?因为技术是中立的,本身没有“价值观”,但语言是有价值观的。

语言在人工智能技术领域处于最前沿。深度学习的产生让我们在声音识别、声音合成,甚至视频内容识别等方面,都有了很大突破。但是最前沿的还是对语言的理解。怎么表达语言?并不是通过一个简单的波形、简单的图片点阵就可以完成。比如“华夏文明”这个词,四个字里包含极其丰富的信息,怎么让机器理解并掌握这个词,才是在学术界、人工智能界里最前沿的事情。

语言跨越了两件事:一是在我们的价值观里,在我们的表达和思想传承里非常重要,同时,在行业的共识中,语言也是人工智能皇冠上的明珠。

搜狗一直关注的重心就是语言,两款产品大家尤为熟悉:“搜狗输入法”和“搜狗搜索”。搜狗输入法:帮助我们用语言表达思想,是一个通过语言为大众创造内容的工具,这里面搜狗需要做好内容审查的工作。第一天做输入法的时候,搜狗便意识到,当用户使用输入法敲拼音时,如果内部没有按照价值观把关词库内容,只是按照流量给出对应热度最高的文字结果,那么,用户最先看到的很可能是大量暴力、色情的词语,对我们的主流价值观传播产生负面影响;搜狗搜索:作为中国的第二大搜索引擎,同样在处理语言的事情。当用户输入关键词时,搜索引擎基于对语言的理解,筛选互联网上沉淀的上百亿接近千亿的内容,将优质内容按顺序排好提供给用户。

人工智能领域的两个方向:自然交互+知识计算

语言对人类、对人工智能领域都十分重要,那么,语言在人工智能领域里能做什么?整个行业,包括搜狗,都在认真对待两件事情:自然交互和知识计算。

自然交互,就是让语言来承载交流沟通功能。在人工智能领域,我们将人与机器之间自然地交流称为自然交互。回顾计算机发展史,以前人是以机器的方式与机器交流,比如用键盘、鼠标,但是今天,我们开始用更自然的方式与机器产生沟通,用语音、图像等方式替代键盘鼠标,语音识别由此产生并逐步走向火热。这中间存在着技术问题:语音和语言如何互相转变,才能实现人机之间的交流?如何从图像中识别出语言,以及如何给到语言后生成图像或视频?

在自然交互方面,搜狗是今天中国能直接将语音识别服务提供给消费者,且服务量最大的公司。搜狗输入法拥有巨大的用户规模,其中包含语音输入、语音修改等功能。通过语音识别、麦克风矩阵收音等技术,能让机器听到人的说话内容并识别出来。除此之外,搜狗还做了更前沿的项目——唇语识别,通过说话人的嘴形变化,识别说话内容。这个前沿技术是将语言和图像联合建模,探寻说话人在表达时声音和表情之间的关系。当前,搜狗已经做到:在一些垂直场景,如车载、智能家居环境下,唇语识别准确度超过90%。

此外,语音合成技术也会非常火热。语音合成能合成标准的播音员声音,甚至合成特定人物的声音,并且效果非常逼真。

语音合成更深的一层是处理和情感相关的事情。机器合成声音时,缺乏对内容的深刻理解,合成声音的音色、音调不够理想,所以最难完成的是情感迁移,把一定的音色迁移到一个韵律和节奏上去,或者让一段韵律和节奏用特定的声音发音。目前,搜狗的技术已能做到将一个特定声音和一个韵律(或一个特定的内容)进行调和。

基于这些技术,搜狗推出了虚拟主播,利用原有的唇语合成、语音合成等技术,将音视频联合建模,在输入一段文字之后,创作出虚拟主播的视频。

知识计算,就是在语言中产生知识推理和计算的能力,包括问答、对话和翻译。其中,翻译是除了语音、图像外,发展最快、最容易突破的点。最近两年,互联网不断推出翻译软硬件。虽然中国有十多亿人口,但是世界主流语言仍是英文。当国人出国交流学习时,我们需要学习英文;当国人在联合国发言时,我们要用英文表达想法,这极大阻碍了我们在世界舞台上的沟通。同样,全球最重要的文献,比如科技、医疗、文化等领域的文献,均用英文撰写完成,国人在阅读时也会产生困难。虽然我们学习了多年英文,但和母语讲英文的人相比仍有差距。国人要建立自己的文化自信,迫切需要输出中国内容,并将国外的优质信息翻译给国人,翻译是其中极其重要的一环。相信未来3年时间内,机器翻译会达到一个非常专业的水平。

搜狗的使命是让表达和获取信息更简单,有了机器翻译技术后,输入法在帮助用户表达时,能将中文翻译成英文、日文、韩文等语言,帮助用户用中文和外国友人直接对话,而搜索引擎也能做到将搜索到的全球的日文、英文、韩文信息翻译成中文供用户阅读。

此外,搜狗也推出了机器同传和翻译硬件等落地产品。搜狗在2016年的世界互联网大会上首次展示了搜狗机器同传技术,是中国甚至全球首家能够在大会级别的公开场合展现机器同声传译能力的公司。近两年,我们的同传不仅能转成文字,还能用不同的语音语调呈现。如果说话人是以轻言细语的方式说话,那么机器翻译出来的英文语音也是轻言细语的方式。

除了翻译,问答与新形态信息传播也有很大关系。此前,创作都由人工完成,网上有数千亿的中文和英文内容,搜索引擎做的是在海量信息中整理内容的工作,当用户输入关键词时,它会将合适的内容推送给用户。但是未来,搜索引擎会产生巨大变化,发展为问答引擎,搜狗、谷歌等公司都在做这件事情。未来,用户搜索的方式会发生转变,不再是用户输入一个关键词,然后由机器给出一堆页面、文章让用户选择,而是用户直接输入问题,机器基于AI技术对互联网文章做“阅读理解”,而后直接给用户一个答案,答案可能来自于一篇文章或多篇文章的综合推理。目前在一些场景中,机器在回答有确定答案问题时的表现要优于人类。

未来,在让机器产生沟通交流能力、能够辅助人或者直接跟人对话方面,也会产生很大变革。以输入法为例,语音输入只是输入法的一部分,在未来,我们希望让输入法辅助人对话。去年搜狗上市时,我在短时间里收到了三千条祝福微信,靠我一个人用文字或语音逐一回复,效率很低。如果输入法能够产生交流回复的能力,根据不同的对话人,比如老师、同事、领导等,辅助生成不同的回复内容,用户只需给内容做确认,会极大方便用户交流。今年的谷歌大会上,谷歌已经展示了机器与人对话、提供订餐等服务的能力。

随着自然交互能力、知识计算能力的提升,媒体形态可能会发生更多变化,技术和主流价值观之间的关系也会更密切。

科技与传媒结合,至少有三个方向:第一,使传播形式从文字扩展到语音和图像,大家已经有了共识;第二,让技术做审查,或者在流量分发中制定权重;第三,技术本身能够参与到内容,特别是语言的创造中,这会带来更多的挑战和机会。

相信技术可以帮助搜狗不断提高效率,优化工作和生活。搜狗也将借助技术,进一步助力媒体形成内容多样化、生产高效化、报道形态创新化、用户体验多元化的主流媒体新生态。

 
最新文章
相关阅读