搜狗武健:从机器人看人工智能(5)
2017-05-25 14:53 钛媒体
我们来看几个例子,2005年,google的机器翻译使用跨越学术界一万倍的数据,一举成名,搞定了翻译界多年都搞没有定的翻译的准确率难题。Google 2009年收购的reCAPTCHA,这个器材是通过一个巧妙的产品设计,让用户在网页登录输入验证码的同时,为OCR练习提供了大量的练习样本,办理了疑难字的识别答题。在AI期间之前,没有管是商品的推荐照样电影的推荐,都是基于item之间的相似性来实现的。但自从有了大量用户产品,并且用户在这些产品里产生了充足多的数据后,厂商们现在都是行使用户行为确立推荐模型,商品的推荐进入了协同过滤期间。这是一个非常典型的通过产品上的数据积累改变了行业玩法的例子。
以是可以看出,要想做差AI,产品和数据才是重中之重。在产品和数据方面,要形成闭环,尽迟让一个功能上线到产品中去累积数据,进而没有停去推动手艺的进步。
我想再用搜狗举一个真实的例子。搜狗今朝语音识别本领和翻译本领黑白常出色的。在我们项目初期冷承动阶段,我们其实行使Google的语音识别API,做出了搜狗输入法的语音输入功能,并且投放上线。随着用户使用该功能的频次渐渐增长,我们很快就积攒了一批原始数据,然后就 了自己的建模和练习工作,在很短的时间内就用自己的模型取代了Google API,完成了自立化。在接下来很短的时间内,随着原始语料的不时积累,手艺模型的不时演化,线上语音识其它 率提升稀奇迅速。
今朝,从手艺方法本身上,搜狗不独特的地方,练习平台我们有跨越1000块GPU的体量,据我相识百度可能有2000块GPU的体量,但我们的优势是什么呢?就是线上量大。我们拥有优异的产品,给我们带来了大量优质的数据。现在搜狗输入法每天语音输入哀求能达到2.5亿次PV,每天产生20万小时的语料,在这20万小时的语料中,还包含着天下各个区域用户的语料数据。
刚才提到的只是数据积累的部分,其实你联合用户产品,我们完全可以做得更多,比如说去年搜狗输入法上线了语音修改功能:当你说错了一句话时,从前你要用手自己在屏幕上定位,然后删除,输入新的字,现在你就完全可以跟用语音修改功能说把什么字改成什么字,再哪哪加一个标点这个功能。最初我们用输入法用户的行为形成了一万条修改的文法,这个语音纠错功能刚上线的时辰,修改的成功率仅仅只有40%,可是你可以通过不时的迭代和数据反馈,以是我们仅仅用了一个月的时间就把成功率提升到了80%。可以看出:通过差的用户产品形态和数据,我们就可以让产品本身显露的更智能,映射到自然交互上它就顺理成章地变得更差了。
刚才我们提到了手艺是扩散的,计算力是增加的,唯有产品和数据可形成壁垒,绝没有是说手艺是没有重要的,产品和手艺之间其实也是有非常大的关系的,因为新的手艺肯定可以给你带来新的产品形态,同时差的产品形态肯定会加速手艺的进步,这两个器材肯定是相辅相成,一路往前推动了整个行业往前进步。
智能机器人的思索本领
思索本领是一个很宽泛的定义,到底做到了什么样的程度才算有了思索本领?是满足了加减乘除?照样满足了肯定的功能相应或图灵测试?到现在也是不确定的局限。在这里我就想提出个人的一些看法,在我来看,在当下若是一个机器人有了答问本领,就可以算是有了思索本领,就可以被称为智能机器人了。
当然答问本领本身照样一种比较宽泛的说法,这里我把答问分成三类:
[责任编辑:毛青青]