安徽信息港
首页
您的位置:安徽信息港首页 > 资讯 > 正文

用科大讯飞语音技术创业:他的梦想是让2000万听障者张口说话

  2018年10月24日,距离人工智能领域标志性事件——2016年3月Alphago战胜李世石,已经过去了30个月。今年的科大讯飞全球1024开发节,一场属于开发者们的盛典,刚刚落下帷幕。

  过去30个月间的每一天,开发者们用键盘日夜兼程,与时间赛跑。

  根据科大讯飞提供的数据,从2010年科大讯飞开放平台(即语音云平台)成立以来,共有86万开发者团队利用开放平台进行开发,他们分布于中国的大江南北,其中广东和北京占去1/4。8年间,开发者们敲出了54万开发应用,2018年上半年,开放平台开发者新增267818人,为历史最高增速,迎来指数级增长。

  86万开发者,生于这个时代、反映这个时代、也成就这个时代。

图片1.jpg

  01.

  从失聪到开口演讲

  他希望用技术“撬开”2000万听障者嘴巴

  石城川11岁那年,世界变得悄无声息。

  一场高烧夺走了他的听觉,一觉醒来,他成为听觉障碍者的一员,他疯狂向家人发着脾气。但无论他怎么努力,听力丧失是无可挽回的现实。

  不仅于此,上大学后的石城川甚至渐渐忘记了舌头说话的感觉,只能用写字的方式和外界交流,朋友也只剩下为数不多的一两个。

  根据第二次全国残疾人抽样调查结果,在中国,像石城川这样听力残疾患者达2780万人,占残疾人总数的24.2%。

  石城川不甘心。

  2015年毕业后,他发现科大讯飞有一种语音识别技术。尽管自己听不到自己的发音,但是可以通过这种技术矫正自己发音,并识别正常人的语音转换成文字,这样就可以实现自己和正常人的对话。在咿咿呀呀的发音中,他重拾语言能力。

  2018年3月“AI大学未来课栈@上海栈”演讲上,石城川侃侃而谈介绍音书科技的产品,很多台下的观众听着这个发音很像韩国人的年轻人,完全没料到,最后石城川这样介绍自己:“我是一名聋人,双耳听力都是120分贝,属于那种最严重的耳聋,就算戴上助听器也没有效果。”

  音书科技是石城川和自己的朋友们在2016年成立的公司,立志于服务2000万像石城川一样的听力障碍者,为听障者和健听者之间建立沟通的桥梁,这其中,既包括天生失聪的障碍者,也包括和他一样因病失聪的障碍者,还有10%在岁月中逐渐失去听力的老人。用户可以在音书APP上文字聊天、语音聊天(识别为文字)、视频聊天(同步识别语音为文字)、发音练习、发音测试。

  有了音书APP,有了自己值得坚持的事业,今天坐在办公室的石城川,更坦诚地拥抱了失聪这个现实。“在声音的烘托下,常常会加强一个人对恐怖的感受。但少了声音这个感官刺激,人们是如何对事物(诸如台风)有所畏惧?”今年山竹过境广州的时候,他坐在窗前思考着这样的问题,就算无声,也有自己感受世界的方式。

  目前音书科技产品已经有40万用户。但就像自立的石城川一样,音书科技不止于做一个仅靠补贴和融资存活的公司。

  “助听器、人工耳蜗、话筒配套等其他产品都会是未来的变现手段。未来我们为听力障碍者提供一系列解决方案,并期待可以和上游一些人工耳蜗公司合作,既能够压缩人工耳蜗的成本,服务更多残疾人,也能够为公司实现盈利。”变现是不曾回避的未来。

  根据科大讯飞提供的数据,和开发者石城川一样,调用科大讯飞语音识别(听写)技术为技术支持的产品约占42%。且最近三年以来,该技术被调用最为频繁。2018年,共有55.8%的创业团队借助科大讯飞技术实现创业梦想。

  语音识别技术也成为科大讯飞公益的一种手段。2017年科大讯飞(首届)全球1024开发者节上,科大讯飞公益计划“三声有幸”首次公布。基于讯飞开放平台,“三声有幸”将扶植众多和音书一样的公益开发团队。

图片2.jpg

  02.

  为鼠标装上耳朵

  他希望用技术让人和机器对话

  2016年10月,冯海洪看了一下公司账面,只有18000元。

  除去待支付的1万元推广费,只剩下8000元。尽管从创办咪鼠科技开始,身为CEO的他每个月只给自己开3000元,可是8000元,恐怕连员工的工资都支付不出。

  因为账面钱少,有时候仅仅是为了促成三五个销售的可能性,别人给他发一条信息,他就赶去参加路演。几十场路演下来,凭借这种理工科的执着,咪鼠从被高新区的人知道,然后被合肥市的人知道,然后传到了安徽省。  

  直到两个月后,咪鼠科技突然在全国火了。

  在那个月,他参加的央视节目《创业英雄汇》播出。节目中,冯海洪演示了使用咪鼠的过程:打开一台普通电脑,正常使用鼠标,在需要发布指令的时候摁住咪鼠的语音键,并用声音说出你的需求:“买火车票”。计算机马上打开到12306网站。

  节目播出后,冯海洪收到500万融资,节目上留下的4个联系方式一共接了1000多个电话,公司签了1000多万的订单,到账数百万,一下子缓解了账面危机。

  一下跌入谷底,又一下捧上天堂。这是属于开发者冯海洪的2016。

  咪鼠科技,是冯海洪2015年创办的科技公司,想要从日常PC都会用到的鼠标出发,以科大讯飞语音识别为底层技术,切入人机交互。在他看来,“有人选择去做机器人,但机器人完全脱离用户既有的生活系统,其实很难应用。如果说在原来的使用习惯出发做智能化的话,效果更好。”

  为此,冯海洪为咪鼠设立了100多种应用场景,后来发现尤其医生、银行从业者等高频使用电脑的从业者对咪鼠需求量最大。2018年,咪鼠通过售卖,公司基本实现了收支平衡。但咪鼠的野心不止于此。在人机交互的未来,咪鼠还将和海尔、联想、华为等大型硬件公司合作,将人机交互植入电脑,或者只要下载单独的应用就能实现人机交互。

  和冯海洪一样,技术带来的改变不仅影响新兴领域,也会赋能传统领域。根据科大讯飞提供的数据,2018年调用科大讯飞技术实现办公商务便捷化的应用占7.8%,排名第三。通过语音识别技术赋能传统行业,如影视、运动、理财、办公等团队整体超过20%。

图片3.jpg

  03.

  从IT记者转入“虚拟现实”

  仅半年就有26万人像他一样寻找创新机会

  2000年5月22日,“东芝笔记本事件”终于告一段落。东芝公司在北京举行新闻发布会,正式表达对中国消费者的歉意并承认东芝笔记本电脑软驱控制器存在缺陷。

  把这件事搬上历史舞台的,是《成都商报》一名叫王刚的记者。

  在9年记者生涯中,他采访过微软、IBM、思科总裁,也报过“东芝笔记本”这样的连续跟踪报道,并因此入选“2000年四川十大IT人物”。

  一晃15年。2015年,人工智能、未来科技生机勃勃,咖啡馆里讨论的,都是刘慈欣、《三体》、VR、全息投影。

  王刚决心加入这场浪潮。2016年,王刚创立奇幻科技,以科大讯飞语音识别、图像识别、深度学习等为底层技术,构建接近个人性格的虚拟人物。

  “创业比想象中要难一百倍。以为未来一夜之间就来了,太天真。”王刚不后悔自己的选择,创业,就是不断在未来的方向中寻找现实的可能。创业两年,公司面临的问题可能更加具体:《幻城》的VR版如何制作?能和哪些手机厂商合作,将语音助理结合?虚拟导游、虚拟教练、虚拟老师各自的学习过程需要多久?

  2018年初,电影《头号玩家》上映,虚拟现实的未来又成为热议主题。王刚看着电影想:“这就是我想要的未来啊。”

  回到办公室接个电话,这次项目又超预算了,脑壳疼。

  未来到来之前,开发者的生活就是日日夜夜个具体问题,但他们仍然义无反顾地加入。

  根据科大讯飞提供的数据,2018年,开发者团队数量在2018年实现指数级增长,更多和王刚一样的创业团队加入浪潮。团队数量从年初的129347个增长到2018年6月30日的267818个,短短半年,实现翻翻。其中男性为主力军,占86.51%。

图片4.jpg

图片5.jpg

  04.

  互联网江湖,武功唯快不破?

  他说,最可贵的是一步一脚印地走下去

  于继栋在1996年第一次听说程序员这样一个工种。

  1999年,他以初级程序员的职位加入科大讯飞;2018年,他是科大讯飞消费者事业群执行总裁。

  24年间,于继栋经历了开发者最初始的状态,只是写一些底层应用;2000年左右,互联网兴起,大批网页程序员加入;2001年,互联网泡沫破灭,行业迎来低谷;2005年前后,手机、移动端兴起;2007年,云计算兴起,JAVA也渐渐普;2009年,安卓和IOS横扫全球。

  2010年,讯飞开放平台成立了。科大讯飞把语音识别技术放上云端,让开发者可以免费或者很低价地拿到语音引擎去开发出一些应用,集众多开发者之大成。语音引擎最重要的是基础的语料收集。早在2006年,科大讯飞研究院团队在全国各地收集语料,4年时间耗资数百万收集了将近100万条语料。但对语音引擎而言,100万显然远远不够。

  成立伊始,讯飞开放平台只能做到3-4秒识别后出结果,用10次,3-4次不能用。但开放平台后,用户增加迅猛,这次的100万条语料,不到一年时间就收集完成。

  “就像现在说物联网感觉是一样的,很多人不信,但也有一批人觉得信或者不信都得去试一下,我们就属于憋久了想想尝试一下的这些。”于继栋甚至在公司内部开了一个小型发布会。来的人很少,但听到这个想法的人都觉得很兴奋。

  2012年,语音云平台借力3G、手机终端,整体使用用户破亿。于继栋来不及庆祝,蜂拥而至的是一系列问题:稳定性识别率有待提升、用户增多服务器增加、不断追加的成本。“晚上加班到很晚,凌晨两三点还要赶来办公室解决系统崩溃问题。最惨的时候一个月都有七八次都是凌晨两三点把整个团队都叫过来,然后现场解决问题。”

  一个语音云平台,给整个公司的利润增长增加了沉重的负担:2015年,尝试了广告业务变现后,开放平台仍然处于亏损状态。

  2015年的那个农历年,于继栋看着窗外灿烂的烟花,心里很难过:明年应该不会更糟糕了吧?

  2016年,移动互联网广告崛起,讯飞大数据广告业务也迎来了增长。2017年,脱胎于语音云的广告业务首次以5000多万的利润实现业务线盈利。尽管语音云至今也仍未实现收支平衡,但语音云平台成就了和音书、咪鼠、奇幻科技一样的86万开发者团队。借助科大讯飞语音识别技术:美团外卖开发了语音耳机,提高外卖员出行安全率;VIPKID开发语音课程,帮助同学练习发音学习知识;海底捞实现了机器人客服,办公效率有效提高;公子小白用智能机器人,增进人际沟通。

  现在的语音识别能力达到如何了呢?

  于继栋举了一个例子:可能有一天你收到一个催款电话,你和对方聊了半天。

  “但其实电话那头是与我们合作的语音识别终端。”

  结语

  在采访计划中,本来还有一位年近8旬的老人,既是一位退休博导,也可能是年纪最大的一位开发者。但由于身体原因不能受访,他发了一条信息给我们。

  “我是一名地质工作者,在人工智能领域我是一个站在学校教室窗外踮起脚尖好奇听着教室内老师讲课的小孩子,是AI的小小白。

  我对科大讯飞的关注始于对讯飞翻译器功能与成功,接着对科大讯飞‘AI飞无界’、‘开放平台’等理念与做法的认同与期待。

  我是一个近80岁的老头了,但我十分期望我的学生在各自研究领域与AI有机地结合起来,产生新的飞跃,这也是我对‘AI飞无界’理念的兴趣与期待。”

  不止老人,面对人工智能,我们都是站在学校教室窗外踮起脚尖好奇听着教室内老师讲课的小孩。

  Respect,2018开发者。

  备注:本文内容来自财新NEI频道