新闻是有分量的

科大讯飞:你的普通话再“塑料”,我也能听懂

2018-07-07 09:00栏目:简讯

导读

如今,一号站平台,语音输入已经成了各家输入法的标配,但说到语音识别效果哪家强,还属讯飞这块老姜更辣。

刺猬公社 | 李子涵


三国时期,曹子建七步成诗,大家争先记录这首名作,拼的是写字的速度。




科大讯飞:你的普通话再“塑料”,我也能听懂




回到当代,某记者会现场,新闻民工们玩命在搬运第一手的材料,拼的是敲键盘的速度。


俗话说“君子动口不动手”,对于文字工作者来说更是如此。譬如,刺猬君在写这篇文章时文思泉涌,千言万语都堆到嘴边了,最终还是得用键盘敲到屏幕上。


有什么办法能不动手呢?答案是语音输入。


虽说现在市面上是个输入法就有麦克风图标,一号站平台,但能一字不落听懂人话的语音输入法并不多见。如果遇到刺猬君这样带点南方口音的人,这些语音输入法呈现出来的文字简直是对我的羞辱。




科大讯飞:你的普通话再“塑料”,我也能听懂




6月12日,在科大讯飞媒体见面会上,刺猬君见证了最听话的语音输入法。讲台上,“讯飞输入法之父”翟吉博手持麦克风口若悬河,“讯飞输入法到今天已经达到了6亿用户!”一旁的大屏幕上立刻出现了这句话。翟吉博越说越兴奋,几分钟之后,一篇演讲稿就呈现在了大屏幕上,有了它,似乎人人都可以出口成章。




科大讯飞:你的普通话再“塑料”,我也能听懂



翟吉博


值得一提的是,在翟吉博演讲过程中,讯飞语音输入法不仅能够识别诸如“嗯、啊、哦”之类的语气词,并将其省略,还能智能断句,为文字配上恰当的标点符号。


事后,工作人员只需对文章稍加调整,即可发布,这不愧是一项让速记师下岗的工具,媒体老师再也不用在活动结束后催讨速记稿了。不信,您看台下各家媒体都在认真听讲,没有噼里啪啦的键盘声,现场一片宁静祥和。


科大讯飞:你的普通话再“塑料”,我也能听懂

台下的媒体


然而解放人们双手的讯飞输入法并不是近几年才出现的黑科技,它于2010年10月28日面世,那时的名字还叫“讯飞语音输入法”。讯飞输入法诞生之初,便确定以语音为核心,可以说是业界第一个吃螃蟹的。这么多年过去,语音输入已经成了各家输入法的标配,但说到语音识别效果哪家强,还属讯飞这块老姜辣。


虽说已经在语音输入深耕多年,但讯飞输入法一直相当低调,真正让它声名鹊起的还是罗永浩。谁也想不到, 2016年的锤子M1手机发布会上,老罗竟会介绍起一款全平台公用的APP来。




科大讯飞:你的普通话再“塑料”,我也能听懂



老罗安利讯飞输入法


不得不说,酒香也怕巷子深。老罗在现场用很快的语速随口说了一段内容,讯飞输入法瞬间“打”出文字,识别结果一字不差,惊艳全场。


发布会后,锤子新机没见激起多少水花,这款老罗推崇备至的讯飞输入法却意外地火了。随后的几天,这款输入法甚至成功登顶了App Store 免费榜。




科大讯飞:你的普通话再“塑料”,我也能听懂




在锤子发布会上,老罗身后的PPT显示,讯飞输入法的通用语音识别率为97%,如今这一数字变成了98%。2年时间,别看只有1个百分点的变化,背后攻克的技术难关数不胜数。翟吉博表示,“识别准确率的提升主要有三个难点,一是使用场景多样化、二是用户习惯、三是中国汉字和文化的特殊性。”


让我们来看看,讯飞输入法是如何将它们各个击破的。


首先是使用场景,人们不可能总是在安静环境中使用输入法,如果身处闹市,则需要更精准地语音识别。要想实现“闹中取静”,离不开数据和算法。讯飞输入法从人脑神经科学入手对人类记忆进行仿生,独家研发了一套语音识别框架,相比传统语音输入,能有效降低信息损失,在嘈杂的马路边它也能准确识别你在说什么。


其次是用户习惯,由于每个人从事的职业不同、文化背景不同,说话方式、使用的词汇也千差万别。讯飞输入法针对用户习惯和个性化,推出了个性化的训练模型,最直观的莫过于中英文混合输入。比如刺猬君尝试说了这样一句话,“Hello,请你帮我转告Jack,我later要去参加一个group meeting。”最终整个语句一字不落地显示在了手机屏幕上。




科大讯飞:你的普通话再“塑料”,我也能听懂