网站首页 新闻频道 政务频道 市州联播 行业频道 质量报告 消费维权
您当前位置:网站首页 > 质量报告 > 质量比对 > 正文
地方口音折磨语音输入

“纠正纠正……”前段时间,一款车载电话系统听不懂各种方言的视频疯传朋友圈。看车主怒火万丈痛斥智能女声,网友则笑破了肚皮。

其实,我们都遇到过这种情况,临时有一条很重要的消息需立马回,但打字又不方便,这个时候,手机有一款语音输入法就很给力了。那么,这些语音输入识别的正确率究竟如何呢?昨日,记者选择了搜狗输入法、百度输入法、讯飞输入法和i-Phone输入法,进行了评测对比,看看到底谁能听懂你的话。

A.

测试方法

方言古诗英文齐上阵

记者选取了6段语音,包括卷首语、方言、古诗文、快速绕口令和英文,看看这些输入法能否全部“听懂”并“写对”。

手机输入法:搜狗、百度、讯飞、iPhone

B.

测试过程

各地口音严拷输入法

节选自卷首语

《朗读者》卷首语:“朗读者就是朗读的人,在我看来可以分为两部分来理解,朗读是传播文字,而人则是展现生命,将值得尊重的生命和值得关注的文字完美结合就是我们的《朗读者》。你有多久没有朗读了?很久了吧。因为很多人都觉得,朗读那是学生时代的事情,或者说它只属于一小部分人。朗读属于每一个人。”

朗读者:普通话一级乙等

评测结果:讯飞完全听懂并写对了语音内容,但有两处断句没有标点,正确率达到98.47%;搜狗能够全部听懂语音,但有两处同音的错别字,一处标点使用错误,正确率达到97.7%;百度正确率只有96.18%,错别字和断句有好几处问题;iPhone错误率较高。

朗读者:自贡家乡话

评测结果:讯飞有四川话模式,正确率达到95.89%,只有个别字和标点符号错误;搜狗、百度的正确率有91.33%,错别字和断句有很大问题;iPhone错别字较多,断句和标点都没有。

朗读者:眉山家乡话

测评结果:讯飞在四川话模式下,正确率仍有93.65%,错别字较少;搜狗的正确率达85.49%,过于方言的音节无法识别,断句有两处错误,大部分字音还是能够听懂。

朗读者:宜宾家乡话

测评结果:百度正确率84.73%,错别字较多,无法识别的字没有显示出来;iPhone方言音节大多无法识别出来,并且始终没有断句和标点。

节选自古诗文

《琵琶行》:“忽闻水上琵琶声,主人忘归客不发。寻声暗问弹者谁?琵琶声停欲语迟。移船相近邀相见,添酒回灯重开宴。千呼万唤始出来,犹抱琵琶半遮面”。

朗读者:普通话一级乙等

评测结果:搜狗只有一个错别字,其他标点断句完全正确;讯飞和百度的正确率都达95%以上;i-Phone正确率仅73.19%,错别字较多,全篇没有一处有标点和断句。

节选自绕口令

绕口令平翘舌练习:

“紫瓷盘,盛鱼翅,一盘熟鱼翅,一盘生鱼翅。迟小池拿了一把瓷汤匙,要吃清蒸美鱼翅。一口鱼翅刚到嘴,鱼刺刺进齿缝里,疼得小池拍腿挠牙齿”。

朗读者:普通话一级乙等

评测结果:搜狗、百度正确率有75%左右,错别字较多;讯飞、iPhone字基本没写对,只听懂了个别。

节选自英文

《小王子》经典片段:“Ifsome-onelovesaflower,ofwhich justonesingleblossom growsinalthemilions andmilionsofstars,it isenoughtomakehim happyjusttolookatthe stars.Hecansaytohimself,‘Some-where,myfloweristhere…’Butifthesheepeatstheflower,inonemomentalhisstarswilbedarkened…Andyouthinkthatisnotimportant”。

朗读者:普通话一级乙等

评测结果:搜狗和讯飞都有英语模式,正确率达90.9%左右,仅个别单词错误;而百度和iPhone无法识别英文。

C.

使用总结

iPhone听不懂英文

搜狗

每次录入时长只有30秒,字句长的需要手动重启,不能和前文连接,破坏了语段的连贯性,但古文、英语的识别率比其他软件高。

讯飞

启动反应速度快,只要一按开始键,立刻开始录入。有英语模式,还有四川、南京、山西等方言的语音输入模式,正确率较高。但断句正确率较低。

百度

启动反应速度快,按键后就可以识别工作,没有时长限制。普通话识别率较好,但方言和英语方面较差。错别字和断句的准确率不高。

iPhone

没有断句功能,识别后的文字都是成篇在一起,中间没有任何标点。错别字较多,无法识别英文。

与机器进行语音交流,让机器明白你说什么,已经成为日常生活中不可或缺的部分,如手机输入法软件、汽车设备的语音控制、智能玩具、家电遥控等方面都有不同程度上的应用。

□消费质量报全媒体中心实习生杨巧记者张晶

【相关链接】

语音如何转化成文字?

有专家表示,语音识别系统实际上依据了两个模型,以声学模型为主,语言模型为辅。

当我们说话时,每个单字的发音都是由音素组成的。于是,科学家将汉语的发音分成36个元音和22个辅音,从而组成由58个音素组成的识别模型,专业上叫做隐马尔可夫模型。当语音识别系统工作时,会将每个单字分解成一个个音素,然后和这58个小单元进行比对,再组成一串由音素组成的字符串,最后根据模型翻译成一句话。

目前,各大公司开发的语音识别引擎基本都是基于隐马尔可夫模型进行研发的。只不过,有的在模型制作更加仔细。比如有的在方言、声调等方面考虑得更加全面。

[ 关键词:口音 语音 地方 ]

上一篇:98%护眼灯不靠谱 下一篇:最后一页

版权申明

凡本网注明来源:“消费质量报”、“消费质量网”及消费质量报官方微博、微信公众号等新媒体平台的所有作品,版权均属于消费质量报社(四川消费质量报传媒有限责任公司)所有,未经授权不得转载、链接、转帖或以其他方式发表。

对已刊载但未能联系上作者的署名文章,请作者见文后与本报联系,以便支付稿酬。

如本网转载稿涉及版权等问题,请作者在来电或来函与消费质量网联系,我们将及时处理解决。联系方式:lijiancd12@126.com