0017 两个麻烦事(2/2)
还好表嫂知道张杰不敢做坏事,否则绝对葡萄架要倒。
“表弟啊,再救哥哥一次。”张杰越来越发现表弟是个观音化身,有求必应。
“又……是什么问题啦,家里还好吗?”
“呸,家里好着呢。赶紧给我推荐几个同声翻译的软件吧,我扛不住了,一堆世界各地的老外,什么口音都有。有个印度客户,客服问他叫什么,他说他叫‘秃驴’,我勒个去,后来一想应该是叫‘terry’。这是什么个口音。”
“哥啊,这个我可搞不定。国内有能耐的就是两家比较厉害的,但是还是一堆的问题。遇到一些口音问题就搞不定。奴歌的我们又上不去,不说也罢。你要么去招几个外国留学生回来兼职,要么给那两家公司打电话问问。”
“好吧,我打过去问问。”张杰挂掉了电话,在网上找了两家公司的400电话,拨了过去。
“3342号话务员为您服务,有什么可以帮助您的。”
“我想问一下,你们的同声翻译的软件能不能做到正确识别印度印度,或者非英语国家的带着严重口音的英语?”
话务员愣了一下,这个问题好难的样子。“先生,我们的软件是基于大数据分析平台的,有足够多的语音样本,你们可以试用一下,我想应该可以解决你们的问题。”
“好吧,”张杰也听出来了,他们的客服也很为难的样子。
张杰挂掉电话后,在两家的网站上下载了软件,然后又从自己的呼叫中心的录音服务器上抽取了几个老外打来的电话录音。
打开软件后,开始播放录音。识别出来的效果是一塌糊涂,就连设置好指定的印度英语后,识别率都不到80%,更何况还有很多的口音是不支持的。
“不行啊,表弟,这个几个翻译软件一点用也没有。不是号称大数据吗?怎么识别率那么低?”
“原因很简单,小语种用的人少,卖不了钱,怎么会花心思去做呢。这个东西说简单也简单,说难也难。实际上辨别标准美语还是其他小语种,对于电脑来说都是把语音做音频切片,然后和已有的语音库做比对。懂了吗?”
“差不多懂了,就是说,只有花了时间去做出来一个语音库,就算是几十个人用的小语种也可以被识别出来。”
“您太聪明了,但是谁会去花钱做这种事情呢?完全是吃力不讨好的,你要搜集足够多的语音样本,还需要做人工切片,再让软件进行学习,因为不可能所有的人对同一个单词的发音是一样的。只有样本一多,大数据分析平台就可以用近似逼近的算法去匹配,所以我们也经常发现语音识别会跑出来很多同音字。”
“那不是无解了?”
“那倒未必,我找个高人问问看啊。”周磊说道。
“行,你先问,有结果了告诉我。这个事情太让我头痛了,不说了,客服的人又来告状了。”
周磊打开笔记本,远程登录上了电信园区的服务器集群,做了一个日常的巡检。他不放心让自己的小网管在上面操作,怕搞出问题就麻烦了。
新机器运行的都比较稳定,只是运行过程中坏了几块硬盘,就叫负责售后的集成商去换掉了。
每次看美剧还是网文,发现那些高科技公司或者it系统是永远不会坏硬件的。这么搞法,你让卖硬件的准备去死吗?周磊关掉手机上的点娘app,上面有自己一直追看的几本漏洞百出的高科技文,一边吐槽着。
系统一直很稳定的运行,存储空间也在不断的增长,估计是用了裸设备的存储方式,在系统里尝试输入一些linux命令都找不到mount点。
只是偶尔的一次,看到在编号第一台的服务器上,有一个output目录。里面是一些文件,但文件名都是一些乱码,下载下来后也打不开。
周磊退出了系统,打开了自己的聊天软件。
“请教大佬一个问题,有没有办法给同声翻译软件增加小语种的功能?”
请访问最新地址www.83kk.net