世界语语音输入有望实现 Realiĝos Entajpi Esperanton per Voĉo

作者 aŭtoro | 2021.07.18

电脑(包括手机)的中文录入,已经从拼音、笔画发展到了语音输入。对着麦克风说话,你说的内容就变成文字出现在屏幕上,识别率现在已经接近100%。使用即时通讯工具聊天交流时,虽然几乎所有的软件都已经支持直接发送语音,但语音发送方便,收听麻烦。有人认为用微信发语音信息是不礼貌且情商低的表现,所以最好把语音转化成文字再发送。

中国人之间微信、QQ交流时,使用中文输入法的语音转文字功能,方便高效,但和外国世界语者聊天,因为没有世界语的语音到文字的转换软件,还得一个词一个词地输入,即累手又费眼。在绿网世界语QQ聊天室,不止一位世界语询问过世界语语音输入的事情。

世界语文字到语音的转化,现在已经实现。在 https://parol.martinrue.com 这个页面就可以朗读你输入的世界语文字。虽然听上去有机械味,但发音很标准。

世界语语音到文字的转化技术,目前还没有实现。但得益于技术的发展和开源软件的应用,世界语语音文字转换有望实现。现在机会已经出现在眼前,什么时候实现,取决于各国世界语者的参与和共同努力。

要想让计算机准确识别语音,需要建立语音数据库,录入大量的文字语音对照资料,供计算机训练学习使用。世界语这种小语种的社区,没有力量和技术能力做这个工作,商业公司也不愿意做这种高投入、低产出的事情。技术的发展和开源软件的应用,给解决这个问题带来了希望。

推出开源的 Firefox 火狐浏览器的 Mozilla 基金会又推出了一项开源计划,Mozilla Common Voice (Komuna Voĉo 共同语音)。这是个大家参与训练机器学习语音识别的计划。目前该计划已经上线包括世界语在内的57种语言。参与者不要求必须注册,每次只要朗读5个句子,或者帮着识别5个句子的准确性,就可以逐步提高语音识别的质量。世界语语音训练完成后,利用此技术就可以实现世界语语音到文字的转换了。不但可以用于聊天交流,还可以给视频加字幕。

愿意参与此项计划的中国世界语者,可以先打开该计划的中文网站,https://commonvoice.mozilla.org/zh-CN,熟悉一下操作,顺便也为汉语开源语音库的建设出把力。等熟悉操作后,转到计划的世界语网站,https://commonvoice.mozilla.org/eo,朗读或者验证世界语的句子。

朗读录制句子时,如果时间过长,系统会提示超时。可以先大声朗读几遍,等读熟了,再点击下面的红色麦克风图标,麦克风变成红色方块,就可以开始录制。朗读完一个句子,点击一下红色方块,会跳出下一个句子。

5个句子朗读完,会跳出一个页面,问你是否需要修改和重新录制。点击序号后面的三角可以重听你的朗读,点击后退的箭头标识可以重新朗读,如果没有什么问题了,就可以点击下面的 SENDI 按钮提交录音了。

如果现在担心自己发音不标准,不愿意朗读录制,那也可以帮助系统验证其他贡献者提交的录音,点击页面上的 Aŭskulti 即可开始验证。点击下面的三角播放键收听,如果你觉得朗读的没有问题,点击JES,如果觉得朗读的不正确,就点击 NE。

我的发音也不标准,但我还是参加了朗读录制工作。因为这个计划要让计算机学习适应各种各样的发音方式。虽然并不存在世界语方言,但各国世界语者发音难免会存在一些差异。譬如,一些法国、比利时成年世界语者发不出世界语的颤音 R,就用法语的小舌颤音代替,一些中国世界语者分不清三组清浊音,虽然实践中也不影响交流。如果现在这两个国家的世界语积极参与此项工作,大量提供语音资料,这个系统以后就会识别这部分世界语者不太标准的发音了。

Common Voice 项目中文网站

La projekto Common Voice por Esperanto

阅读次数 979 legintoj

发表评论 Respondi

电子邮件地址不会被公开。 Retpoŝta adreso ne estos publikigita.