讯飞输入法从人脑神经科学入手对人类记忆进行仿生,实现大量无监督的数据去辅助有人工标注的数据。
受图像领域 CNN 应用的启发,科大讯飞研发了深度全序列卷积神经网络语音识别框架,使用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,降低了信息损失,表达了语音的长时相关性。
对于口音和方言识别的难题,讯飞输入法提出方言语音输入方案来解决。依托科大讯飞对 AI 技术及语言深度研究的积累,采用 Multi-lingual 多语言建模,通过多方言数据共享方式训练。
辅以 Global Phone全球音素集,从声学层面的相似性统一各方言的音素定义,对方言“语图谱”模型做进一步精进,从而有针对性地提升方言语种的识别能力。
科大讯飞将坚持在这种两条腿走路的模式,也将走得越来越深入。它的基础就在于,保持不断的在源头核心技术上的系统创新,不断地在人工智能以及其他更多新技术的方面取得突破,并且保持这方面的竞争力。
以上就是讯飞与MITCSAIL合作的相关内容。