掌上电脑语音识别SDK(WIN CE)

2009-03-31 点击数：2706

一、项目介绍

语音识别技术在移动设备上的应用，除手机早有语音拨号等应用外，明年在PDA、掌上电脑等手持产品上，也将应用语音识别技术。中科院自动化所模式识别实验室从80年代就开始了语音识别技术及中文信息处理方面的研究工作，经过数代人的努力，中文语音识别技术逐渐成熟，所开发的语音识别引擎不管在识别率还是鲁棒性上，同国外的一些大公司相比，都丝毫不逊色,并取得了多项专利技术。为顺应市场的潮流和推动语音识别技术的产业化，实验室专门针对掌上电脑，开发了一套基于连续语音识别技术的可变词汇、非特定人、命令词语音识别引擎。该引擎在中等词汇量（不超过500词）的情况下，识别率可达90%以上；运行时占用内存不超过850K；在COMPAQ的Ipaq掌上电脑上，可完全满足实时性要求。

PDA作为一种便于携带的信息处理工具，市场前景广阔，许多商家都将目光投向面向掌上电脑的软硬件开发。但是，PDA的便携性是以牺牲系统性能和可操作性为代价的。所以PDA应用软件的开发，必须针对PDA自身的特点来设计。除了无线通讯功能外，目前PDA应用迫切需要解决的一个问题是，如何为PDA提供一个方便实用的交互界面。语音交互技术无疑是解决这个问题的首选方式之一；特别是随着今年来语音识别技术的发展和成熟，有必要、也完全有可能为掌上电脑的语音人机交互界面的开发提供一套完整的开发工具。正是在这样一个背景下，我们在COMPAQ的Ipaq 掌上电脑上开发了一套掌上电脑人机交互界面的底层识别引擎。

众所周知，PDA相对于一般的台式电脑和手提式电脑而言，内存小、速度慢、浮点运算能力差（现在底端机型一般为80MHz,内置存储器为2-8M Bytes，机型也仅206MHz,内置存储器32M Bytes）,并且其内置的录音装置信噪比低。由于掌上电脑本身的这些特点、或者说局限性，使得掌上电脑人机语音交互系统具有如下的特点：

1. 以较小的识别率降低为代价,换取足够小的内存消耗（<1M）。

2. 采用定点运算和近似运算，加快运算速度。

当然，这两者都是以牺牲识别率为代价的，但测试结果表明，在用户发音较清晰、环境噪声较小（SNR不大于15db）的情况下，系统具有较高的识别率和小于1.6秒延时。

目前，我们的系统正在进行进一步的优化，软件运行时的RAM 需求将降到600kByte 以下，识别反应时间压缩到1秒左右。

技术特点：

1．支持话者无关功能；

2．支持话者相关功能；

3．能够支持2000-5000 词的孤立词识别；

4．具有极高的识别率，平均识别率超过95%；

5．动态词表切换功能，多个应用词表，动态实现切换；

6．支持分布式语音识别；

噪音处理功能，即使在嘈杂的环境中使用，也能够达到良好的效果；

二、合作方式

面议。