体感,脑波,语音控制——CSDN的人机交互沙龙

2011-07-25 19:59:48

CSDN发了封邮件通知一个免费会议,周末,在计算所,就参加了。 请了微软的某高工讲Kinect应用,神念科技总裁讲他们的脑波控制产品,和科大讯飞的副总讲语音技术。

Kinect

Kinect是2010年11月上市的XBox 360体感外设,就像Wii的体感外设,只是不用手拿任何设备就可以进行动作捕捉,加上语音识别等,想象可以做出很多不错的应用。

Kinect设备上有普通摄像头1个,红外摄像头2个,有马达调整角度,和声源采集设备等。

2个人站左右两边,Kinect可以进行每人近正面的20节点捕捉,据说可以提升性能后达到手指的可控。

其SDK,当前非商业授权。

通过AC Adapter(在taobao上卖70元人民币),Kinect可在PC上使用。

演讲者对照代码讲了Kinect的SDK,Toolkit等,工具看起来很好用。

对于Kinect来说,像游戏方面的虚拟试衣间、人体超级玛丽、光剑,和医疗方面等等可以想到很多有意思和有用的应用。但限于动作捕捉不是很严格领域。

脑波技术

——带上特制“耳机”,用意念玩游戏!

脑电,其实不算陌生,人有眼电,心电,肌肉电等等,在医疗中脑电波是比较常用的。

演讲者叫几个参会人员协助演示了他们的产品Demo,带上“耳机”,集中精力,可以通过“意念”让小球飘起来,让球进球门等等。

这个“耳机”上有探点,有参考电极,是个脑波采集设备,可以识别人脑电波。技术难点在于人脑电波是微幅级,比心电低1000倍,所以需要很好的降噪等识别技术。不用担心“耳机”是read only设备,人脑不会受影响。

脑波技术可以在教育、健康、游戏等很多方面应用,比如,人有深睡浅睡的睡眠周期,2个睡眠周期最好,可以通过这小小“耳机”判断人的睡眠,帮助在2个睡眠周期之后唤醒,也可以做个辅助检查;对于帮助训练儿童的专注,特别是治疗小儿多动症,已经在国外大学和研究所等开展研究和取得了证实;游戏方面,“芭比娃娃”公司已经运用这项技术做了球场游戏机,意念控制球停在哪里;日本有个“猫耳朵”的视频,美女带上一对“猫耳朵”,看到美食和帅哥,“猫耳朵”就会竖起来;还可以做运动游戏相关应用,比如射击等来训练动员……

神念科技的这个“耳机”卖人民币1000多元。

演示中,通过程序界面还看到了演示者不同脑电波的即时波形图,看来演示游戏的原理是根据采集的不同脑电波数值计算得到一些简单的如“专注度”、“喜悦度”等等。

当然,这个人脑数据采集以及计算的是人的思维状态,不是思维内容。但如果想知道“人在具体想什么”,就是所谓“读脑”,演讲者笑着说“这是今后的一个发展方向”……:)

语音技术

科大讯飞的中文语音技术在国内是领先的。

演讲者展示了他们的讯飞语音输入法(Android版本),现场中文语音识别准确率很高,让在场人一阵惊讶。 (在iPhone中叫“口讯”可以查查看)

还展示了他们做了10来年的语音合成的几个版本变化,确实可以看出一步步的提高,而现在合成类似电台播音效果的语音比较像真实的了。

讯飞的语音合成和语音识别的后端都是通过“云架构”方式在后台服务器上运行,语音训练样本很大,甚至可以做到随时添加新语音样本,语音处理上下文在前后6个字。包括简单的中英文混合都可以识别(经确认,他们并没有英文的语料库,而是将简单的英文关键字在前端处理了)。

据演讲者说,讯飞开放了他们语音相关的免费开发包和程序接口(dev.voicecloud.cn),对于想用他们语音包开发的工程师来说,申请和初期软件开发是免费的,如果应用做得比较大了,讯飞会找来谈合作分成等形式的收费。这个对于程序员来说确实不错(当然,这个语音包里面会在合成语音中间插播他们的广告:“科大讯飞语音合成”等等……需要忍耐,呵呵)。

语音应用很广泛,比如语音识别,有搜索、听写、唱歌评分、个性化模型——语音通行证等等(其实,Google的英文语音搜索已经做得比较好了,只是没有好的中文版本)。他们已经在中国移动上线了一款产品——唱几句歌词,搜歌曲名。对于语音合成,同样很多方面的应用。

总结:

不同于PC时代,那时候是“人适应技术”,而现在是“技术适应人”(演讲者推荐了《互联网5000天》这篇文章有空可以看看)。

会议总的来说很好,内容比较丰富,有些很实用,有些很有启发。只可惜原先预计可以送个包的,后来送的是2个记事本和1本《程序员》,不过也还好了,呵呵。

only
manes

© onlymanes