自动口语评测和相关技术概述

——国家级人才计划专家 清华长三角研究院兼职研究员 朱奇峰博士

听说是外语学习的基础,也是外语运用能力的基础。因为评测条件限制,很多地方听说考试开展的不够。因此带来听说教学的不足。听说不过关,哑巴英语,带来外语学习整体事倍功半,读写能力下降,对外语的兴趣,情感等方面都大大下降。
为改进外语教学的困境,一方面,需要从理解听说教学对外语整体教学的促进作用的角度加强听说,另一方面,加强听说考试,对促进听说教学也有重要帮助。
口语考试,因为阅卷主观性大,标准不统一,阅卷人力成本巨大,一直是一个障碍。听力考试,也有一定的条件限制。使用技术手段解决听说考试有重要意义。
本文着重探讨一下口语考试,以及技术在这方面的进展情况。


口语考试自动评分的技术分析

目前综合听说考试,一般采用1. 模仿朗读。 2. 角色扮演和问答, 3,故事复述等几种形式结合。其中1,考的是语音模仿能力。 2和3考的是语言组织能力, 和语义表达的清晰及有效沟通能力。


模仿朗读和发音评价

外语说的地道清晰,这是语言能力给人的第一印象。发音评价分为非模仿的发音评价,和模仿发音评价,技术已发展了几代。最早是斯坦福研究所(SRI) 92年发明的统计方法,几个发明人我在硅谷的时候都认识,过去曾在一个办公室工作交流过。这种传统技术是采用统计模型(科大讯飞,思必驰,思昂)。最新的是04年开始的感知心理学语音比对技术(清睿口语100),专门评价模仿跟读的近似程度。


目前听说考试,其中1的模仿朗读,目前清睿口语100的技术是成熟的,已经在很多学校的口语比赛自动评价中开展使用,并得到中国教育学会外语教学专业委员会鉴定和推荐。 它独有的音节层次发音纠正技术是目前全世界独特的。同时平均语音,语调,节奏,和重音,以及完整度给出整体打分。在模仿朗读的评价上,是目前准确的方法。 在使用的学校里,每天都在进行评分,排名,普遍受到学生的认可。
深入理解模仿朗读的发音打分,需要理解:语音打分的依据是什么?模仿得像不像?能让人听懂?语音其实包括的大量非语言信息—包括性别,身材,情绪等因素。这些因素不应该影响打分。在听懂上,标准也比较负责:比如一个印度人说英语,让很多中国人觉得难以听懂,但美国人却容易听懂,这涉及到背景知识和系统错误(方言)还是非系统错误(错误发音)。口语100对评分给出了一个形象的视频解释:哪些情况下,应该是100分,哪些情况下会被扣分。http://www.tudou.com/programs/view/JWuSW1DIb8k
技术理论上,传统的统计模型,从理论本质上无法对“模仿”评分,而只能相对一个统计模型(千百人的发音)去做基于概率的评价。 这些技术来自传统的语音识别技术。本质上,一个好的语音识别系统的核心是“容错”,也就是说:越好的语音识别系统,应该是外语说的再烂它也能听懂。而这在本质上越不适合做发音评价。 这类模型,一个最大的可以看到的弊端就是: 拿标准发音直接录音后播放,很可能都无法得到满分。因为这种系统本质上没有“标准发音“的概念,只有统计分布,而这种统计的样板不一定和标准声音一致。
清睿口语100的核心技术,本质上采用了全新的感知心理声学对比技术,把学生的朗读声音和标准发音进行实质性的对比。其中,根据感知心理声学,把和语音核心无关信息(性别,年龄,身材,发音器官的大小,情绪等)带来的差异去除,抽取语音的核心部分直接和标准朗读进行比较,并计算感知差异。所以,从技术本质上看,后者才是真正的“模仿朗读的对比”和“挑错”系统。它和以“容错”为目的的语音识别技术是相反的。因此适合做模仿朗读的发音评测的技术,前者实质上的容错系统,用于发音评测是有偏差的。
从实践上看,清睿口语100技术是唯一目前在学校普遍采用,每天都在公开的进行课文朗读的评测,排名,互相PK比较,受到学生的公开监督和好评。 而目前还没有系统经受过这种公开的,学生对互相的成绩排名都能了知和评价的测试,更别说通过测试和被学生普遍接受。 因此,清睿口语100技术是一项成熟的发音评价系统。
更直接地说,如果拿模仿的标准音作为输入,清睿技术可以保证评分是100分,而其他统计系统,是无法保证这点的。 这是根本差别。
清睿是目前唯一能在音节层次给出准确纠正的系统,全文评价是基于每个音节评价的综合。颗粒度越小,难度就越大。在细颗粒度上越准确,整体评价就越准确。
从技术理论的本质,从实践检验程度, 从准确度的其他因素看,清睿口语100的发音评价技术,可以是听说考试的模仿跟读部分的首选技术。


语言和语义评测

目前很多机构和公司在尝试进行语义评测。这些工作,在全世界最领先的美国DARPA组织的GALES PROJECT在做深入研究,它的核心是自动监听各国的通信和新闻,并自动做成摘要(也就是给棱镜项目用)。这个技术目前还处于探索阶段,距离实用还有距离。虽然有的探索在初步试用,但目前也没看到世界上有自动评测的成功使用。
语义评测这个工作技术上需要包括2部分:1)语音转换为文本(语音识别)2)对文本进行语言和语义的评价,并最终给出成绩。
首先,语音识别,尤其是中国学生糟糕英语(哪怕他在努力的正确地说)的语音识别,目前准确率很低。目前世界上好的语音识别系统,对美国播音员水平的英语,识别率是98%,对美国普通人日常英语,识别率是93%, 对中国学生良好的英语,识别率在80%-85% (在学生正确说的情况下)。如果学生还有语法错误,识别率会更低,可以到50%。 无法正确听清学生在说什么的情况下,后面的语言语义评价就完全无从谈起。
基于可能包含很多识别错误的文本,进行语言语义评价,问题会非常多。目前常见的,基本就是“核心词”检测。一个学生只要把几个核心词说了,比如核心词是Apple, 他说的是I like apple, I hate apple, I eat apple, I buy apple , I buy no apple,就都算对。 所以这类评价,虽然在某些条件下貌似可以,但其实会漏洞百出。贸然推进,会带来很多不良反响。 目前,清睿对于语义和语言运用评价上,一方面通过技术让老师评价更方便 (在线打分系统),另一方面,提倡同学之间的peer review(互相评价),能更准确的对语言运用做出更好的评价。
美国大学学校曾经对写作(不包含语音识别错误的文本)自动评分做过研究。 研究表明,目前没有成熟的方案。 对包含语音识别错误的文本的评价,更是认为完全不成熟。 目前一些机构号称能做到的,大多数是噱头。 清睿在这方面也投入了大量的研发,也关注行业技术的最新发展,但本着对学生负责的态度,我们认为还不能推向市场。


关于自动评测方法的评测

评测什么(目标),测的有多准确(过程),是自动评测的两个重要问题。
中国目前权威学术机构,对智能自动评测的方法论,和规范化对比,总体来说是非常不够的。本文只是提出这方面的一些问题。
国外学术研究,对于智能评分的评测方法,一般是和真人老师的打分计算相关度。哪怕是2个真人老师,在主观题的打分上,也会不同。一般相关度在0.8左右。计算机评测,如果和真人老师的打分,相关度在0.75以上,就算不错的系统。这种评价方法,一个问题是:用统计遮盖了某个个体打分可以差别非常大的情况。再加上数据造假(有的机构宣传机器评分和真人评分相关度0.99—这是完全不可能的,双胞胎老师都不可能),让人真假难分。
我们提出一个方法,好的评测系统必须通过一些附加的硬性的基本测试:1. 标准发音一定要100分. 2. 男女,身高等因素对打分的影响要在3分以内。3. 具备较强的抗噪音能力。
另一个方面,清睿口语100从草根先用起来,在学校,年级,班级里的各种活动的评测中先用起来,接受实践的检验,成为事实的标准,是我们不断优化我们的评测方法的重要做法。从下而上,逐步改变中国口语自动评测的诸多问题。
关于口语100 | 青少年安全上网 | 免责声明 | 相关新闻 | 听说秘籍 | 联系我们 | 其他手机产品 | 虚拟校园

Copyright © 2011 my.kouyu100.com All Rights Reserved. 版权所有