专家视角

自动口语评测和相关技术概述

——国家级人才计划专家清华长三角研究院兼职研究员朱奇峰博士

听说是外语学习的基础，也是外语运用能力的基础。因为评测条件限制，很多地方听说考试开展的不够。因此带来听说教学的不足。听说不过关，哑巴英语，带来外语学习整体事倍功半，读写能力下降，对外语的兴趣，情感等方面都大大下降。

为改进外语教学的困境，一方面，需要从理解听说教学对外语整体教学的促进作用的角度加强听说，另一方面，加强听说考试，对促进听说教学也有重要帮助。

口语考试，因为阅卷主观性大，标准不统一，阅卷人力成本巨大，一直是一个障碍。听力考试，也有一定的条件限制。使用技术手段解决听说考试有重要意义。

本文着重探讨一下口语考试，以及技术在这方面的进展情况。

口语考试自动评分的技术分析

目前综合听说考试，一般采用1. 模仿朗读。 2. 角色扮演和问答， 3，故事复述等几种形式结合。其中1，考的是语音模仿能力。 2和3考的是语言组织能力，和语义表达的清晰及有效沟通能力。

模仿朗读和发音评价

外语说的地道清晰，这是语言能力给人的第一印象。发音评价分为非模仿的发音评价，和模仿发音评价，技术已发展了几代。最早是斯坦福研究所(SRI) 92年发明的统计方法，几个发明人我在硅谷的时候都认识，过去曾在一个办公室工作交流过。这种传统技术是采用统计模型（科大讯飞，思必驰，思昂）。最新的是04年开始的感知心理学语音比对技术（清睿口语100），专门评价模仿跟读的近似程度。

目前听说考试，其中1的模仿朗读，目前清睿口语100的技术是成熟的，已经在很多学校的口语比赛自动评价中开展使用，并得到中国教育学会外语教学专业委员会鉴定和推荐。它独有的音节层次发音纠正技术是目前全世界独特的。同时平均语音，语调，节奏，和重音，以及完整度给出整体打分。在模仿朗读的评价上，是目前准确的方法。在使用的学校里，每天都在进行评分，排名，普遍受到学生的认可。

深入理解模仿朗读的发音打分，需要理解：语音打分的依据是什么？模仿得像不像？能让人听懂？语音其实包括的大量非语言信息—包括性别，身材，情绪等因素。这些因素不应该影响打分。在听懂上，标准也比较负责：比如一个印度人说英语，让很多中国人觉得难以听懂，但美国人却容易听懂，这涉及到背景知识和系统错误(方言)还是非系统错误（错误发音）。口语100对评分给出了一个形象的视频解释：哪些情况下，应该是100分，哪些情况下会被扣分。http://www.tudou.com/programs/view/JWuSW1DIb8k

在技术理论上，传统的统计模型，从理论本质上无法对“模仿”评分，而只能相对一个统计模型（千百人的发音）去做基于概率的评价。这些技术来自传统的语音识别技术。本质上，一个好的语音识别系统的核心是“容错”，也就是说：越好的语音识别系统，应该是外语说的再烂它也能听懂。而这在本质上越不适合做发音评价。这类模型，一个最大的可以看到的弊端就是: 拿标准发音直接录音后播放，很可能都无法得到满分。因为这种系统本质上没有“标准发音“的概念，只有统计分布，而这种统计的样板不一定和标准声音一致。

清睿口语100的核心技术，本质上采用了全新的感知心理声学对比技术，把学生的朗读声音和标准发音进行实质性的对比。其中，根据感知心理声学，把和语音核心无关信息（性别，年龄，身材，发音器官的大小，情绪等）带来的差异去除，抽取语音的核心部分直接和标准朗读进行比较，并计算感知差异。所以，从技术本质上看，后者才是真正的“模仿朗读的对比”和“挑错”系统。它和以“容错”为目的的语音识别技术是相反的。因此适合做模仿朗读的发音评测的技术，前者实质上的容错系统，用于发音评测是有偏差的。

从实践上看，清睿口语100技术是唯一目前在学校普遍采用，每天都在公开的进行课文朗读的评测，排名，互相PK比较，受到学生的公开监督和好评。而目前还没有系统经受过这种公开的，学生对互相的成绩排名都能了知和评价的测试，更别说通过测试和被学生普遍接受。因此，清睿口语100技术是一项成熟的发音评价系统。

更直接地说，如果拿模仿的标准音作为输入，清睿技术可以保证评分是100分，而其他统计系统，是无法保证这点的。这是根本差别。

清睿是目前唯一能在音节层次给出准确纠正的系统，全文评价是基于每个音节评价的综合。颗粒度越小，难度就越大。在细颗粒度上越准确，整体评价就越准确。

从技术理论的本质，从实践检验程度，从准确度的其他因素看，清睿口语100的发音评价技术，可以是听说考试的模仿跟读部分的首选技术。

语言和语义评测

目前很多机构和公司在尝试进行语义评测。这些工作，在全世界最领先的美国DARPA组织的GALES PROJECT在做深入研究,它的核心是自动监听各国的通信和新闻，并自动做成摘要（也就是给棱镜项目用）。这个技术目前还处于探索阶段，距离实用还有距离。虽然有的探索在初步试用，但目前也没看到世界上有自动评测的成功使用。

语义评测这个工作技术上需要包括2部分：1）语音转换为文本（语音识别）2）对文本进行语言和语义的评价，并最终给出成绩。

首先，语音识别，尤其是中国学生糟糕英语（哪怕他在努力的正确地说）的语音识别，目前准确率很低。目前世界上好的语音识别系统，对美国播音员水平的英语，识别率是98%，对美国普通人日常英语，识别率是93%，对中国学生良好的英语，识别率在80%-85% （在学生正确说的情况下）。如果学生还有语法错误，识别率会更低，可以到50%。无法正确听清学生在说什么的情况下，后面的语言语义评价就完全无从谈起。

基于可能包含很多识别错误的文本，进行语言语义评价，问题会非常多。目前常见的，基本就是“核心词”检测。一个学生只要把几个核心词说了，比如核心词是Apple, 他说的是I like apple, I hate apple, I eat apple, I buy apple , I buy no apple,就都算对。所以这类评价，虽然在某些条件下貌似可以，但其实会漏洞百出。贸然推进，会带来很多不良反响。目前，清睿对于语义和语言运用评价上，一方面通过技术让老师评价更方便（在线打分系统），另一方面，提倡同学之间的peer review（互相评价），能更准确的对语言运用做出更好的评价。

美国大学学校曾经对写作（不包含语音识别错误的文本）自动评分做过研究。研究表明，目前没有成熟的方案。对包含语音识别错误的文本的评价，更是认为完全不成熟。目前一些机构号称能做到的，大多数是噱头。清睿在这方面也投入了大量的研发，也关注行业技术的最新发展，但本着对学生负责的态度，我们认为还不能推向市场。

关于自动评测方法的评测

评测什么（目标），测的有多准确（过程），是自动评测的两个重要问题。

中国目前权威学术机构，对智能自动评测的方法论，和规范化对比，总体来说是非常不够的。本文只是提出这方面的一些问题。

国外学术研究，对于智能评分的评测方法，一般是和真人老师的打分计算相关度。哪怕是2个真人老师，在主观题的打分上，也会不同。一般相关度在0.8左右。计算机评测，如果和真人老师的打分，相关度在0.75以上，就算不错的系统。这种评价方法，一个问题是：用统计遮盖了某个个体打分可以差别非常大的情况。再加上数据造假（有的机构宣传机器评分和真人评分相关度0.99—这是完全不可能的,双胞胎老师都不可能），让人真假难分。

我们提出一个方法，好的评测系统必须通过一些附加的硬性的基本测试：1. 标准发音一定要100分. 2. 男女，身高等因素对打分的影响要在3分以内。3. 具备较强的抗噪音能力。

另一个方面，清睿口语100从草根先用起来，在学校，年级，班级里的各种活动的评测中先用起来，接受实践的检验，成为事实的标准，是我们不断优化我们的评测方法的重要做法。从下而上，逐步改变中国口语自动评测的诸多问题。