微软“爱写作”公众号上线:英文写作的AI私教

2020-04-16 | 作者:微软亚洲研究院

“听说读写”是英语学习的四大核心要素, 而“写”可谓是英语学习中最考验学习者综合语言运用能力的一项。对很多学生来说,除了写作技巧,行文中的语法问题常常不自知,更不要提灵活使用“高级”词汇和句式了。很多时候学生们即使想多做练习,却奈何没有一个随时随地可以帮忙指导、批改的专业人士,而私教则需要支付昂贵的费用。对英语老师来说,日常工作中最大的工作量就是批改作文,每篇文章即使逐字阅读、改错和点评,也很难做到一对一的详细指导。尤其在网上提交作业时,学生们五花八门的手写文章照片,更是加重了老师们的工作量…

由微软亚洲研究院开发的个性化英语学习助手微软小英,致力于用 AI 技术帮助用户解决“听”和“说”的难题。对于“写”的问题,微软亚洲研究院在2018年将“作文打分”功能嵌入了微软小英,并在去年年底对该功能全面升级,推出了微软“爱写作”网页版。

近日,微软“爱写作”公众号正式上线,基于微软亚洲研究院在自然语言处理、OCR(光学字符识别)等领域的多项最新研究成果,以及微软小英多年的技术积累,“爱写作”打造了四大亮点:语法检查、词语替换、分类作文打分和手写图片识别,不仅是学生学习的好帮手,也是老师的“智能助教”。它可根据不同年级的作文标准,从语法到用词、文章结构,全面且便捷地帮助小初高学生、成人培训学习者,以及四六级、雅思、托福、考研的备考者提升英文写作水平。

关注“爱写作”公众号(微信号:aimwriting)或者扫描文章下方二维码,添加微软“爱写作”公众号。“爱写作”网页版也同步升级各项功能。

网址:https://aka.ms/zuowen

语法检查:知其然,知其所以然

语法检查是作文批改中最基本的核心功能。在日常学习中,不少学生经常面对艰深的语法难题堕云雾中。对此,“爱写作”在快速完成全文语法检查的同时,会将提交作文中的语法问题用红色下划线标记出来。学生只需点击红线,就能获得有针对性的语法讲解,并且还可以看到修改后的正确表达,作为参考,让学生们不仅知错就改,而且知道如何去改。

尽管语法检查是一项基本功能,但其背后的技术支撑却并不简单。“爱写作”的语法检查功能采用了微软亚洲研究院此前提出的全新的学习和推断机制Fluency Boost Learning and Inference(流畅度提升学习与推断),帮助用户“找茬”。通过 Fluency Boost Learning(流畅度提升学习)生成的大量纠错数据,结合 seq2seq 预训练技术(相关论文:https://arxiv.org/abs/1909.06002),“爱写作”的语法纠错模型在 CoNLL-2014 和 JFLEG 两个权威语法纠错数据集上都率先超越了人类参考水平,并且持续保持着业界领先的技术水准。

词语替换:“高级”词汇信手拈来

有过英语学习经验的人大概都有过这样的体会,老师经常会说“还有没有更高级的词可以用在这里?” “什么词更高级?”确实,在英文写作中替换一个单词或短语,可以马上起到点睛的作用。然而在初学时,很多学生背了不少单词,却仍然不能根据不同语境灵活使用“高级”的词汇。

针对这一问题,“爱写作”的词语替换功能可以根据上下文筛选出多个高级词汇供用户选择使用。针对某个特定的词或短语,“爱写作”可以自动关联三个同义词作为备选,让用户不再只会用“good”、“nice”这样的简单词汇,而是能够看到更多的如“impressive”、“admirable”这样更复杂的词汇,来进行替换。

在词语替换功能中,微软亚洲研究院的研发人员提出了基于预训练语言模型的词替换方法(相关论文:https://www.aclweb.org/anthology/P19-1328.pdf),并结合微软原创的预训练语言模型——UniLM(https://github.com/microsoft/unilm)作为词替换的解决方案。该方法通过半遮盖(partial masking)等策略让预训练语言模型能够同时考虑原目标词词义以及上下文语境,从而选出合适的替换词。

分类作文打分:个性化评分,覆盖8大考试类型

作文打分是很多学生都十分关心的环节,分数固然重要,但分数背后的信息更重要。基于此前微软小英“作文打分”功能和“爱写作”网页版积累的丰富经验,升级后的“爱写作”作文打分功能更加强大,不仅可以对所有文章进行一般性评分,还可以测试同一篇作文在不同考试类型中的得分状况。因为不同的考试在词汇、语法、文章结构、连贯性、切题程度等维度上对作文有不同的考量标准,所以“爱写作”在给出分数的同时,还可以有针对性地评价一篇作文在上述这些维度上的表现,并给出反馈建议,以便学生更好地进行自我提升。目前,“爱写作”支持小学、中考、高考、四级、六级、考研、托福、雅思共八大英语考试类型。

其实,作文打分本是一种主观行为,要转化为机器打分,则需要大量有标注的数据才能准确打分,而且还需要将作文精确对应到10分还是20分,亦或是15分。“爱写作”使用了微软亚洲研究院研发的序数回归模型(Ordinal Regression),大大减少了对标注数据量的依赖。该技术把“文章与具体分数的匹配”问题,变成了一个有序的比较大小的问题,在训练过程中,将已有的标注数据两两配对进行对比,进而形成新的文章与评分,再将此数据加入到标注数据集中,使得可用于训练的标注数据量呈指数级增加,从而整体提高了评分的准确性。

作文打分的方向和维度

手写图片识别:分分钟将手写文章转化成电子文档

不少学生在日常的英文写作练习和学习中,都会将作文写在作业本、卷子、练习册上。那么如何让 AI 批改这些手写的作文呢?

这也难不倒“爱写作”。只需用手机给作文拍照并上传,“爱写作”就能分分钟将其转换成可用智能终端进行编辑的文字,语法检查、作文打分、词语替换等等作文批改功能全部轻松实现。而且,老师们也可以借助此功能,轻松识别学生们各不相同的手写字体,方便完成作文批改工作。

微软亚洲研究院研发的微软新一代 OCR 引擎为“爱写作”中的手写识别功能提供了强大的技术支撑。微软新一代 OCR 引擎像“鹰眼”一样,可以有效地检测出图像中的各类文字,还可以同时支持打印体和手写体的复杂文字场景识别。

除了上述四大亮点,“爱写作”还支持中英文双向的查词功能和逻辑连接词的查找功能,用户再也不需要退出应用到专门的词典里进行查询了,使用更加简便、高效。

他山之石可以攻玉:形成研发闭环

在“爱写作”开发期间,微软亚洲研究院的研发人员在与老师、学生、教育机构等用户和合作伙伴的互动过程中获得了相当多的灵感。所谓他山之石可以攻玉,用户一个小小的需求就可以给研发人员带来无限灵感。而这样的互动与反馈也同样体现在产品开发与科研工作之间。关于序数回归模型的学术论文(论文地址:https://ieeexplore.ieee.org/abstract/document/8682187),就是因为近距离地感知到了用户的需求和痛点,基于在微软小英产品开发过程中遇到的问题所撰写而成的,现在该技术又应用到了“爱写作”中,形成了技术应用与科学研究相互促进的完美闭环。这不仅让“爱写作”这样的产品始终能够采用最新的 AI 技术,也让研究更加贴近用户。

未来,语法自动检查及纠正这一自然语言处理领域的经典任务将在英语写作之外的更多应用场景(如电子邮件、PPT 演示文稿、翻译文件等文档撰写)中大显身手,更智能地帮助人们在写作中规范语言使用,并与其他自然语言处理技术以及更多人工智能领域的技术一起为辅助人们进行内容创作带来更多便利。为了实现“爱写作”致力于帮助用户写出更好的英文文章的目标,微软亚洲研究院的研发人员也将在多个方向上进一步提升,把更多前沿的 AI 技术融入“爱写作”,为用户提供更加个性化、便捷的英文写作辅助服务。

欢迎大家关注“爱写作”公众号(微信号:aimwriting)或者扫描下方二维码,添加微软“爱写作”公众号。

标签