平泉生活网 网站大牛证券官网 凤竹纺织 列表 凤竹纺织 内容

中文分词最佳记载刷新了,两大模子分别解决中文分词及词性标注问题丨已开源

2020-08-12| 发布者: 平泉生活网| 查看: 144| 评论: 3|来源:互联网

摘要: 原标题:中文分词最佳记载刷新了,两大模子分别解决中文分词及词性标注问题丨已开源来源:量子位存眷前沿科...
 

原标题:中文分词最佳记载刷新了,两大模子分别解决中文分词及词性标注问题丨已开源 来源:量子位

存眷前沿科技 伊瓢 发自 中关村量子位 报道 | 公众号 QbitAI

伊瓢 发自 中关村

配操盘量子位 报道 | 公众号 QbitAI

配操盘中文分词的最佳效果又被刷新了。

配操盘在本年的ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文中的模子,刷新了这一领域的成绩。

WMSeg,在MSR、PKU、AS、CityU、CTB6这5个数据集上的体现,均达了最好的成绩。

另外,在词性标注方面,TwASP模子同样刷新了成绩。

中文分词的SOTA

中文分词目的是在中文的字序列中插入分开符,将其切分为词。比方,“我喜爱音乐”将被切分为“我/喜爱/音乐”(“/”表示分开符)。

配操盘中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会堕落。比方,“部门住民生活水平”,其正确的切分应为“部门/住民/生活/水平”,但存在“分居”、“民生”等歧义词。“他从小学电脑技能”,正确的分词是:他/从小/学/电脑技能,但也存在“小学”这种歧义词。

二是未登录词问题。未登录词指的是不在词表,或者是模子在训练的历程中没有遇见过的词。比方经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词使命中尤其明显。

对此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》这篇论文提出了基于键-值影象神经网络的中文分词模子。

配操盘该模子利用n元组(即一个由连续n个字组成的序列,好比“住民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监视要领构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的辨认。

配操盘比方,在“部门住民生活水平”这句话中,到底有几多可能成为词的组块?单字可成词,如“民”;每两个字的组合可能成词,如“住民”;甚至四个字的组合也可能成词,比方“住民生活”。

“民” → 单字词

“住民” → 词尾

“民生”→ 词首

“住民生活” → 词中

配操盘把这些可能成词的组合全部找到以后,加入到该分词模子中。通过神经网络,学习哪些词对于末了完备表达句意的帮助更大,进而分配差别的权重。像“部门”、“住民”、“生活”、“水平”这些词都会被突出出来,但“分居”、“民生”这些词就会被降权处置惩罚,从而预测出正确的结果。

在“他从小学电脑技能” 这句话中,对于有歧义的部门“从小学”(有“从/小学”和“从小/学”两种分法),该模子可以或许对“从小”和“学”分配更高的权重,而对错误的n元组——“小学”分配较低的权重。

配操盘为了检验该模子的分词效果,论文举行了严酷的尺度实验和跨领域实验。

配操盘实验结果显示,该模子在5个数据集(MSR、PKU、AS、CityU、CTB6)上的体现,均达了最好的成绩。

配操盘创新工场大湾区人工智能研究院执行院长宋彦表示,与前人的模子举行比力发明,该模子在全部数据集上的体现均凌驾了之前的事情,“把中文分词领域遍及使用的尺度数据集上的性能全部刷到了新高。”

在跨领域实验中,论文使用网络博客数据集(CTB7)测试。实验结果显示,在整体F值以及未登岸词的召回率上都有比力大提升。

解决“噪音”问题

配操盘《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》论文提供了一种基于双通道注意力机制的分词及词性标注模子。

配操盘中文分词和词性标注是两个差别的使命。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,比方动词、名词、代词、形容词。词性标注对后续的句子理解有紧张的作用。

配操盘在词性标注中,歧义仍然是个老浩劫的问题。比方,对于“他要向全班同学陈诉书上的内容”中,“陈诉书”的正确的切分和标注应为“陈诉_VV/书_N”。但由于“陈诉书”自己也是一个常见词,一般的工具可能会将其标注为“陈诉书_NN”。

句法标注自己需要大量的时间和人力成本。在以往的标注事情中,使用外部自动工具获取句法知识是主流要领。在这种情况下,如果模子不能辨认并正确处置惩罚带有杂音的句法知识,很可能会被禁绝确的句法知识误导,做堕落误的预测。

配操盘比方,在句子“他马上功夫很好”中,“马”和“上”应该分开(正确的标注应为“马_NN/上_NN”)。但根据一般的句法知识,却可能得到禁绝确的切分及句法关系,如“马上”。

配操盘针对这一问题,该论文提出了一个基于双通道注意力机制的分词及词性标注模子。该模子将中文分词和词性标注视作联合使命,可一体化完成。模子分别对自动获取的上下文特性和句法知识加权,预测每个字的分词和词性标签,差别的上下文特性和句法知识在各自所属的注意力通道内举行比力、加权,从而辨认特定语境下差别上下文特性和句法知识的孝敬。

配操盘如许一来,那些禁绝确的,对模子预测孝敬小的上下文特性和句法知识就能被辨认出来,并被分配小的权重,从而制止模子被这些有噪音的信息误导。

即便在自动获取的句法知识禁绝确的时候,该模子仍能有用辨认并利用这种知识。比方,将前文有歧义、句法知识禁绝确的句子(“他马上功夫很好”),输入该双通道注意力模子后,便得到了正确的分词和词性标注结果。

配操盘为了测试该模子的性能,论文在一般领域和跨领域分别举行了实验。

一般领域实验结果显示,该模子在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的体现(F值)均凌驾前人的事情,也大幅度凌驾了斯坦福大学的 CoreNLP 工具,和伯克利大学的句法分析器。

纵然是在与CTB词性标注规范差别的UD数据集中,该模子依然能吸收差别标注带来的知识,并使用这种知识,得到更好的效果。

配操盘而在跨领域的实验中,和斯坦福大学的 CoreNLP 工具相比,该模子也有近10个百分点的提升。

创新工场出品

配操盘两篇论文的第一作者,是华盛顿大学博士研究生、创新工场实习生田元贺。

配操盘他的老师创新工场大湾区人工智能研究院执行院长、华盛顿大学客座教授宋彦,此前也是腾讯AI Lab专家(首席)研究员。

传送门

Improving Chinese Word Segmentation with Wordhood Memory Networks

作者:Yuanhe Tian, Yan Song, Fei Xia, Tong Zhang, Yonggang Wang

论文地址:http://www.aclweb.org/anthology/2020.acl-main.734/

GitHub:http://github.com/SVAIGBA/WMSeg

Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge

作者:Yuanhe Tian, Yan Song, Xiang Ao, Fei Xia, Xiaojun Quan, Tong Zhang, Yonggang Wang

论文地址:http://www.aclweb.org/anthology/2020.acl-main.735/

配操盘GitHub:http://github.com/SVAIGBA/TwASP

配操盘本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,克制随意转载。

相识AI发展现状,捉住行业发展机遇

配操盘如何存眷、学习、用好人工智能?

每个事情日,量子位AI内参精选全球科技和研究最新动态,汇总新技能、新产物和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

配操盘同时,AI内参群为各人提供了交流和分享的平台,更好地满足各人获取AI凤竹纺织 、学习AI技能的需求。扫码即可订阅:

配操盘AI社群 | 与优秀的人交流

配操盘量子位 QbitAI · 头条号签约作者

配操盘վ'ᴗ' ի 追踪AI技能和产物新动态

配操盘喜爱就点「在看」吧 !

(声明:本文仅代表作者观点,不代表新浪网态度。)

文章要害词: 网络文化

配操盘用微信扫描二维码分享至挚友和朋友圈

配操盘' + _substr(uids[i].name, 0, 14) + '

配操盘' + _substr(uids[i].v_reason, 0, 16) + '



分享至:
| 收藏
收藏 分享 邀请

最新评论(0)

Archiver|手机版|小黑屋|平泉生活网  

GMT+8, 2019-1-6 20:25 , Processed in 0.100947 second(s), 11 queries .

Powered by 平泉生活网 X1.0

© 2015-2020 平泉生活网 版权所有

微信扫一扫