分享好友 最新动态首页 最新动态分类 切换频道
超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级
2024-11-07 23:08

新智元原创

超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级

编辑:小智,元子

【新智元导读】首个专为中文NLP量身打造的CLUE升级了!目前拥有八个数据集的整体测评及其基线模型,30多位来自各个顶尖机构的志愿者加入并成为了会员。CLUE还发布了已经处理好的100G大规模中文语料,研究者可直接拿来做预训练,完成下游的语言理解、文本分类等任务。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

做中文NLP,太难了!

分词难。

分在不同的位置意思大不同。比如「我喜欢上一个人」,到底说的是「I like the last one」,还是说「I'm falling love with someone」?需要根据上下文语境来判断。

「一位友好的哥谭市民」 vs「一位友好/的哥/谭市民」

容易混淆的中文例子

多音字也难。

用过具有AI阅读功能的读书app,你会发现很多时候它读的停顿不对,很多读音也不对,比如把「有债必还」,读成「有债必孩」。千万别让孩子跟着AI学语文!

获取资源更难。

英文很多数据集、预训练模型都是开源的,而中文这方面非常稀缺,虽然很多大厂最先进的技术都用上了,但没有开源数据集和预训练模型,那么多数人就用不上;同时由于是针对企业内部定制的,缺乏普适性。

天下苦中文NLP久矣!

好在,希望出现了!

一群中文NLP开发者,凭着一腔热情,利用业余时间,在GLUE的基础上,做出了中文语言理解测评基准CLUE。这是什么精神?

CLUE包含了代表性的数据集、基准(预训练)模型、语料库、排行榜。

它的诞生,承载着这群开发者巨大的野心:跑遍主流的中文数据集,解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题,见证像BERT一样、更强大的中文 NLP 模型。

目前CLUE主要构建了以下内容:

本次选取的8个任务可以全面测试预训练模型的语言理解能力,CLUE团队制定了一套科学的任务遴选标准。

不同的任务中文本的大小、语言理解的类型、训练的样本量都要有差异性,而且每个任务必须要有明确的定义,比如短文本的分类任务,句子相似性判断等。CLUE官方会处理好数据,让研究者可以更专注在建模本身。

任务的难度方面,不能太简单也不能是已经解决的问题,太简单的问题没有研究价值,只有未解决的问题才能激发研究者去搭建更好的模型。

任务必须是自然语言理解任务的代表,可以很容易应用到现实场景,如果任务很生僻没有实用价值,那它就没有多大意义了。

最后一点,任务要能衡量汉语独有的语言特性,比如成语、俗语,这块将会给模型带来巨大的挑战,汉语本身就很难了,再加上成语大多是高度概括的,模型理解起来就更有难度。

八个任务

CLUE官方总共收集了214 GB的原始语料库,大约760亿个单词,包含三个部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库,包括四个子部分:新闻,网页文本,维基百科和评论。

CLUECorpus2020包含100 GB的中文原始语料库,该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练,而无需其他预处理,包含约2万9千个单独的文件,每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库,它是通过Common Crawl语料库的语言分类过滤得到的,包含250 GB的中文原始语料库,做进一步的处理后,最终得到100 GB的中文数据。

你建好了模型,还要一个个去适配所有的8个任务,那就太麻烦了,CLUE官方专门写了一个工具PyCLUE,可以帮你一键完成在不同任务的测试。

为了检测模型是否真正理解了句子的语义,结合中文的特点手工制作了一个包含514个句子对的诊断集,这些句子对覆盖了常见的9种容易造成错误理解的场景。

CLUE还提供了一个排行榜,供用户在CLUE上提交自己的结果。当用户提交预测结果时,评估系统将为每个任务提供最终分数。为了鼓励模型复现,如果模型是开源的,会将模型标记为“已认证”。

看看榜单上这些名字!华为、腾讯都来CLUE刷榜了,但看起来都不如CLUE官方团队提供的人类成绩,实力还是有待提高!

如果想了解CLUE的更多详细信息,可参见CLUE团队最近发表在arxiv的论文。

论文链接:

https://arxiv.org/abs/2004.05986

现在,CLUE诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者提供更多的中文自然语言理解数据集。这些数据集可以是你自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。CLUE官方计划在5月14日前完成筛选,推出正式的CLUE Benchmark。

请您将推荐数据集的名称、作者、形式以及License情况发送至:

CLUE@CLUEBenchmarks.com

只需满足以下要求,即可进行推荐:

如果您推荐的数据集被选中,将能极大扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献

点击阅读原文即可查看CLUE的官网详细介绍。

参考链接:

最新文章
预告丨跨年狂欢,来殷墟就够了!
与万千同城网友一起聚焦安阳!建站18年 | 关注民生丨服务生活点此亲启致过去一年亲爱的自己站在岁末的路口回首望去每个人都走过了一段时光的路有过春日里的希望萌动也有夏日骄阳下的炽热奔忙可能秋日的落叶写着失落与怅惘但是只要把掌心贴
普通下载url与迅雷快车旋风下载地址转换原理分析
例如华军winrar 3.71的下载地址是普通下载url与迅雷快车旋风下载地址转换原理分析_千里疯狂 http://p2s.newhua.com/down/wrar371sc.exe 1、普通地址转换为迅雷地址 在原地址前面加”AA”,后面加”ZZ”(注:不包括引号),
《SEO推广秘籍:揭秘如何打造搜索引擎营销的视觉革命与媒介深度》(SEO推广秘籍如何让你的网站一夜爆红)
:SEO推广:揭秘提升网站排名的秘密武器随着互联网的快速发展,越来越多的企业开始重视网络营销,而SEO(搜索引擎优化)推广成为了企业提升网站排名、增加流量的重要手段。那么,SEO推广究竟是如何工作的?又有哪些方法可以帮助企业提升网
10个神级插件, 让Edge成为全世界最爽的浏览器
创作立场声明:个人日常工作技巧分享, 神级插件让Edge效率起飞大家好, 我是胡侃侃。Microsoft Edge 浏览器毫无疑问是2020年最棒的浏览器产品,在此之前,相信绝大部分人心中最好用的浏览器是Chrome浏览器,它简洁、快速、稳定、而且有着
google注册帐号用过多次如何注册?
*温馨提醒 :如果您在注册申请google谷歌gmail邮箱账号时遇到了:此电话号码无法用于验证、此电话号码验证次数太多、账号您无法注册的问题;您可以这样解决!【解决方案】手机安装「 词令 」App,打开后输入口令「 账号99 」,搜索直达该口
杰奇建站CMS1.7免费版:小说连载网站的构建利器
杰奇建站CMS 1.7是一款针对个人及小型企业的免费内容管理系统(CMS)。它的设计旨在提供易于安装和使用的界面,使用户能够快速构建和维护网站,无需深入的技术知识。本章节将介绍杰奇CMS 1.7的基础功能以及它的特
SEO网站如何更新,提升搜索引擎排名的策略与技巧,优化SEO,提升搜索引擎排名的关键策略和技巧
随着互联网技术的飞速发展和网络营销的广泛应用,SEO网站优化已成为企业提高在线可见度、扩大市场份额的重要手段,在SEO实践中,有些企业和个人会忽视对SEO网站进行定期更新,导致网站收录量降低、搜索引擎排名下降甚至无法在搜索引擎中找
AI Weekly『11月11-17日』:Kimi发布新一代数学推理模型,腾讯推出AI工作台ima!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,A
突发!雅虎邮箱在美国多地陷入瘫痪状态
雅虎邮箱在美国各地瘫痪雅虎邮箱在美国各地瘫痪雅虎邮箱在美国各地瘫痪雅虎邮箱在美国全境崩溃雅虎邮箱在美国各地都无法正常使用了雅虎邮箱在美国各地瘫痪雅虎邮箱在美国各地瘫痪
相关文章
推荐文章
发表评论
0评