LDC语料下载方法

记载一下如何从坑爹的Linguistic Data Consortium (LDC)网站上下载语料

经过热心网友点拨,这里面涉及到授权的问题,按照我的办法可以下载到数据集,但是如果你的大学没有被授权,就只能拿来自己练手,但是不能拿来发论文了。所以也请网友不要问下载到数据集的同学直接要了,菜鸟表示不背负法律责任。

什么是LDC

LDC是一个定期收集,整理和发布各种数据集的组织。其中绝大部分的数据集和自然语言处理相关。比如如果你是菜鸟(就是我啊),并且你不自量力的想搞dependency tree,那就有很大概率要碰到这个组织,因为你需要训练语料。然后你就会神奇的发现,好多相关论文(比如斯坦福的manning系)在github上会放相应代码,但是就是不放对应的数据集,理由是这个数据集是要钱的。所以你个菜鸟穷逼就被狠狠嘲笑了。因为你没钱,你也不懂高冷的技术。所以你活该学术上也毫无进展。

如何下载Ontonotes Release 5.0

Step 1. 充值成为会员

首先,其实绝大部分语料是不要钱的(所以可以下载,但是不能用来发论文,好的被教做人)。但是你得有个LDC账号,这个账号呢可能以Guest身份注册也行(我没试过),但是我还是试了一下LDC知不知道“国际著名大学”USTC的,惊喜的是USTC能在LDC提供的注册组织下拉菜单中搜索到(妮科还是有点牛逼的)。下面的截图就是分别以Guest身份以及Organization身份注册的截图:

LDC-Register

LDC-Organization

后面的注册都是流水线了(会通过邮件确认账户啥的),我就不截图了。

Step 2. 找到自己想要的数据集

注册好了之后,我得到了这样一条反馈,心中顿时一凉,还得再等管理员确认?(事实证明不需要,但是不能用来发论文,好的被教做人)

admin

等了半天没人确认之后,还是找找数据集吧,我的比较好找,你要找的数据集如果冷门就自己找喽,如果有系统的搜索方法记得贴到网上。

find-data

点击链接之后,发现OntoNotes Release 5.0其实不要钱。(整个页面很长,都是数据集的说明,直接拉到页面底部)

Ontonotes5

中间很长的图片跳过,直接拉到页面底部,可以看到所有费用为0,但是旁边的下载按钮咋点击不了呢?页面其他部分也没有下载链接啊。是我太穷了,免费的都不可以下载么?还是必须得充值变强?菜鸟好迷茫啊,穷逼好迷茫啊。。。(你的迷茫是对的,能下载到但是不能用来发论文,好的被教做人)

ontonotes5bottum

Step 3. 手动输入url,强行进入下载页面

这个时候我放弃了好多次,直到菜鸟渐渐能记得利用github了。然后就在github上搜索了一下有咩有奇技淫巧可以帮助下载。最后发现了3个废掉的repo,利用shell或者python脚本写的下载代码。通过阅读代码,突然想到可以看看它们什么下载原理,说不定能找到下载页面的。中间看代码的过程就不贴了,直接上我试出来的下载url。还是靠截图。

下图是菜鸟还迷茫时停留的页面,这是你不知道下载链接时填入浏览器的网址

url-before

然后直接把网址改成:https://catalog.ldc.upenn.edu/organization/downloads

url-after

嗒嗒,你终于进入穷逼也能下载的数据集页面了(能下载到但是不能用来发论文,好的被教做人)。你会发现,我写这个博客的时候,还是没有通过认证。但是不管了,可以下载了。记得善用Ctrl+F(页面搜索功能),输入LDC2013T19,找到下载链接,点击下载。至于下载之后,进一步怎么处理,抱歉,菜鸟还不会。慢慢看文档吧。。。

ctrlfind

然后你的浏览器就开始下载890M的数据集以及相应的数据清洗工具箱。

download

你来教我怎么进一步处理数据集

之前我一直用的java写的Stanford CoreNLP工具箱。这个工具箱是2014年的产物,dependency tree的LAS精度只有88%左右,精度不能忍。有了Ontonotes release 5.0你就能得到标注好的语法树,然后利用Manning(CS224N就是他上的课)和Quoc V. Le(发明Seq2Seq的人)2018出的cross-view training方法中的semi-supervised训练方法把paser的LAS精度提高到96%(全网第一)。

所以罗里吧嗦说这么多,你是不是也应该把Ontonotes release 5.0怎么使用的博客贴出来啦?(能下载到但是不能用来发论文,好的被教做人)

needyou

完!