下载wiki链接语料库的python包
pywikilinks的Python项目详细描述
pywikilinks
----
下载一个链接到wikipedia的语料库,其中包含锚标记
和周围的上下文。
![在指向Wikipedia文章的上下文中显示来自Web周围的多个超文本链接](readme_images/wiki link figure.jpg)
此包允许您下载和解码Wiki链接语料库。它包含必要的python 3代码,用于解码数据集中序列化的保存的apache thrift并读取它们。注意所提到的实体存在到维基百科的链接(但是
还有freebase id),以及指向该实体链接的“before”和
“after”上下文以及“middle”下的锚文本
:
``bash
context:context(middle=b'graphic designers',right=b'通常不参与html和css编码。前端开发人员使用html、css和javascript进行代码设计。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd表示不同的\xc3\x82\xc2\xa0\xc3\x82\xc2\xa0',left=b'photoshop或焰火,并将html和css留给其他人。或者你可以选择自己编写代码。设计和实现之间的一行')
文章:b'http://en.wikipedia.org/wiki/graphic\u designer'
context:context(middle=b'javascript',right=b'。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd对不同的人来说意味着不同的东西,但通常它意味着同时承担图形设计器角色和至少“left=b”编码。设计和实现之间的界限图形设计器通常不参与HTML和CSS编码。前端开发人员用html、css和')
文章:b'http://en.wikipedia.org/wiki/javascript'
context:context(middle=b'graphic design',right=b'和编程是两种截然不同的技能,相对来说很少有人有天生的两种能力。设计主要是一个右脑,创造性的活动,'',左=B'的方法,你取决于你的兴趣和才能,你的合作伙伴,以及你希望建立的网站类型。设计器/编码器拆分的优点')
文章:b'http://en.wikipedia.org/wiki/graphic\u design'
````
>您可能已经注意到,这些数据还包含许多非ascii字符,在上面的文本中显示为字节。大多数情况下,它们要么是Unicode引号,要么是需要规范化的特殊标点符号。
```
----
下载一个链接到wikipedia的语料库,其中包含锚标记
和周围的上下文。
![在指向Wikipedia文章的上下文中显示来自Web周围的多个超文本链接](readme_images/wiki link figure.jpg)
此包允许您下载和解码Wiki链接语料库。它包含必要的python 3代码,用于解码数据集中序列化的保存的apache thrift并读取它们。注意所提到的实体存在到维基百科的链接(但是
还有freebase id),以及指向该实体链接的“before”和
“after”上下文以及“middle”下的锚文本
:
``bash
context:context(middle=b'graphic designers',right=b'通常不参与html和css编码。前端开发人员使用html、css和javascript进行代码设计。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd表示不同的\xc3\x82\xc2\xa0\xc3\x82\xc2\xa0',left=b'photoshop或焰火,并将html和css留给其他人。或者你可以选择自己编写代码。设计和实现之间的一行')
文章:b'http://en.wikipedia.org/wiki/graphic\u designer'
context:context(middle=b'javascript',right=b'。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd对不同的人来说意味着不同的东西,但通常它意味着同时承担图形设计器角色和至少“left=b”编码。设计和实现之间的界限图形设计器通常不参与HTML和CSS编码。前端开发人员用html、css和')
文章:b'http://en.wikipedia.org/wiki/javascript'
context:context(middle=b'graphic design',right=b'和编程是两种截然不同的技能,相对来说很少有人有天生的两种能力。设计主要是一个右脑,创造性的活动,'',左=B'的方法,你取决于你的兴趣和才能,你的合作伙伴,以及你希望建立的网站类型。设计器/编码器拆分的优点')
文章:b'http://en.wikipedia.org/wiki/graphic\u design'
````
>您可能已经注意到,这些数据还包含许多非ascii字符,在上面的文本中显示为字节。大多数情况下,它们要么是Unicode引号,要么是需要规范化的特殊标点符号。
```