下载wiki链接语料库的python包

pywikilinks的Python项目详细描述


pywikilinks
----


下载一个链接到wikipedia的语料库,其中包含锚标记
和周围的上下文。

![在指向Wikipedia文章的上下文中显示来自Web周围的多个超文本链接](readme_images/wiki link figure.jpg)


此包允许您下载和解码Wiki链接语料库。它包含必要的python 3代码,用于解码数据集中序列化的保存的apache thrift并读取它们。注意所提到的实体存在到维基百科的链接(但是
还有freebase id),以及指向该实体链接的“before”和
“after”上下文以及“middle”下的锚文本


``bash
context:context(middle=b'graphic designers',right=b'通常不参与html和css编码。前端开发人员使用html、css和javascript进行代码设计。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd表示不同的\xc3\x82\xc2\xa0\xc3\x82\xc2\xa0',left=b'photoshop或焰火,并将html和css留给其他人。或者你可以选择自己编写代码。设计和实现之间的一行')
文章:b'http://en.wikipedia.org/wiki/graphic\u designer'

context:context(middle=b'javascript',right=b'。术语\xc3\xa2\xe2\x82\xac\xc5\x93web designer\xc3\xa2\xe2\x82\xac\xef\xbf\xbd对不同的人来说意味着不同的东西,但通常它意味着同时承担图形设计器角色和至少“left=b”编码。设计和实现之间的界限图形设计器通常不参与HTML和CSS编码。前端开发人员用html、css和')
文章:b'http://en.wikipedia.org/wiki/javascript'

context:context(middle=b'graphic design',right=b'和编程是两种截然不同的技能,相对来说很少有人有天生的两种能力。设计主要是一个右脑,创造性的活动,'',左=B'的方法,你取决于你的兴趣和才能,你的合作伙伴,以及你希望建立的网站类型。设计器/编码器拆分的优点')
文章:b'http://en.wikipedia.org/wiki/graphic\u design'
````

>您可能已经注意到,这些数据还包含许多非ascii字符,在上面的文本中显示为字节。大多数情况下,它们要么是Unicode引号,要么是需要规范化的特殊标点符号。


```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
IE中的java跨域cookie问题   重复java中已经满足的循环   编译java RMI服务器时出错   JavaServlet POST中作为参数传递的javascript大型JSON数组数据为空   java片段未每次刷新/调用   java无法编译。错误消息   java如何构造大型类?   java Hibernate:TableThingsDB。事情并不存在   java如何操作从匹配项创建的数组。发现   循环以搜索和显示数组Java的某些部分   加载或注册SQLite JDBC驱动程序时出现java问题   活动和服务之间的java连接   JavaGWTG2D:ie8中的drawImage   java在安卓中设置hessian阈值   在Tomcat中使用Logback时发生java错误