Python中RDFlib的RDF文本

2024-09-28 01:32:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个rdf文件,例如:

<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dbp="http://dbpedia.org/ontology/"
xmlns:dbprop="http://dbpedia.org/property/"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
    <rdf:Description rdf:about="http://dbpedia.org/page/Johann_Sebastian_Bach">
      <dbp:birthDate>1685-03-21</dbp:birthDate>
      <dbp:deathDate>1750-07-28</dbp:deathDate>
      <dbp:birthPlace>Eisenach</dbp:birthPlace>
      <dbp:deathPlace>Leipzig</dbp:deathPlace>
      <dbprop:shortDescription>German composer and organist</dbprop:shortDescription>
      <foaf:name>Johann Sebastian Bach</foaf:name>
      <rdf:type rdf:resource="http://dbpedia.org/class/yago/GermanComposers"/>
      <rdf:type rdf:resource="http://xmlns.com/foaf/0.1/Person"/>
    </rdf:Description>
</rdf:RDF> 

我只想提取这个文件的文本部分,也就是说,我的输出是:

^{pr2}$

如何使用RDFlib得到这个结果?在


Tags: 文件orgcomhttprdfdescriptionsebastiandbpedia
2条回答

基于Joshua Taylor的答案,您要寻找的方法是“toPython”docs说“返回从这个RDF文本派生的适当的python数据类型” ". 此代码段应返回您要查找的内容:

raw_data = """<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dbp="http://dbpedia.org/ontology/"
xmlns:dbprop="http://dbpedia.org/property/"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
    <rdf:Description rdf:about="http://dbpedia.org/page/Johann_Sebastian_Bach">
      <dbp:birthDate>1685-03-21</dbp:birthDate>
      <dbp:deathDate>1750-07-28</dbp:deathDate>
      <dbp:birthPlace>Eisenach</dbp:birthPlace>
      <dbp:deathPlace>Leipzig</dbp:deathPlace>
      <dbprop:shortDescription>German composer and organist</dbprop:shortDescription>
      <foaf:name>Johann Sebastian Bach</foaf:name>
      <rdf:type rdf:resource="http://dbpedia.org/class/yago/GermanComposers"/>
      <rdf:type rdf:resource="http://xmlns.com/foaf/0.1/Person"/>
    </rdf:Description>
</rdf:RDF>"""
import rdflib
graph = rdflib.Graph()
graph.parse(data=raw_data)

output = []

for s, p, o in graph:
    if type(o) == rdflib.term.Literal:
        output.append(o.toPython())

print ', '.join(output)

这是相对简单的,至少在概念任务方面。你需要

  • 将RDF文档读入rdflib图
  • 迭代图形中的语句(三元组)
    • 如果语句的对象是文本
    • 然后将文本的词法形式连接到正在构建的字符串中

我不是一个Python用户,也不是一个RDFlib用户,但是这些并不困难。Getting started with RDFLib(来自RDFlib文档)展示了如何读取一个图并在三元组上迭代

import rdflib

g = rdflib.Graph()
result = g.parse("http://www.w3.org/People/Berners-Lee/card")

# Iterate over triples in store and print them out.
print(" - printing raw triples  -")
for s, p, o in g:
    print((s, p, o))

现在,您需要检查o是否是文本(一个rdflib.term.Literal)的文本,而不是{}。如果存在非字符串类型的文本,您要么希望连接它们的词法形式,要么只连接纯文本(没有语言类型和数据类型的文本)、带有语言标记的文本的字符串部分以及数据类型为xsd:string的文本的词法形式。在

更多参考资料

相关问题 更多 >

    热门问题