我有4万多篇文章,每篇文章都有不同的部分。每一个字典都作为一个Python字典存在,其键为title
、caegory
、subcat
、content
,等等
我如何在保持每篇文章不同小节之间的分离的同时,创建一个基于这些的语料库,但仍然可以使用这种关系进行操作?在
例如,当我完成后,我会抓取所有的标题,并在其他标题的基础上进行操作,同时还能将每个标题链接回主要内容。在
我想在这上面做词性标记,我不想把所有的小节都组合起来。在
希望这是有道理的。在
谢谢。在
编辑:
语料库还没有制作出来。我要把这篇课文讲完。下面是数据库中的一个条目。在
{'category': u'Pets',
'content': u"<p>Putting your dog(s) in outdoor dog kennels might seem like a cruel thing to do, but when you consider that they will be</p>.....",
'signature': u'<p>Find out more on <a target="_new" href="http://petadore.com/outdoor-dog- kennels-a-great-way-to-protect-your-dog-without-building-a-fence/">outdoor dog kennels</a> and r read many interesting articles on <a target="_new" href="http://petadore.com/">pet health care</a>.</p>',
'subcat': u'Dogs',
'title': u'Outdoor Dog Kennels & Enclosures'}
如您所见,它是HTML。我也想找出一种方法来保存这些标记,这样我就可以对<li>
或{
目前没有回答
相关问题 更多 >
编程相关推荐