NLTK构建语料库的最佳方式?

2024-10-01 09:29:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我有4万多篇文章,每篇文章都有不同的部分。每一个字典都作为一个Python字典存在,其键为titlecaegorysubcatcontent,等等

我如何在保持每篇文章不同小节之间的分离的同时,创建一个基于这些的语料库,但仍然可以使用这种关系进行操作?在

例如,当我完成后,我会抓取所有的标题,并在其他标题的基础上进行操作,同时还能将每个标题链接回主要内容。在

我想在这上面做词性标记,我不想把所有的小节都组合起来。在

希望这是有道理的。在

谢谢。在

编辑:

语料库还没有制作出来。我要把这篇课文讲完。下面是数据库中的一个条目。在

{'category': u'Pets',
 'content': u"<p>Putting your dog(s) in outdoor dog kennels might seem like a cruel thing to     do, but when you consider that they will be</p>.....",
 'signature': u'<p>Find out more on <a target="_new" href="http://petadore.com/outdoor-dog-            kennels-a-great-way-to-protect-your-dog-without-building-a-fence/">outdoor dog kennels</a> and r   read many interesting articles on <a target="_new" href="http://petadore.com/">pet health     care</a>.</p>',
 'subcat': u'Dogs',
 'title': u'Outdoor Dog Kennels & Enclosures'}

如您所见,它是HTML。我也想找出一种方法来保存这些标记,这样我就可以对<li>或{}标记内的文本进行测试。不过,那是个完美的世界。在


Tags: to标记标题your字典titleon文章