Python列表规范化问题的回答

Python列表规范化

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在开发一个持续学习的网络爬虫，以查找与世界各地发生的特定危机和悲剧事件相关的新闻文章。我目前正在努力使数据模型尽可能精简和高效，因为随着爬网的继续，数据模型会不断增长 我将数据模型存储在一个列表中（用于与正在爬网的页面进行TFIDF比较）并且我希望减少列表的大小，但不丢失列表中每个项目的相对计数 这是来自2个已爬网网页的示例模型： <pre><code>[[u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'crime', u'terror', u'crime', u'inform', u'servic', u'inform', u'laboratori', u'servic', u'want', u'want', u'want', u'terror', u'crime', u'want', u'news', u'news', u'press', u'news', u'servic', u'crime', u'inform', u'servic', u'laboratori', u'servic', u'servic', u'crime', u'crime', u'crime', u'terror', u'boston', u'press', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'boston', u'special', u'agent', u'remark', u'richard', u'deslauri', u'boston', u'investig', u'time', u'time', u'investig', u'boston', u'terror', u'law', u'enforc', u'boston', u'polic', u'polic', u'alreadi', u'alreadi', u'law', u'enforc', u'around', u'evid', u'boston', u'polic', u'evid', u'laboratori', u'evid', u'laboratori', u'may', u'alreadi', u'laboratori', u'investig', u'boston', u'polic', u'law', u'enforc', u'investig', u'around', u'alreadi', u'around', u'investig', u'law', u'enforc', u'evid', u'may', u'time', u'may', u'may', u'investig', u'may', u'around', u'time', u'investig', u'investig', u'boston', u'boston', u'news', u'press', u'boston', u'want', u'boston', u'want', u'news', u'servic', u'inform'], [u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'crime', u'crime', u'inform', u'servic', u'inform', u'servic', u'nation', u'want', u'ten', u'want', u'want', u'crime', u'want', u'news', u'news', u'press', u'releas', u'news', u'stori', u'servic', u'crime', u'inform', u'servic', u'servic', u'servic', u'crime', u'crime', u'crime', u'news', u'press', u'press', u'releas', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2013', u'nation', u'press', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'2011', u'foreign', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'inform', u'2011', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'foreign', u'govern', u'2011', u'inform', u'foreign', u'govern', u'nation', u'press', u'releas', u'crime', u'releas', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'nation', u'press', u'releas', u'want', u'news', u'servic', u'inform', u'govern']] </code></pre> 我希望维护单词列表，而不是将计数嵌入列表本身。我希望列表从以下位置开始： [波士顿，波士顿，波士顿，爆炸，爆炸，查尔纳耶夫，查尔纳耶夫，时间]到[波士顿，波士顿，爆炸，查尔纳耶夫] 基本上，如果我有一个列表[a，a，a，b，b，c]，我会把它减少到[a，a，b] 编辑：很抱歉不清楚，但我会再试一次。我不想要一套。出现次数非常重要，因为它是一个加权列表，所以“Boston”应该比“time”或其他类似术语出现的次数更多。我试图做到的是最小化数据模型，同时从模型中删除不重要的项。所以在上面的例子中，我故意省略了C，因为它给模型增加了很多“脂肪”。我想保持相关性，因为A比B多出现1次，比C多出现2次，但由于C在原始模型中只出现一次，所以它将从精益模型中删除

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

Python列表规范化

1 个回答

相关Python问题