正在删除Scrapy pipelin中的重复项值

1条回答

网友

1楼 · 发布于 2024-10-01 17:23:29

不要删除重复项，只需重新生成不在ids_seen列表中的站点列表。下面的示例代码应该可以工作，尽管它不在类结构中。在

import json


line1 = '{"category": ["ctg1"], "pages": 3, "websites": ["x1.com","x2.com","x5.com"]}'
line2 = '{"category": ["ctg2"], "pages": 2, "websites": ["x1.com", "d4.com"]}'

lines = (line1, line2)

ids_seen = set()

def process_item(item):
    item_unique_sites = []
    for site in item['websites']:
        if not site in ids_seen:
            ids_seen.add(site)
            item_unique_sites.append(site)
    # Delete the duplicates
    item['websites'] = item_unique_sites
    line = json.dumps(dict(item), ensure_ascii=False) + "\n"
    print line
    #self.file.write(line)
    return item


for line in lines:
    json_data = json.loads(line)
    process_item(json_data)

编程相关推荐

java将两个不同类型的列表组合在一起
java用户管理最佳实践/库/框架？
maven从另一个捆绑包重写捆绑包中的java类
java如何使用tuio调用按钮的侦听器？
java为什么我的分数变量不能在GameScreen类之外评估？
linux自动安装需要在Bash中多次按键的Java应用程序
java Firebase一直在服务器配置中抛出OAuth2客户端id未找到
java根据字节数组的有效长度对其进行非序列化
Java检查字符串之间的空格
java如何在多个类上应用Bindy数据转换/在工厂类上应用Bindy

相关问题更多 >

编程相关推荐

热门问题

热门文章

正在删除Scrapy pipelin中的重复项值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >