结构化重复数据消除会产生一个数据库

2024-05-08 17:06:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用python项目dedupe在数据中查找重复的组织名称。许多例子的重点是如何处理数据,而不是如何实现结果。对于获取结果、将其放入数据库以及查询重复记录的分组,是否有最佳做法?你知道吗

到目前为止,我的想法是这样构造这两个表(使用sqlalchemy),但我觉得有些不对劲:

class Organization(Base):
    __tablename__ = 'organization'

    id = Column(Integer, primary_key=True)
    name = Column(String)
    cluster_id = Column(Integer, ForeignKey('duplicate_organization.cluster_id'))


class DuplicateOrganzation(Base):
    __tablename__ = 'duplicate_organization'

    id = Column(Integer, primary_key=True)
    cluster_id = Column(Integer)
    name = Column(String)
    organizations = relationship("Organization") 

Tags: 数据keynameidtruebasestringcolumn

热门问题