选择其他列行满足两个条件的索引

links title url https://example.com /feed.xml EXAMPLE https://example.com /tags.html EXAMPLE https://example.com /tags.html EXAMPLE https://example.com /about EXAMPLE https://example.com /feed.xml EXAMPLE https://example.com /feed.xml EXAMPLE https://example222.com /about/ EXAMPLE222 https://example222.com /about/ EXAMPLE222 https://example333.com /atom.xml EXAMPLE333 https://example333.com /archives EXAMPLE333 https://example333.com /about EXAMPLE333 https://example333.com /archives EXAMPLE333

3条回答

网友

1楼 · 编辑于 2024-10-04 05:32:15

如果您只想获取与条件匹配的URL，下面是代码：

urls = df.groupby(level = 0).agg({'links': (lambda x: sum([(f in list(x.str.extract('(archive|xml)', expand=False))) for f in ['archive','xml']])==2)})['links']

print(urls)

Out[1]:
    https://example.com       False
    https://example222.com    False
    https://example333.com     True
    Name: links, dtype: bool

print(list(urls[urls].index))

Out[2]:
    ['https://example333.com']

网友

2楼 · 编辑于 2024-10-04 05:32:15

执行groupby操作，然后应用自定义聚合函数：

def summarize(group):
    has_xml = group['links'].str.contains(r'\.xml')
    has_archive = group['links'].str.contains('archive')

    return group[has_xml | has_archive] if has_xml.any() and has_archive.any() else None

df.groupby('url').apply(summarize).reset_index(0, drop=True)

结果:

                       url      links       title
8   https://example333.com  /atom.xml  EXAMPLE333
9   https://example333.com  /archives  EXAMPLE333
11  https://example333.com  /archives  EXAMPLE333

网友

3楼 · 编辑于 2024-10-04 05:32:15

第一个想法是使用^{}表示Series，并转换为set，如果每个组中都存在两个值，则进行比较：

s = df['links'].str.extract('(archive|xml)', expand=False)
m = s.groupby(df['url']).apply(set) >= set(['xml','archive'])

然后^{}在原始数据中屏蔽，并用另一个条件链接

df = df[df['url'].map(m) & s.notna()]
#alternative
#df = df[df['url'].map(m) & df['links'].str.contains('archive|xml')]
print (df)
                       url      links       title
8   https://example333.com  /atom.xml  EXAMPLE333
9   https://example333.com  /archives  EXAMPLE333
11  https://example333.com  /archives  EXAMPLE333

如果需要每个url的唯一值，请添加^{}：

df = df[df['url'].map(m) & s.notna()].drop_duplicates(['url','links'])
print (df)
                      url      links       title
8  https://example333.com  /atom.xml  EXAMPLE333
9  https://example333.com  /archives  EXAMPLE333

另一种方法是在2个helper列中计算匹配的值，并测试这两个列是否匹配inf，并将求和值与^{}进行比较：

a = df['links'].str.contains('archive')
b = df['links'].str.contains('xml')

mask = df.assign(a=a,b=b).groupby('url')['a','b'].transform('sum').gt(0).all(axis=1)

df = df[mask & (a | b)]
print (df)
8   https://example333.com  /atom.xml  EXAMPLE333
9   https://example333.com  /archives  EXAMPLE333
11  https://example333.com  /archives  EXAMPLE333

相关问题更多 >

编程相关推荐

热门问题

热门文章