这是我的数据帧:
import pandas as pd
import re
!wget https://s3.amazonaws.com/todel162/elastic.csv
df=pd.read_csv('elastic.csv')
def mysearch(mystring):
urls = re.findall('elastic.co/guide(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', mystring)
return urls
df['mysearch']=df.Body.apply(mysearch)
每个名为mysearch
的列中可以有多个URL。我需要将所有唯一的html页面(不是URL)连接到各自的parentID
,输出结果如下所示:
query-dsl-term-query.html 35564374, 46568374
query-dsl-bool-query.html 35594195, 75694493
plugins-inputs-jdbc.html 34203007
您可以使用:
相关问题 更多 >
编程相关推荐