beauthulsoup Python脚本不再用于挖掘简单字段

import urllib2 import re import csv from bs4 import BeautifulSoup import time from unicodedata import normalize FamSearchURL = 'https://familysearch.org/pal:/MM9.1.1/KH21-211' OpenFamSearchURL = urllib2.urlopen(FamSearchURL) Soup_FamSearch = BeautifulSoup(OpenFamSearchURL, 'lxml') OpenFamSearchURL.close() tbodyTags = Soup_FamSearch.find('tbody') trTags = tbodyTags.find_all('tr', class_='result-item ') for trTags in trTags: tdTags_label = trTag.find('td', class_='result-label ') if tdTags_label: tdTags_label_string = tdTags_label.get_text(strip=True) if tdTags_label_string == 'Religion: ': print trTags.find('td', class_='result-value ')

1条回答

网友

1楼 · 发布于 2024-05-29 11:05:06

找到Religion:标签by text，得到next ^{} sibling：

soup.find(text='Religion:').parent.find_next_sibling('td').get_text(strip=True)

演示：

^{pr2}$

然后，您可以创建一个很好的可重用函数并重用：

def get_field_value(soup, field):
    return soup.find(text='%s:' % field).parent.find_next_sibling('td').get_text(strip=True)

print get_field_value(soup, 'Religion')
print get_field_value(soup, 'Nationality')
print get_field_value(soup, 'Birthplace')

印刷品：

Methodist
Canadian
Ontario

相关问题更多 >

编程相关推荐

热门问题

热门文章