使用beautifulsoup时缺少标记

2024-09-27 00:17:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我用beautifulsoup解析html文件。但是,find\u all()方法缺少一些标记。html链接是YARN-8569

htmlfile snapshot.jpg

代码如下:

for tag in soup.find_all('div', class_='js-diff-progressive-container'):
    print 1
    for div in tag.find_all('div'):
        id = div.get('id')
        if id:
            id = id.split('-')
            print id
            if id[0] == 'diff':
                div2 = div.find_all('div')
                class_div = div2[0]
                if class_div.get('data-path'):
                    changed_class.append(class_div.get('data-path'))

但是,我只能打开类为“js diff progressive container”的第一个div标记并获取其子标记。对于第二个,我将得到一个dev,它的类名是“js diff progressive retry”(我在html文件中找不到这个)。而且,我不能得到它的子标签。你知道吗

输出为

output.jpg

我使用lxml作为我的htmlparser(这是别人建议的答案,但它仍然不起作用)


Tags: 文件标记dividforgetifhtml

热门问题