漂亮的汤添加了HTML属性的引用

2024-10-04 09:22:19 发布

您现在位置:Python中文网/ 问答频道 /正文

提前谢谢你

我目前正在使用BeautifulSoup来解析HTML集合块中的注释标记。我遇到的问题是,被刮取的html没有封装html标记属性值的引号。然而,BeautifulSoup似乎在添加这些内容,这在某些情况下可能是可取的,但不幸的是不适合我的情况。在

哪一种方法最好是保持HTML的完整性而不通过BeautifulGroup添加引号-或者可以将这些引号重新添加进来?在


Tags: 方法标记内容属性html情况引号完整性
1条回答
网友
1楼 · 发布于 2024-10-04 09:22:19

您有一个标记,其中有些属性值是用引号括起来的,有些是不带引号的。你所说的“加引号回来”是什么意思:要么edit each attribute value把引号删掉(可能是个糟糕的主意),要么在它呈现时加上引号。这取决于您对标记执行的其他处理。下面是打印时添加引号的代码:

input = "<html><sometag attr1=dont_quote_me attr2='but this one is quoted'>Text</sometag></html>"

bs = BeautifulSoup(input)

bs2 = bs.find('sometag')
for a in bs2.attrs:
    (attr,aval) = a
    print "%s='%s'" % (attr,aval),

给出attr1='dont_quote_me' attr2='but this one is quoted'

哪条路由你决定。我假设它们都是单个单词,即match regex\w+

相关问题 更多 >