漂亮的汤添加了HTML属性的引用 - 问答 - Python中文网

漂亮的汤添加了HTML属性的引用

2024-10-04 09:22:19 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

提前谢谢你

我目前正在使用BeautifulSoup来解析HTML集合块中的注释标记。我遇到的问题是，被刮取的html没有封装html标记属性值的引号。然而，BeautifulSoup似乎在添加这些内容，这在某些情况下可能是可取的，但不幸的是不适合我的情况。在

哪一种方法最好是保持HTML的完整性而不通过BeautifulGroup添加引号-或者可以将这些引号重新添加进来？在

Tags：方法标记内容属性 html 情况引号完整性

1条回答

网友

1楼 · 发布于 2024-10-04 09:22:19

您有一个标记，其中有些属性值是用引号括起来的，有些是不带引号的。你所说的“加引号回来”是什么意思：要么edit each attribute value把引号删掉（可能是个糟糕的主意），要么在它呈现时加上引号。这取决于您对标记执行的其他处理。下面是打印时添加引号的代码：

input = "<html><sometag attr1=dont_quote_me attr2='but this one is quoted'>Text</sometag></html>"

bs = BeautifulSoup(input)

bs2 = bs.find('sometag')
for a in bs2.attrs:
    (attr,aval) = a
    print "%s='%s'" % (attr,aval),

给出attr1='dont_quote_me' attr2='but this one is quoted'

哪条路由你决定。我假设它们都是单个单词，即match regex\w+

相关问题更多 >

编程相关推荐

热门问题

热门文章