靓汤只提取了一个标签的标题

1条回答

网友

1楼 · 发布于 2024-10-01 17:41:01

这是因为页面的损坏的HTML。您需要切换到一个更为宽松的解析器，比如^{}。以下是对我有效的方法：

from pprint import pprint

import requests
from bs4 import BeautifulSoup

url = "http://www.askapatient.com/viewrating.asp?drug=19839&name=ZOLOFT"
response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'})

# HTML parsing part
soup = BeautifulSoup(response.content, "html5lib")
table = soup.find("table", attrs={"class":"ratingsTable"})
comments = [[td.get_text() for td in row.find_all("td")] 
            for row in table.find_all("tr")]
pprint(comments)

编程相关推荐

C++／爪哇／C图像处理库
由于类org的许多实例而导致java内存泄漏。jboss。vfs。spi。JavaZipFileSystem
java在Android中使用CustomMultiPartEntity取消上传文件
java根据另一个JCombobox填充JCombobox值
安卓 java，如何将Unicode字符更改为普通字符？
java每次出现“CCTGG”时，我为DNA序列创建的字符串生成器都会停止
java Android NDK应用程序抛出错误未满足链接错误
用Java实现mp3音频分解
如何在源java中使用weka 3.7.12中保存的svm（wlsvm）模型类
jsf Spring@Autowired（required=true）为空

相关问题更多 >

编程相关推荐

热门问题

热门文章

靓汤只提取了一个标签的标题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >