我正试图编写一个Python脚本,从位于这个页面的表中提取一些标记值:https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/
我已经包含了一个HTML源代码的屏幕截图,但是我无法找到如何提取第6、7、8和9列的价格数据。下面是我已经写过的代码。在
{<1分$import requests
import pandas as pd
from bs4 import BeautifulSoup
url = 'https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
table1 = soup.find_all('table', class_= 'sd-table')
#writing the first few columns to text file
with open('examplefile.txt', 'w') as r:
for row in table1.find_all('tr'):
for cell in row.find_all('td'):
r.write(cell.text.ljust(5))
r.write('\n')
熊猫可以用read_html自己处理这个问题。然后可以在结果帧中清理数据类型等。返回匹配项的数组-大致如下:
希望有帮助!在
表值似乎嵌入了一个JSON字符串中,可以使用json.loads获得该字符串。然后我们可以通过指示国家地区的
"regional"
键来获得值。在它有点复杂,但至少它得到了我们放入数据帧中的值,如下所示:
从页中获取24个数据帧,每个表对应一个:
^{pr2}$相关问题 更多 >
编程相关推荐