使用python跳过空白单元格，读取包含URL的列/列表

2024-10-03 11:15:38 发布

您现在位置：Python中文网/ 问答频道 /正文

8773

网友

男 | 程序猿一只，喜欢编程写python代码。

我在google sheet中有一个列all_sheet_url，其中有一些url链接。我需要一个接一个地读取它们并从中获取数据。因为我想跳过的列中也有一些空格/NA

列表项

我试过使用以下代码，但只读url和跳过列中的空格（如果有的话）是行不通的

sheet_url = df['Links']
    for line in sheet_url:
        #if line in sheet_url:
        try:
            url = line
            req = requests.get(url, stream=True)
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            # checking if it is an html page
            content_type = req.headers.get('content-type')
            if 'html' in content_type or 'application/xhtml+xml' in content_type:
                # reading the contents
                html = req.content
                # req.close()
                output = html
                print(output)
                continue
            else:
                 print("\t{} is not an HTML file".format(url))
                 #req.close()
        except Exception:
            return

请建议相同的方法/更正，谢谢

我需要从url中读取一系列数据，并在谷歌的主工作表中写入。我可以一次读取和写入单个url。但是，我希望它是动态的，这样它就可以通过将url的索引放在列中，不断地自动读取和写入url中的数据范围。这是我用过的代码

wks = gc.open_by_url(url)
wks1 = gc.open_by_url(url1)
  # Defining Range of cells to read
range1 = wks1.range('A5:A9')
range2 = wks1.range('A5:B9')
range3 = wks1.range('G11:L19')
range4 = wks1.range('B12:C13')

# Defining Range of cells to write
range1n = wks.range('CO43:CS43')
range2n = wks.range('CT43:DR43')
range3n = wks.range('DS43:FK43')
range4n = wks.range('FL43:FM43')
range_names = [['range1', 'range2', 'range3', 'range4']]

for range1_cell, range1n_cell in zip(range1, range1n):
    range1n_cell.value = range1_cell.value
    wks.update_cells(range1n)

Tags： in url for html type line cell range

1条回答

网友

1楼 · 发布于 2024-10-03 11:15:38

pandas有一个dropna方法来完全满足您的需要

文件：^{}

在您的cas中，这可能只是相同的处理代码，第一行是：

all_sheet_url = df['Workbook Link'].dropna()

使用python跳过空白单元格，读取包含URL的列/列表

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python跳过空白单元格，读取包含URL的列/列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >