使用python跳过空白单元格,读取包含URL的列/列表

2024-10-03 11:15:38 发布

您现在位置:Python中文网/ 问答频道 /正文

  1. 我在google sheet中有一个列all_sheet_url,其中有一些url链接。 我需要一个接一个地读取它们并从中获取数据。 因为我想跳过的列中也有一些空格/NA
  • 列表项

我试过使用以下代码,但只读url和跳过列中的空格(如果有的话)是行不通的

sheet_url = df['Links']
    for line in sheet_url:
        #if line in sheet_url:
        try:
            url = line
            req = requests.get(url, stream=True)
            r = requests.get(url, timeout=10)
            r.raise_for_status()
            # checking if it is an html page
            content_type = req.headers.get('content-type')
            if 'html' in content_type or 'application/xhtml+xml' in content_type:
                # reading the contents
                html = req.content
                # req.close()
                output = html
                print(output)
                continue
            else:
                 print("\t{} is not an HTML file".format(url))
                 #req.close()
        except Exception:
            return

请建议相同的方法/更正,谢谢

  1. 我需要从url中读取一系列数据,并在谷歌的主工作表中写入。 我可以一次读取和写入单个url。但是,我希望它是动态的,这样它就可以通过将url的索引放在列中,不断地自动读取和写入url中的数据范围。 这是我用过的代码
wks = gc.open_by_url(url)
wks1 = gc.open_by_url(url1)
  # Defining Range of cells to read
range1 = wks1.range('A5:A9')
range2 = wks1.range('A5:B9')
range3 = wks1.range('G11:L19')
range4 = wks1.range('B12:C13')

# Defining Range of cells to write
range1n = wks.range('CO43:CS43')
range2n = wks.range('CT43:DR43')
range3n = wks.range('DS43:FK43')
range4n = wks.range('FL43:FM43')
range_names = [['range1', 'range2', 'range3', 'range4']]

for range1_cell, range1n_cell in zip(range1, range1n):
    range1n_cell.value = range1_cell.value
    wks.update_cells(range1n)

Tags: inurlforhtmltypelinecellrange