如何从excel文件中的超链接检索数据?

2024-10-01 11:38:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一些超链接存储在本地excel文件中。它们都在一列中。例如

| A  
| ----------------------------------| 
| http://vocab.getty.edu/tgn/8699749|
| http://vocab.getty.edu/tgn/8704811|
| http://vocab.getty.edu/tgn/8702341|
| http://vocab.getty.edu/tgn/1063874|
| http://vocab.getty.edu/tgn/1063880|
| http://vocab.getty.edu/tgn/7032551|
|-----------------------------------|

每个链接指向一个页面,我将从中提取与字段xl:prefLabel相关的信息,并将结果存储在B列中

Openpyxl可能是解决方案

预期结果应该类似于

| A                                 | B                      |
| ----------------------------------| ------------------------
| http://vocab.getty.edu/tgn/8699749| tgn_term:1005671253-fr |
| http://vocab.getty.edu/tgn/8704811| tgn_term:1005683546-de | 
| http://vocab.getty.edu/tgn/8702341| tgn_term:1005684314    |
| http://vocab.getty.edu/tgn/1063874| tgn_term:64447         |
| http://vocab.getty.edu/tgn/1063880| tgn_term:64453         |
| http://vocab.getty.edu/tgn/7032551| tgn_term:1001213640    |
|-----------------------------------|------------------------|

Tags: 文件信息http链接页面excel指向edu
1条回答
网友
1楼 · 发布于 2024-10-01 11:38:52

快速解决方案是使用熊猫切片:

import pandas as pd
import urllib.request

all_hyperlinks = pd.read_excel(path_to_excel_file, index_col=None, header=None)
first_hl = all_hyperlinks.loc[0, 0] # Get the first hype link
contents = request.urlopen(first_hl).read()

相关问题 更多 >