从htmlfi中的JavaScript代码中获取数据

网友

1楼 · 编辑于 2024-10-01 13:23:53

最好的方法就是使用beauthoulsoup。首先，转换原始数据myScript.js文件到HTML中。您可以使用这个HTML文件来创建soup。在

创建soup之后，使用regex提取所需的数据。假设你的HTML是在HTML文档中

html_code = html_doc.encode('utf-8')
soup = BeautifulSoup(html_code)
script = soup.find_all("script")

“script”将包含一个可以使用regex解析的javascript文件字符串。希望这有帮助。在

网友

2楼 · 编辑于 2024-10-01 13:23:53

我将提取Javascript代码并使用一些库来执行JS代码并从中检索结果，因为正如我所看到的，代码将生成一个JS数组，您可以提取它。在

也许这个用Python运行JS代码的库可以帮上忙 https://pypi.python.org/pypi/PyExecJS

网友

3楼 · 编辑于 2024-10-01 13:23:53

这里有多种选择：

使用正则表达式直接从javascript提取数据
使用javascript解析器直接从javascript中提取数据（例如slimit-example here）
{{a3}使用javascript
让一个真正的浏览器在^{}的帮助下执行javascript-浏览器可以是无头的（就像幻影js）

如果您选择使用正则表达式，下面是如何制作州/gt；药店列表的字典：

from pprint import pprint
import re

import requests


url = 'http://www.heteropharmacy.com/jScript/myScript.js'
with requests.Session() as session:
    response = session.get(url)

    pattern = re.compile(r"states_arr\['(\w+)'\]= new Array\((.*?)\);", re.MULTILINE | re.DOTALL)

    results = {state: [item.strip()[1:] for item in pharmacies.split('",')]
               for state, pharmacies in pattern.findall(response.content)}

    pprint(results)

印刷品：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

从htmlfi中的JavaScript代码中获取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >