我能够得到ajaxurl和响应。响应不是JSON,dev.tools说它的内容类型是:text/html;charset=UTF-8
这是url
我的问题是这是一个大的文本块,我想刮/解析出一个非常具体的文本块。我在代码块中还看到许多pythonic词典和列表。你知道吗
我的目标是提取部分“ASINList”:[……]并最终获得该列表中的所有asin。你知道吗
我该怎么做?我用的是美素
我试过了汤.找('script')但是看着html我不知道如何处理这个问题。你知道吗
</div>
</div>
<script>
P.when("stores-widget-productgrid").execute( function (Widget)
"prices":{"price":{"price":{"isSuppressedByMAP":false,"currency": text i
dont need"{"ASINList"['asin','asin','asin','asin'],"More text" I dont
need":{text I dont need}, more and more and more text I do not need
</script>
</div>
</body>
我希望能够高效地刮取这个ajaxurl,以提取asin列表,并将该列表放入一个单列字典中写入数据帧。最后一个doctorial将是1列“ASIN”,每行一个ASIN
您正试图从
<script>
标记中获取数据,BeautifulSoup对此不会有太大帮助。但是您可以使用re
和ast.literal_eval
来解析这些值:印刷品:
使用
re
模块就足以提取页面上的JSON,然后可以使用.content.ASINList
对其进行索引 给你:输出:
相关问题 更多 >
编程相关推荐