pyhton请求未获得全部d问题的回答

pyhton请求未获得全部d

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正试着从Google translate中搜集数据，用于教育目的。你知道吗 这是<a href="https://gist.github.com/maifeeulasad/9860ef03065f2c0be557dbae509fea14#file-phonetizer-py" rel="nofollow noreferrer">code</a> <pre><code>from urllib.request import Request, urlopen from bs4 import BeautifulSoup #https://translate.google.com/#view=home&op=translate&sl=en&tl=en&text=hello #tlid-transliteration-content transliteration-content full class Phonetizer: def __init__(self,sentence : str,language_ : str = 'en'): self.words=sentence.split() self.language=language_ def get_phoname(self): for word in self.words: print(word) url="https://translate.google.com/#view=home&op=translate&sl="+self.language+"&tl="+self.language+"&text="+word print(url) req = Request(url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0'}) webpage = urlopen(req).read() f= open("debug.html","w+") f.write(webpage.decode("utf-8")) f.close() #print(webpage) bsoup = BeautifulSoup(webpage,'html.parser') phonems = bsoup.findAll("div", {"class": "tlid-transliteration-content transliteration-content full"}) print(phonems) #break </code></pre> 问题是当给我html时，没有css的<code>tlid-transliteration-content transliteration-content full</code>类。你知道吗 但是使用inspect，我发现，音素在这个css类中，这里简单介绍一下： <a href="https://i.stack.imgur.com/F4dNA.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/F4dNA.png" alt="google_translate_scrap"/></a> 我已经保存了html，而且<a href="https://gist.github.com/maifeeulasad/9860ef03065f2c0be557dbae509fea14#file-debug-html" rel="nofollow noreferrer">here</a>它是，看一看，没有<code>tlid-transliteration-content transliteration-content full</code>是存在的，它不像其他谷歌翻译页面，它是不完整的。我听过谷歌阻止爬虫，机器人，spyder。而且很容易被他们的系统检测到，所以我添加了额外的标题，但仍然无法访问整个页面。你知道吗 我该怎么做？访问整个页面并从谷歌翻译页面读取所有数据？ <a href="https://github.com/maifeeulasad/phonetizer-google" rel="nofollow noreferrer">Want to contribute on this project?</a> 我尝试了以下代码： <pre><code>from requests_html import AsyncHTMLSession asession = AsyncHTMLSession() lang = "en" word = "hello" url="https://translate.google.com/#view=home&op=translate&sl="+lang+"&tl="+lang+"&text="+word async def get_url(): r = await asession.get(url) print(r) return r results = asession.run(get_url) for result in results: print(result.html.url) print(result.html.find('#tlid-transliteration-content')) print(result.html.find('#tlid-transliteration-content transliteration-content full')) </code></pre> 到现在为止，我什么也没得到

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

首先，我建议您使用googletranslateapi，而不是刮Google页面。API是一个百倍容易，无麻烦，合法和传统的方式来做这件事。你知道吗 但是，如果您想解决这个问题，这里有一个解决方案。你不是在处理机器人检测。谷歌的机器人检测功能非常强大，它只会打开Google <code>re-captcha</code>页面，甚至不会显示你想要的网页。这里的问题是，翻译结果不会使用您使用的URL返回。这个URL只显示基本的翻译页面，结果稍后由<code>javascript</code>获取，并在页面加载后显示在页面上。javascript不被<code>python-requests</code>处理，这就是为什么类甚至不存在于您正在访问的<code>web-page</code>中的原因。你知道吗 解决方案是跟踪数据包并检测<code>URL</code>正在使用哪个<code>javascript</code>来获取结果。幸运的是，我找到了用于此目的的<code>URL</code>。如果您请求<code>https://translate.google.com/translate_a/single?client=webapp&sl=en&tl=fr&hl=en&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss&dt=t&dt=gt&source=bh&ssel=0&tsel=0&kc=1&tk=327718.241137&q=goodmorning</code>，您将得到翻译程序的响应，即JSON。您可以解析JSON以获得所需的结果。在这里，您可以面对Bot检测，它可以直接抛出http403错误。你知道吗 您还可以使用<code>selenium</code>来处理<code>javascript</code>并给出结果。代码中的以下更改可以使用<code>selenium</code>修复它 <pre><code>from selenium import webdriver from urllib.request import Request, urlopen from bs4 import BeautifulSoup #https://translate.google.com/#view=home&op=translate&sl=en&tl=en&text=hello #tlid-transliteration-content transliteration-content full class Phonetizer: def __init__(self,sentence : str,language_ : str = 'en'): self.words=sentence.split() self.language=language_ def get_phoname(self): for word in self.words: print(word) url="https://translate.google.com/#view=home&op=translate&sl="+self.language+"&tl="+self.language+"&text="+word print(url) #req = Request(url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0'}) #webpage = urlopen(req).read() driver = webdriver.Chrome() driver.get(url) webpage = driver.page_source driver.close() f= open("debug.html","w+") f.write(webpage.decode("utf-8")) f.close() #print(webpage) bsoup = BeautifulSoup(webpage,'html.parser') phonems = bsoup.findAll("div", {"class": "tlid-transliteration-content transliteration-content full"}) print(phonems) #break </code></pre>

pyhton请求未获得全部d

1 个回答

相关Python问题