擅长:python、mysql、java
<p>您可以通过</p>
<pre><code>https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz
</code></pre>
<p>若要通过浏览器访问,请将其附加到文件中提到的路径</p>
^{pr2}$
<p>在您通过s3访问的情况下,请尝试将其附加到路径中</p>
<pre><code>s3://commoncrawl/
</code></pre>