擅长:python、mysql、java
<p>我很肯定你可以用以前用过的方法。要只读取要使用的两个文件:</p>
<p><code>s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz</code></p>
<p>此外,由于这些路径比前一个路径更丰富,因此您有其他方法来指定要处理的数据集。在</p>
<p><code>CC-MAIN-2016-07 is CC-MAIN-YYYY-ww</code>-指定要处理的年份或星期集的能力。在</p>
<p><code>CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss</code>-您可以选择日期或时间范围。在</p>