映射范围warc.gz公司文件，电子病历

2条回答

网友

1楼 · 编辑于 2024-10-04 03:20:31

您可以通过

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz

若要通过浏览器访问，请将其附加到文件中提到的路径

^{pr2}$

在您通过s3访问的情况下，请尝试将其附加到路径中

s3://commoncrawl/

网友

2楼 · 编辑于 2024-10-04 03:20:31

我很肯定你可以用以前用过的方法。要只读取要使用的两个文件：

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

此外，由于这些路径比前一个路径更丰富，因此您有其他方法来指定要处理的数据集。在

CC-MAIN-2016-07 is CC-MAIN-YYYY-ww-指定要处理的年份或星期集的能力。在

CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss-您可以选择日期或时间范围。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

映射范围warc.gz公司文件，电子病历

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >