我在AWS/EMR中运行了一个流化步骤,用Python编写了一个映射器和reducer来映射一些常用的文档,以便进行情感分析。在
我正在从旧的通用爬网文本数据格式转移到新的格式warc.gz公司格式,我需要知道如何指定warc.gz公司我的电子病历输入文件。在
例如:
在旧格式中,我可以指定textData文件的输入范围,如下所示:
s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]
但新格式如下:
第一个文件:
^{pr2}$第二个文件:
s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz
如何指定映射这些warc.gz公司文件夹?在
您可以通过
若要通过浏览器访问,请将其附加到文件中提到的路径
^{pr2}$在您通过s3访问的情况下,请尝试将其附加到路径中
我很肯定你可以用以前用过的方法。要只读取要使用的两个文件:
s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz
此外,由于这些路径比前一个路径更丰富,因此您有其他方法来指定要处理的数据集。在
CC-MAIN-2016-07 is CC-MAIN-YYYY-ww
-指定要处理的年份或星期集的能力。在CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss
-您可以选择日期或时间范围。在相关问题 更多 >
编程相关推荐