擅长:python、mysql、java
<p>为了完成它,您可以执行两个主要步骤</p>
<ol>
<li>使用AWS胶水服务检查数据。您可以创建一个爬虫程序,使S3中的数据可查询<a href="https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html" rel="nofollow noreferrer">Glue Crawler</a></li>
<li>使用红移频谱直接从红移<a href="https://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html" rel="nofollow noreferrer">Redshift Spectrum</a>查询S3上的csv数据</li>
</ol>
<p>根据您的用例,还有其他有用的链接。例如,如果您的csv数据没有标题,您可以将分类器添加到爬虫程序以添加它们(您的数据不会被修改)<a href="https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html" rel="nofollow noreferrer">Crawler Classifier</a></p>
<p>如果不想使用Glue之类的服务,可以使用COPY命令
内部红移<a href="https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html" rel="nofollow noreferrer">COPY</a>。这样,您将在数据库中创建一个适当的表</p>