埃德加足球俱乐部

corpcrawl的Python项目详细描述


#关于 这是证券交易委员会edgar数据库的python scraper。看10K表 要求上市公司向美国证券交易委员会提交的文件。然后它试图提取 10K附件21.1中的附属关系。

corpcrawl是一个与存储无关的scraper,因此您需要实现自己的存储方案。

#安装 您可以通过pip从pypi获得包。

pip install corpcrawl

在python控制台中,您可以尝试

import corpcrawl

如果成功了,您就可以开始了

#如何使用

##运行它 首先导入所需的零件

from corpcrawl.crawler import CorpCrawl from corpcrawl.backend import Backend

def main()
my_backend = MyBackend() crawler = CorpCrawl(cache_path = ‘/an/absolute/path/to/some/dir’, backend = my_backend) c.crawl(years = [2011, 2012], quarters = [1, 2, 3, 4])

class MyBackend(Backend):

def get_company(self, name):
pass
def add_company(self, comp):
print “Adding %s” % str(comp)

这是一个尽可能简单的后端。此代码将抓取文件并打印出每个文件的名称 2011年和2012年各季度发现的公司和子公司。 很明显你会想把它连接到一个数据库或者别的什么东西上。

#注释 sec的数据是非常非结构化的。因此,有很多错误。这是0.0.1版,因此 实现您自己的方法来按摩它返回的数据,如果您能够贡献 所以让核心解析器更好。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在sqlite数据库中保存特定列的历史记录   java如何更改/更新timeseriechart名称(JFreeChart)   java如何将整数转换为可绘制的   汇编什么解释Java的字节码   java查找已编译的类版本号   我应该什么时候在ColdFusion应用程序中使用Java?   java当一个实体的两个字段为(unique=true)时,如何处理JPA异常?   java为什么在所有其他实例都正确的情况下返回错误的布尔值?   java Hibernate每次都准备语句   java停留在平均字长上   对Java和日语字符进行编码   java如何将导致异常的方法的错误消息传递给侦听器中的onTestFailure方法   java代码没有打印结果   java为什么私有内部接口的方法必须是公共的?   休眠发生错误。有关详细信息,请参阅错误日志。JAVAlang.NullPointerException