日本年报语料库

coarij的Python项目详细描述


日本年报语料库

PyPI versionBuild Statuscodecov

我们组织了日本财务报告,鼓励将NLP技术应用于金融分析。在

数据集

您可以通过命令行工具下载数据集。在

pip install coarij

请参考--(使用fire)的用法。在

^{pr2}$

示例命令。在

# Download raw file version dataset of 2014.
coarij download --kind F --year 2014# Extract business.overview_of_result part of TIS.Inc (sec code=3626).
coarij extract business.overview_of_result --sec_code 3626# Tokenize text by Janome (`janome` or `sudachi` is supported).
pip install janome
coarij tokenize --tokenizer janome

# Show tokenized result (words are separated by \t).
head -n 5 data/processed/2014/docs/S100552V_business_overview_of_result_tokenized.txt
1       【      業績    等      の      概要    】
(1)               業績
当      連結    会計    年度    における        我が国  経済    は      、     消費    税率    引上げ  に      伴う    駆け込み        需要    の      反動   や      海外    景気    動向    に対する        先行き  懸念    等      から   弱い    動き    も      見      られ    まし    た      が      、      企業   収益    の      改善    等      により  全体  ...
  • 关于可分离部分,请参考^{}。在

您可以使用Ledger从整个CoARiJ数据集中选择所需的文件。在

fromcoarij.storageimportStoragestorage=Storage("your/data/directory")ledger=storage.get_ledger()collected=ledger.collect(edinet_code="E00021")

数据集

公司按每个财政年度分开。在

fiscal_yearRaw file version (F)Text extracted version (E)
2014.zip (9.3GB).zip (269.9MB)
2015.zip (9.8GB).zip (291.1MB)
2016.zip (10.2GB).zip (334.7MB)
2017.zip (9.1GB).zip (309.4MB)
2018.zip (10.5GB).zip (260.9MB)

History

统计学

^{tb2}$

文件结构

原始文件版本(--kind F

数据集的结构如下。在

chakki_esg_financial_{year}.zip
└──{year}
     ├── documents.csv
     └── docs/

{and file}包括^ cd7}。在

  • XBRL年度报告文件(文件从EDINET检索)。在
  • CSR报告的PDF文件(附加内容)。在

documents.csv具有如下元数据。在

  • 爱丁堡代码:E0000X
  • 文件管理器名称:XXX株式会社
  • 会计年度:201X
  • 会计期间:FY
  • 文档路径:docs/S000000X.xbrl
  • csr路径:docs/E0000X_201X_JP_36.pdf

文本提取版本(--kind E

文本提取版本包括txt个与年度报告的每个部分相匹配的文件。
提取的部分定义在^{}。在

chakki_esg_financial_{year}_extracted.zip
└──{year}
     ├── documents.csv
     └── docs/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java传递实现接口的内部类   java为什么managedbean方法在post请求中的过滤器调用之前调用   java Android应用程序在Android M,O上崩溃,登录A/libc时出错:tid 17938中的致命信号11(SIGSEGV),代码2,故障地址0x343a2944   java JPA存储库。findByAll()返回null,但数据库中存在所有内容   用于发送电子邮件的java Ant脚本   Java小程序HTML页面发生了奇怪的事情   在Postman的请求正文中传递多个JSON数据,并使用Jersy(JXRS)进入Java Rest API   无法强制转换java DAO类   10分钟后重新连接java   正则表达式如何在java中选择字符串直到某个字符   java我的输出有一些问题   Objective中的java时间段   java如何在新屏幕上基于按钮单击在webview中打开url   java哪个selenium版本与Firefox ESR 45.2.0兼容   java无法使用Apache Camel 3.1.0将XML转换为JSON