日本年报语料库
coarij的Python项目详细描述
日本年报语料库
我们组织了日本财务报告,鼓励将NLP技术应用于金融分析。在
数据集
您可以通过命令行工具下载数据集。在
pip install coarij
请参考--
(使用fire)的用法。在
示例命令。在
# Download raw file version dataset of 2014. coarij download --kind F --year 2014# Extract business.overview_of_result part of TIS.Inc (sec code=3626). coarij extract business.overview_of_result --sec_code 3626# Tokenize text by Janome (`janome` or `sudachi` is supported). pip install janome coarij tokenize --tokenizer janome # Show tokenized result (words are separated by \t). head -n 5 data/processed/2014/docs/S100552V_business_overview_of_result_tokenized.txt 1 【 業績 等 の 概要 】 (1) 業績 当 連結 会計 年度 における 我が国 経済 は 、 消費 税率 引上げ に 伴う 駆け込み 需要 の 反動 や 海外 景気 動向 に対する 先行き 懸念 等 から 弱い 動き も 見 られ まし た が 、 企業 収益 の 改善 等 により 全体 ...
- 关于可分离部分,请参考^{
} 。在
您可以使用Ledger
从整个CoARiJ数据集中选择所需的文件。在
fromcoarij.storageimportStoragestorage=Storage("your/data/directory")ledger=storage.get_ledger()collected=ledger.collect(edinet_code="E00021")
数据集
公司按每个财政年度分开。在
- 财务数据来自決算短信情報。
- 如果存在非共并数据,我们使用它。在
- 股票数据来自月間相場表(内国株式)。
close
是会计期间的结束,而{}是在此之前的一年。在
fiscal_year | Raw file version (F) | Text extracted version (E) |
---|---|---|
2014 | .zip (9.3GB) | .zip (269.9MB) |
2015 | .zip (9.8GB) | .zip (291.1MB) |
2016 | .zip (10.2GB) | .zip (334.7MB) |
2017 | .zip (9.1GB) | .zip (309.4MB) |
2018 | .zip (10.5GB) | .zip (260.9MB) |
History
统计学
^{tb2}$文件结构
原始文件版本(--kind F
)
数据集的结构如下。在
chakki_esg_financial_{year}.zip
└──{year}
├── documents.csv
└── docs/
{and file}包括^ cd7}。在
- XBRL年度报告文件(文件从EDINET检索)。在
- CSR报告的PDF文件(附加内容)。在
documents.csv
具有如下元数据。在
- 爱丁堡代码:
E0000X
- 文件管理器名称:
XXX株式会社
- 会计年度:
201X
- 会计期间:
FY
- 文档路径:
docs/S000000X.xbrl
- csr路径:
docs/E0000X_201X_JP_36.pdf
文本提取版本(--kind E
)
文本提取版本包括txt
个与年度报告的每个部分相匹配的文件。
提取的部分定义在^{
chakki_esg_financial_{year}_extracted.zip
└──{year}
├── documents.csv
└── docs/
- 项目
标签: