Python coarij包_程序模块 - PyPI

日本年报语料库

coarij的Python项目详细描述

日本年报语料库

我们组织了日本财务报告，鼓励将NLP技术应用于金融分析。在

数据集

您可以通过命令行工具下载数据集。在

pip install coarij

请参考--（使用fire）的用法。在

^{pr2}$

示例命令。在

# Download raw file version dataset of 2014.
coarij download --kind F --year 2014# Extract business.overview_of_result part of TIS.Inc (sec code=3626).
coarij extract business.overview_of_result --sec_code 3626# Tokenize text by Janome (`janome` or `sudachi` is supported).
pip install janome
coarij tokenize --tokenizer janome

# Show tokenized result (words are separated by \t).
head -n 5 data/processed/2014/docs/S100552V_business_overview_of_result_tokenized.txt
1       【      業績    等      の      概要    】
(1)               業績
当      連結    会計    年度    における        我が国  経済    は      、     消費    税率    引上げ  に      伴う    駆け込み        需要    の      反動   や      海外    景気    動向    に対する        先行き  懸念    等      から   弱い    動き    も      見      られ    まし    た      が      、      企業   収益    の      改善    等      により  全体  ...

关于可分离部分，请参考^{}。在

您可以使用Ledger从整个CoARiJ数据集中选择所需的文件。在

fromcoarij.storageimportStoragestorage=Storage("your/data/directory")ledger=storage.get_ledger()collected=ledger.collect(edinet_code="E00021")

数据集

公司按每个财政年度分开。在

财务数据来自決算短信情報。
- 如果存在非共并数据，我们使用它。在
在
股票数据来自月間相場表（内国株式）。
- close是会计期间的结束，而{}是在此之前的一年。在
在

fiscal_year	Raw file version (F)	Text extracted version (E)
2014	.zip (9.3GB)	.zip (269.9MB)
2015	.zip (9.8GB)	.zip (291.1MB)
2016	.zip (10.2GB)	.zip (334.7MB)
2017	.zip (9.1GB)	.zip (309.4MB)
2018	.zip (10.5GB)	.zip (260.9MB)

History

v1.0

统计学

^{tb2}$

文件结构

原始文件版本（`--kind F`）

数据集的结构如下。在

chakki_esg_financial_{year}.zip
└──{year}
     ├── documents.csv
     └── docs/

{and file}包括^ cd7}。在

XBRL年度报告文件（文件从EDINET检索）。在
CSR报告的PDF文件（附加内容）。在

documents.csv具有如下元数据。在

爱丁堡代码：E0000X
文件管理器名称：XXX株式会社
会计年度：201X
会计期间：FY
文档路径：docs/S000000X.xbrl
csr路径：docs/E0000X_201X_JP_36.pdf

文本提取版本（`--kind E`）

文本提取版本包括txt个与年度报告的每个部分相匹配的文件。
提取的部分定义在^{}。在

chakki_esg_financial_{year}_extracted.zip
└──{year}
     ├── documents.csv
     └── docs/

欢迎加入QQ群-->： 979659372

coarij 0.2.7

coarij的Python项目详细描述

日本年报语料库

数据集

数据集

统计学

文件结构

原始文件版本（`--kind F`）

文本提取版本（`--kind E`）

推荐PyPI第三方库

watools

pydslice

odoo12-addon-base-ubl

crc-ct

odoo8-addon-project-categ-issue

allurlstatus

odoo10-addon-account-invoice-import-ubl

malmoext

our_groceries_client

magnetic-field-calculator

loose-server

Flask-Bitmapist

shellerate

pythontwist

githubclient

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

coarij 0.2.7

coarij的Python项目详细描述

日本年报语料库

数据集

数据集

统计学

文件结构

原始文件版本（--kind F）

文本提取版本（--kind E）

推荐PyPI第三方库

watools

pydslice

odoo12-addon-base-ubl

crc-ct

odoo8-addon-project-categ-issue

allurlstatus

odoo10-addon-account-invoice-import-ubl

malmoext

our_groceries_client

magnetic-field-calculator

loose-server

Flask-Bitmapist

shellerate

pythontwist

githubclient

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

原始文件版本（`--kind F`）

文本提取版本（`--kind E`）

导航栏

项目链接

标签