具有更多功能的python中的wordcount
wcp的Python项目详细描述
#wordcount python-[wc.py]
使用nlp标记器计算文本中单词的出现次数的实用工具。
\overview
>此存储库包含wordcount python[wc.py]的cli和sdk。
`wc.py'提供了一组工具来分析出现次数。跨单个或多个文档的单词集。它可以通过cli访问,也可以直接通过"wcpy"模块中的"wcextractor"和"wccore"类提供的sdk访问。
有关**cli接口快速启动**请参阅下面的**用户指南**。
下面的k接口**.
有关更高级的文档,请参阅官方的[wc py文档](https://axsauze.github.io/wcpy/)。
在您的计算机中,这样您就可以使用"wc.py"直接调用它了。
teru words[过滤单词…]
[--文件扩展文件扩展文件][--截断截断]
[--列列列[列…][--输出文件输出文件]
路径[路径…]
计算文件夹中文件的单词数
/>路径(必需)要从
可选参数计数单词的文件夹和/或文件的路径:
-h,--帮助显示此帮助消息并退出
-v,--版本显示程序的版本号,退出
--限制(可选)限制数字要显示的结果的数目。
--默认情况下,反转(可选)列表按升序排序,使用此标志将排序反转为降序。
--筛选单词筛选单词[筛选单词…]
(可选)您可以获取结果筛选仅限于提供的单词列表。
--文件扩展名文件扩展名(可选)这是所用文件的默认文件扩展名
--截断截断(可选)输出通常很大,可以通过传递大于5的数字截断输出umns…]
(可选)此参数允许您选择要在输出中显示的列。选项有:word、count、files和句子。
--输出文件output_file
(可选)定义输出文件以保存输出
示例用法:
wc.py./
wc.py./--limit 10
wc.py doc1.txt doc2.txt--f筛选单词工具awesome an
wc.py docs/tests/--truncate 100--columns单词计数
wc.py./--filter words工具awesome an--truncate 50--output output.txt
`````
wc.py./
````
```
````
```````
`````>
`````>
````````
``````
wc.py./
``````
````````
``````````
``````````````````````>wc.py doc2.txt doc1.txt——过滤单词工具A我们需要一个
````
```
```
````>wc.py tests/test_data/--truncate 20--列单词计数
`````
````
`````
````
``````
``````
``````
`````
````````
````````````
` ```````````````````>>
```E 50——输出Output.txt
```
`````
wc.py-v
`````
``sdk接口
:
*wccore类-与文件路径交互
*wcextractor类-与文件和文本交互
wccore类
/>
m一个文件,并构建一个wc掼dict对象
<根据函数名的建议,该函数将wc dict对象转换为已排序的wc list对象。
>
<;word 1::str>;
word计数:
<;字计数::int>;,
文件:{
<;文件路径::str>;:[
<;行1::str>;,
<;行2::str>;,
…
]
},
{
…
}
},
<;字2::str>;:…
}
```
` ` ` ` ` ` `
{
"word":<;word_1::str>;,
word计数:<;word_count::int>;,
文件:{
<;file_path::str>;[
<;第1行:str;第1行:str;第1行:str;第2行:str;第2行:str;第>;,
<>…
]
}
},
{
"word":<;word庘2::str>;,
…
}
]
`````
py install_data
```
数据集包括存储库和pypi包,但是如果您想加载更多语言,可以使用以下命令:
````
python-c"import nltk;nltk.download('punkt')"
````
testing
```
python setup.py test
`````
使用nlp标记器计算文本中单词的出现次数的实用工具。
\overview
>此存储库包含wordcount python[wc.py]的cli和sdk。
`wc.py'提供了一组工具来分析出现次数。跨单个或多个文档的单词集。它可以通过cli访问,也可以直接通过"wcpy"模块中的"wcextractor"和"wccore"类提供的sdk访问。
有关**cli接口快速启动**请参阅下面的**用户指南**。
下面的k接口**.
有关更高级的文档,请参阅官方的[wc py文档](https://axsauze.github.io/wcpy/)。
在您的计算机中,这样您就可以使用"wc.py"直接调用它了。
teru words[过滤单词…]
[--文件扩展文件扩展文件][--截断截断]
[--列列列[列…][--输出文件输出文件]
路径[路径…]
计算文件夹中文件的单词数
/>路径(必需)要从
可选参数计数单词的文件夹和/或文件的路径:
-h,--帮助显示此帮助消息并退出
-v,--版本显示程序的版本号,退出
--限制(可选)限制数字要显示的结果的数目。
--默认情况下,反转(可选)列表按升序排序,使用此标志将排序反转为降序。
--筛选单词筛选单词[筛选单词…]
(可选)您可以获取结果筛选仅限于提供的单词列表。
--文件扩展名文件扩展名(可选)这是所用文件的默认文件扩展名
--截断截断(可选)输出通常很大,可以通过传递大于5的数字截断输出umns…]
(可选)此参数允许您选择要在输出中显示的列。选项有:word、count、files和句子。
--输出文件output_file
(可选)定义输出文件以保存输出
示例用法:
wc.py./
wc.py./--limit 10
wc.py doc1.txt doc2.txt--f筛选单词工具awesome an
wc.py docs/tests/--truncate 100--columns单词计数
wc.py./--filter words工具awesome an--truncate 50--output output.txt
`````
wc.py./
````
```
````
```````
`````>
`````>
````````
``````
wc.py./
``````
````````
``````````
``````````````````````>wc.py doc2.txt doc1.txt——过滤单词工具A我们需要一个
````
```
```
````>wc.py tests/test_data/--truncate 20--列单词计数
`````
````
`````
````
``````
``````
``````
`````
````````
````````````
` ```````````````````>>
```E 50——输出Output.txt
```
`````
wc.py-v
`````
``sdk接口
:
*wccore类-与文件路径交互
*wcextractor类-与文件和文本交互
wccore类
/>
m一个文件,并构建一个wc掼dict对象
<根据函数名的建议,该函数将wc dict对象转换为已排序的wc list对象。
>
<;word 1::str>;
word计数:
<;字计数::int>;,
文件:{
<;文件路径::str>;:[
<;行1::str>;,
<;行2::str>;,
…
]
},
{
…
}
},
<;字2::str>;:…
}
```
` ` ` ` ` ` `
{
"word":<;word_1::str>;,
word计数:<;word_count::int>;,
文件:{
<;file_path::str>;[
<;第1行:str;第1行:str;第1行:str;第2行:str;第2行:str;第>;,
<>…
]
}
},
{
"word":<;word庘2::str>;,
…
}
]
`````
py install_data
```
数据集包括存储库和pypi包,但是如果您想加载更多语言,可以使用以下命令:
````
python-c"import nltk;nltk.download('punkt')"
````
testing
```
python setup.py test
`````