Python texta-mlp包_程序模块 - PyPI

text多语言处理器（MLP）

texta-mlp的Python项目详细描述

TEXTA MLP Python包

http://pypi.texta.ee/texta-mlp/

安装

要求

apt-get install python3-lxml

来自PyPI

pip3 install texta-mlp

来自Git

pip3 install git+https://git.texta.ee/texta/texta-mlp-python.git

测试

python3 -m pytest -v tests

使用

加载MLP

支持的语言：https://stanzanlp.github.io/stanzanlp/models.html

>>> from texta_mlp.mlp import MLP
>>> mlp = MLP(language_codes=["et","en","ru"])

处理爱沙尼亚语

^{pr2}$

您可以使用“analyzers”参数限制要分析和返回的数据量，从而加快处理速度。可接受的选项有：[“引理”，“pos_tags”，“translation”，“ner”，“contacts”，“entity_mapper”，“all”] 其中“all”表示您希望使用所有的分析器（花费最多的时间）。默认情况下，此值为“全部”。在

>>> mlp.process("Selle eestikeelse lausega võiks midagi ehk öelda.", analyzers=["lemmas", "postags"])

对俄语进行处理和语法化

>>> mlp.process("Лукашенко заявил о договоренности Москвы и Минска по нефти.")
{'text': {'text': 'Лукашенко заявил о договоренности Москвы и Минска по нефти .', 'lang': 'ru', 'lemmas': 'лукашенко заявить о договоренность москва и минск по нефть .', 'pos_tags': 'X X X X X X X X X X', 'transliteration': 'Lukašenko zajavil o dogovorennosti Moskvõ i Minska po nefti .'}, 'texta_facts': []}
>>>
>>> mlp.lemmatize("Лукашенко заявил о договоренности Москвы и Минска по нефти.")
'лукашенко заявить о договоренность москва и минск по нефть .

英语处理和词法化

>>> mlp.process("Test sencences are rather difficult to come up with.")
{'text': {'text': 'Test sencences are rather difficult to come up with .', 'lang': 'en', 'lemmas': 'Test sencence be rather difficult to come up with .', 'pos_tags': 'NN NNS VBP RB JJ TO VB RB IN .'}, 'texta_facts': []}
>>>
>>> mlp.lemmatize("Test sencences are rather difficult to come up with.")
'Test sencence be rather difficult to come up with .'

使MLP对未知语言抛出异常

默认情况下，如果语言未知，MLP将默认为爱沙尼亚语。为了不这样做，必须在初始化MLP时提供use_default_language_code=False。在

>>> mlp.process("المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق. وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء.")
{'text': {'text': 'المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق . وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء .', 'lang': 'et', 'lemmas': 'lee 1 يولد جميع الناس leele leele في leele leele . وقد وهبوا عقلاً leele lee أن يعامل بعضهم بعضًا بروح lee .', 'pos_tags': 'S N S S S S S S S S Z S S S S S S S S Y Y Y Z'}, 'texta_facts': []}
>>>
>>> mlp = MLP(language_codes=["et","en","ru"], use_default_language_code=False)
>>> mlp.process("المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق. وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء.")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/rsirel/dev/texta-mlp-package/texta_mlp/mlp.py", line 150, in process
    document = self.generate_document(raw_text, loaded_analyzers)
  File "/home/rsirel/dev/texta-mlp-package/texta_mlp/mlp.py", line 96, in generate_document
    lang = self.detect_language(processed_text)
  File "/home/rsirel/dev/texta-mlp-package/texta_mlp/mlp.py", line 89, in detect_language
    raise LanguageNotSupported("Detected language is not supported: {}.".format(lang))
texta_mlp.exceptions.LanguageNotSupported: Detected language is not supported: ar.

更改默认语言代码

请使用其他语言作为默认语言，在初始化MLP时必须提供default\ulanguage\ucode。在

>>> mlp = MLP(language_codes=["et", "en", "ru"], default_language_code="en")
>>>
>>> mlp.process("المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق. وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء.")
{'text': {'text': 'المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق . وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء .', 'lang': 'en', 'lemmas': 'المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق . وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء .', 'pos_tags': 'NN CD , NN NN NN NN IN NN NN . UH NN NN NN NN NN NN NN NN NN NN .'}, 'texta_facts': []}

处理阿拉伯语（这次是真的）

>>> mlp = MLP(language_codes=["et","en","ru", "ar"])
>>> mlp.process("المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق. وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضًا بروح الإخاء.")
{'text': {'text': 'المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق . وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضا بروح الإخاء .', 'lang': 'ar', 'lemmas': 'مَادَّة 1 وَلَّد جَمِيع إِنسَان حَرَر مُتَسَاوِي فِي كَرَامَة والحقوق . وَقَد وَ عَقَل وضميراً وعليهم أَنَّ يعامل بعضهم بَعض بروح إِخَاء .', 'pos_tags': 'N------S1D Q--------- VIIA-3MS-- N------S4R N------P2D N------P4I A-----MP4I P--------- N------S2D U--------- G--------- U--------- VP-A-3MP-- N------S4I A-----MS4I U--------- C--------- VISA-3MS-- U--------- N------S4I U--------- N------S2D G---------', 'transliteration': "AlmAdp 1 ywld jmyE AlnAs >HrArFA mtsAwyn fy AlkrAmp wAlHqwq . wqd whbwA EqlAF wDmyrFA wElyhm >n yEAml bEDhm bEDA brwH Al<xA' ."}, 'texta_facts': []}
>>>
>>> mlp.lemmatize("المادة 1 يولد جميع الناس أحرارًا متساوين في الكرامة والحقوق. وقد وهبوا عقلاً وضميرًا وعليهم أن يعامل بعضهم بعضا بروح الإخاء.")
'مَادَّة 1 وَلَّد جَمِيع إِنسَان حَرَر مُتَسَاوِي فِي كَرَامَة والحقوق . وَقَد وَ عَقَل وضميراً وعليهم أَنَّ يعامل بعضهم بَعض بروح إِخَاء .'

使用自定义资源路径加载MLP

>>> mlp = MLP(language_codes=["et","en","ru"], resource_dir="/home/kalevipoeg/mlp_resources/")

不同的电话解析器

Texta MLP有三种不同的电话解析器：

在
默认情况下使用“phone_strict”。它只解析那些由phonenumbers library验证的数字。如果前面有区号，它会验证所有正确的号码。否则（没有区号），它只验证爱沙尼亚语（“EE”）和俄语（“RU”）电话号码。这是因为在这个示例“maksekorradusele märkida viitenumber 2800049900 ning selgitus…”中，“2800049900”在英国（“GB”）是有效的数字，但不带“EE”或“RU”。在
在
在
“phone_high_precision”，其输出主要是regex提取的电话号码，但regex不包括复杂版本。在
在
在
“phone_high_recall”最初用于电子邮件，它可以获取大部分电话号码（包括复杂版本），但也会输出大量嘈杂的数据。默认情况下，解析器也用于连接关闭实体（如下所示）。这意味着在连接时，只考虑“PHONE_high_recall”事实，而不包括其他解析器的结果（避免重叠）。其他解析器的结果不会丢失，仍然会添加到texta\u facts中。只是不是在“有界”这个事实下。在
在

您可以这样选择解析器：

>>> mlp.process(analyzers=["lemmas", "phone_high_precision"], raw_text= "My phone number is 12 34 56 77.")

连接闭合实体

让我们在下面三个字母上测试MLP（）和Concatenator（）。字母1：

Dear all, 

Let`s not forget that I intend to concure the whole of Persian Empire!

Best wishes,
Alexander Great
aleksandersuur356eKr@mail.ee
phone: 76883266

信函2：

От: Terry Pratchett < tpratchett@gmail.com >
Кому: Joe Abercrombie < jabercrombie@gmail.com >
Название: Разъяснение

Дорогой Joe,

Как вы? Надеюсь, у тебя все хорошо. Последний месяц я писал свой новый роман, 
который обещал представить в начале лета. Я тоже немного почитал и обожаю твою 
новую книгу!

Я просто хотел уточнить, что Alexander Great жил в Македонии.

Лучший,
Terry

字母3：

Dear Terry!

Terry Pratchett already created Discworld. This name is taken. Other than that I found 
the piece fascanating and see great potential in you! I strongly encourage you to take 
action in publishing your works. Btw, if you would like to show your works to Pratchett 
as well, he`s interested. I talked about you to him. His email is tpratchett@gmail.com. 
Feel free to write him!

Joe


From: Terry Berry < bigfan@gmail.com >
To: Joe Abercrombie < jabercrombie@gmail.com >
Title: Question

Hi Joe,

I finally finished my draft and I`m sending it to you. The hardest part 
was creating new places. What do you think of the names of the places I created?

Terry Berry

让我们把这些信都读到一个叫做“邮箱”的列表中。我们将处理上述信件并将其保存到jsonlines文件中。在

from texta_mlp.mlp import MLP
mlp = MLP(language_codes=["et","en","ru"])
processed_letters = []
for letter in mailbox:
    processed_letters += [mlp.process(letter)]
   
import jsonlines
with jsonlines.open("letters.jsonl", mode="w") as writer:
    writer.write_all(processed_letters)

MLP（）已经创建了一个事实边界，它将字母中最近的实体绑定在一起。为了整理整个邮箱中的信息，我们必须连接有界事实。这意味着建立一个从不同信件中获取的个人信息的数据库。为此，我们使用Concatenator（），它的输入是经过处理的字母。在

from texta_mlp.concatenator import Concatenator

cn = Concatenator()
cn.load_bounded_from_jsonl(path = "letters.jsonl")
#cn.load_bounded_fron_jsonl() uses default path "mlpanalyzed.jsonl"

然后我们将连接有界事实。请注意，对于大邮箱，可能需要2小时！在

cn.concatenate()

我们可以使用函数检查数据库列表的长度和内容：

cn.\u just_pers_infos（）（键入“close_persons”，用字母表示接近的人）
cn.\u bounded（）（原始的无约束有界）
cn.\u unconfirative_infos（）（键入“不确定谁的实体”，有两个候选人的企业，不确定它属于谁）
cn._no_personas_infos（）（键入“no_per_close_entities”，实体以字母结尾出现，但没有附近的人员）
cn.\u persona_infos（）（键入“person_info”，真正的交易，实体与其个人）。在

所有这些都可以保存到.jsonl文件中。在

cn.save_to_jsonlines(path="concatenated_bounds_from_mailbox.jsonl")
#cn.save_to_jsonlines() uses default path "concatenated_bounds.jsonl"

“连接边界”的输出_邮箱_ ._jsonl_“：

{"type": "person_info", "PER": "Alexander Great", "LOC": ["Македония", "Persian Empire"], "EMAIL": ["aleksandersuur356eKr@mail.ee"], "PHONE": ["76883266"]}
{"type": "person_info", "PER": "Joe Abercrombie", "EMAIL": ["jabercrombie@gmail.com"]}
{"type": "person_info", "PER": "Terry Berry", "EMAIL": ["bigfan@gmail.com"]}
{"type": "person_info", "PER": "Terry Pratchett", "EMAIL": ["tpratchett@gmail.com"]}

处理Elasticsearch

我们也可以将Elasticsearch与Concatenator（）一起使用。下面是一个片段，用于从Elasticsearch获取并处理MLP（）已处理的文档，然后将它们上载到新索引中。在

from texta_mlp.concatenator import Concatenator
cn = Concatenator()
cn.load_bounded_from_elastic(es_url= 'http://localhost:8888', index_name = "mlp_processed_mails")
cn.concatenate()
cn.save_to_elasticsearch(index_name = 'http://localhost:8888', es_url = "mails_concatenated_bounded")

使用justcn.荷载由_-elastic限定（）使用默认设置：

cn.load_bounded_from_elasticsearch(es_url= 'http://elastic-dev.texta.ee:9200', index_name = "mlp_processed_mails")

使用justcn.save_-to-u弹性搜索（）使用默认设置：

^{pr21}$
标签：
项目
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
mordor
阴影之地
chessmaster
象棋大师挑战赛
pca_module
python的pca模块（支持svd和nipals）
observer.simple
观察者模式的一个非常简单的实现
greece
希腊模式
etherweaver
没有项目描述
Pebble
线程和多处理的眼睛糖果。
datasette-render-images
使用数据uri呈现二进制blob图像的dataset插件
pandoc-docx-pagebreak
用于docx输出的pandoc筛选器，可随意插入pagebreak
Flask-Celery-py3
芹菜3.0+烧瓶集成（python 3版本）
sysca
系统管理员证书工具
secfilings
一个简单的实用程序，为提交文件的公司获取一些SEC表格。
geoClass
geojson地区gps点的分类
gsheet-keyring
这个包提供了一个由google表支持的keyring后端。
liu-anslagstavlan
与林克平大学公告栏合作的非官方图书馆。

导航栏
项目描述
版本历史
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
texta
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
无法使用Django/mongoengine连接到MongoDB（身份验证失败）
无法使用Django\u mssql\u后端迁移到外部hos
无法使用Django&Python3.4连接到MySql
无法使用Django+nginx上载媒体文件
无法使用Django1.6导入名称模式
无法使用Django1.7和mongodb登录管理站点
无法使用Djangoadmin创建项目，进程使用了错误的路径，因为我事先安装了错误的Python
无法使用Djangockedi验证CBV中的字段
无法使用Djangocketditor上载图像（错误400）
无法使用Djangocron进行函数调用
无法使用Djangofiler djang上载文件
无法使用Djangokronos
无法使用Djangomssql provid
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
无法使用Djangomssq迁移Django数据库

texta-mlp 1.5.1

texta-mlp的Python项目详细描述

TEXTA MLP Python包

安装

要求

来自PyPI

来自Git

测试

使用

加载MLP

处理爱沙尼亚语

对俄语进行处理和语法化

英语处理和词法化

使MLP对未知语言抛出异常

更改默认语言代码

处理阿拉伯语（这次是真的）

使用自定义资源路径加载MLP

不同的电话解析器

连接闭合实体

处理Elasticsearch

推荐PyPI第三方库

mordor

chessmaster

pca_module

observer.simple

greece

etherweaver

Pebble

datasette-render-images

pandoc-docx-pagebreak

Flask-Celery-py3

sysca

secfilings

geoClass

gsheet-keyring

liu-anslagstavlan

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签