臃肿切除术:一种识别和删除电子健康记录和其他文件中膨胀的文字的方法。

bloatectom的Python项目详细描述


肿胀切除术

臃肿切除术:一种识别和删除电子健康记录和其他文件中膨胀的文字的方法。接受要标记为重复的注释列表或单个文件(.docx、.txt、.rtf等)或单个字符串。标记的输出和标记是输出。在

要求

  • Python>;=3.7.x(为了使正则表达式正常工作)
  • 关于
  • 系统
  • 熊猫(可选,仅当使用模拟III数据时才需要)
  • docx(可选,仅当输入或输出是word/docx文件时才需要)

安装

使用水蟒或迷你水蟒

conda install -c summerkrankin bloatectomy

通过PyPI使用pip
如果默认值是python2,请确保将其安装到python3

^{pr2}$

通过github使用pip

python3 -m pip install git+git://github.com/MIT-LCP/bloatectomy

通过克隆存储库手动安装

git clone git://github.com/MIT-LCP/bloatectomy
cd bloatectomy
python3 setup.py install

示例

使用以下选项对示例字符串运行bloatecution:

  • 突出显示重复项
  • 显示原始结果
  • 以html格式输出文件
  • 带编号标记的输出文件:
from bloatectomy import bloatectomy

text = '''Assessment and Plan
61 yo male Hep C cirrhosis
Abd pain:
-other labs: PT / PTT / INR:16.6//    1.5, CK / CKMB /
ICU Care
-other labs: PT / PTT / INR:16.6//    1.5, CK / CKMB /
Assessment and Plan
'''

bloatectomy(text, style='highlight', display=True, filename='sample_txt_highlight_output', output='html', output_numbered_tokens=True)

要使用示例文本或加载ipynb示例,请下载存储库或仅下载bloatecution_examples文件夹

cd bloatectomy_examples
from bloatectomy import bloatectomy

bloatectomy('./input/sample_text.txt',
            style='highlight', display=False,
            filename='./output/sample_txt_highlight_output',
            output='html',
            output_numbered_tokens=True,
            output_original_tokens=True)

文件

本文位于TBA

class bloatectomy(input_text,
                  path = '',
                  filename='bloatectomized_file',
                  display=False,
                  style='highlight',
                  output='html',
                  output_numbered_tokens=False,
                  output_original_tokens=False,
                  regex1=r"(.+?\.[\s\n]+)",
                  regex2=r"(?=\n\s*[A-Z1-9#-]+.*)",
                  postgres_engine=None,
                  postgres_table=None)

参数

input_text:文件,str,list
输入文档(.txt、.rtf、.docx)、文本字符串或postgres MIMICII数据库或原始文本的hadm_ID列表。在

style:str,可选,默认值=highlight
表示重复项的方法。允许以下内容:highlightboldremov。在

filename:str,可选,默认值=bloatectomized_file 一个字符串,用于命名已消除膨胀的文档的输出文件。在

path:str,可选,默认值=' '
输出文件的目录。在

output_numbered_tokens:bool,可选,默认值=False
如果设置为True,则将以[filename]_token_numbers.txt的形式输出一个.txt文件,其中每个标记都被枚举并标记为重复。这在诊断您自己的正则表达式进行标记化或测试styleremov选项时非常有用。在

output_original_tokens:bool,可选,默认值=False
如果设置为True,则将以[filename]_original_token_numbers.txt的形式输出一个.txt文件,其中每个原始(未标记)标记为枚举但未标记为重复。在

display:bool,可选,默认值=False
如果设置为True,完成后膨胀的文本将显示在控制台中。在

regex1:str,可选,默认值=r"(.+?\.[\s\n]+)"
第一个标记化的正则表达式。在句点(.)上拆分,后跟一个或多个空白字符(空格、制表符、换行符)或换行符(\n)。这可以替换为任何有效的正则表达式,以更改令牌的创建方式。在

regex2:str,可选,默认值=r"(?=\n\s*[A-Z1-9#-]+.*)"
第二个标记化的正则表达式。拆分任何换行字符(\n),后跟大写字母、数字或破折号。这可以替换为任何有效的正则表达式来更改子标记的创建方式。在

postgres_引擎:str,可选 postgres连接。仅适用于模拟III数据集。当从postgres中提取数据时,文件的hadm_id将附加到filename中(如果设置)或默认值bloatectomized_file。示例代码请参见jupyter笔记本mimic_bloatectomy_example。在

postgres_table:str,可选 包含连接注释的postgres表的名称。仅适用于模拟III数据集。当从postgres中提取数据时,文件的hadm_id将附加到filename中(如果设置)或默认值bloatectomized_file。示例代码请参见jupyter笔记本mimic_bloatectomy_example。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将HashMap<String,Object>从一个活动传递到另一个活动   java如何手动加密socket连接的流量?   java正则表达式生成一个不正确的结果   Java方法引用具有泛型参数的方法   java app setBackground()错误:不兼容的类型:int无法转换为Drawable   java是启动Spring引导而不是SpringApplication的其他方法。跑   无法打开java类路径资源[org/quartz/impl/jdbcjobstore/tables_h2.sql],因为它不存在   spring使用Java,如何确定来自tomcat Web服务器的出站服务调用?   java获取多个同名的XML元素JAXB   java使用Ant从同一代码库构建Swing和Android应用程序   JComponent的java重绘方法不起作用   java目标不可访问,标识符“beanName”解析为null   smtp是否有支持esmtp管道的java api?   java如何在Spring中自动连接业务对象   java在Hibernate中没有其他保存实体的方法吗?   针对两个客户机的SpringJavaWeb应用程序项目开发   使用split的java标记化输入