使用R或Python只从PDF中提取要点

1条回答

网友

1楼 · 发布于 2024-06-01 21:54:27

以下是我的一般方法：

读入示例字符串

require(stringr)

string <- "passarão a estar inscritas políticas públicas que permitam:\n • Inverter a tendência de perda de 
rendimento das famílias, dos trabalhadores, dos\n funcionários públicos e dos pensionistas;\n"

按\n拆分

^{pr2}$

返回以项目符号开头的任何字符串的位置：

matched <- grep("\\\u0095", stringList)

以项目符号开头的字符串的子集：

stringList[matched]

此解决方案目前的不足之处在于，它依赖于项目符号前面加“；\n”或“：\n”。如果您只是被“\n”分开，则每当子弹继续到第二行时，就会丢失子弹的第二部分。根据文档的格式，您可能需要更改正则表达式以确保适当地拆分字符串

您也可以按bullet进行初始分割：stringList <- unlist(str_split(string, "\\u0095"))，但随后需要一个规则来定义项目符号的结束位置和纯文本的开始位置。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用R或Python只从PDF中提取要点

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >