我有一个包含大文本的字符串,需要将其拆分为多个子字符串,长度为<;=N个字符(尽可能接近N个字符;N总是大于最大的句子),但我也不需要打断句子
例如,如果N=80且给定文本:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer in tellus quam. Nam sit amet iaculis lacus, non sagittis nulla. Nam blandit quam eget velit maximus, eu consectetur sapien sodales. Etiam efficitur blandit arcu, quis rhoncus mauris elementum vel.
我要获取字符串列表:
"Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer in tellus quam."
"Nam sit amet iaculis lacus, non sagittis nulla."
"Nam blandit quam eget velit maximus, eu consectetur sapien sodales."
"Etiam efficitur blandit arcu, quis rhoncus mauris elementum vel."
我也希望这能和英语和俄语一起使用
如何做到这一点
我将采取的步骤:
line
变量来存储当前行的字符串李>'.'
上.split
,删除后面的空句子(""
),去掉前面和后面的空格(.strip
),然后添加句号李>因此,在Python中,类似于:
给予
lines
作为:我找不到这个内置的,所以这里是一个开始。通过在之前和之后检查句子的移动位置,而不是只在前面,可以使它更智能。长度包括空格,因为我要分裂naï而不是用正则表达式什么的
排长队很慢,但也行
相关问题 更多 >
编程相关推荐