用Python处理Windows行尾

网友

1楼 · 编辑于 2024-05-06 17:18:46

为什么DOS行尾是个问题？大多数事情都可以很好地处理，包括XML解析器。如果您真的想删除它们，请以universal line-endings模式打开文件：

open(filename, 'rU')

Python将把所有行尾转换为UNIX行尾。如果你真的不能使用它（我觉得有点奇怪），那就没有办法让Python为你做这项工作。不过，你无论如何都要打开文件，所以你对#2的反对似乎有点奇怪。

网友

2楼 · 编辑于 2024-05-06 17:18:46

据称：“这家伙在标记描述符中间有一个像这样的<ParentRedirec tSequenceID>”“。”。

我看不到这里。也许您的意思是repr（xml）包含如下内容

"<ParentRedirec\r\ntSequenceID>"

如果不是，试着用repr fashion示例精确地说出的意思。

以下方法应该有效：

>>> import re
>>> guff = """<atag>\r\n<bt\r\nag c="2">"""
>>> re.sub(r"(<[^>]*)\r\n([^>]*>)", r"\1\2", guff)
'<atag>\r\n<btag c="2">'
>>>

如果标记中有多个换行符，例如<foo\r\nbar\r\nzot>，则只修复第一个换行符。备选方案（1）循环直到废话停止收缩（2）自己编写一个更聪明的regexp:-）

网友

3楼 · 编辑于 2024-05-06 17:18:46

您是以文本模式还是二进制模式打开文件？我很确定我的Leopard安装中已经使用了通用的换行程序，但是也许我也从某个地方得到了一个更新的Python。。。

不管怎样，我见过这样的事情让很多程序员很苦恼，因为他们只是想得到“b”键。如果要打开已知在平台上创建的文本文件，请使用“t”，如果需要通用换行符，请使用“U”而不是“t”。

with file(filename, 'rt') as f:
   content = f.read()

编辑：注释说明“rt”是默认值。说得对，但是Python风格倾向于显式而不是隐式，所以我要这么做。