Python将新闻文章中的第一个句子拆分，然后使用

2条回答

网友

1楼 · 编辑于 2024-09-27 04:30:16

正如您所猜测的，问题在于字符串中存在unicode字符，因为没有一个ASCII字符具有与em破折号相同的值，PORTLAND, Maine — FairPoint Communications中的分隔符解释不好，变成了\xe2\x80\x94，而不是{}。在

有几个选项可以让您随心所欲：

将源代码编码定义为unicode（将# -*- coding: utf-8 -*-设置为前两行中的任意一行），并将额外字符添加到正则表达式中。在
您可以使用一个可用的库将字符串转换为ACSII（请参见convert a unicode string）
使用与re（sep = re.split(ur'-|:| |\u2014', sent)）兼容的unicode正则表达式
或者按照re documentation中的建议使用regex模块。在

网友

2楼 · 编辑于 2024-09-27 04:30:16

因为第二个句子包含UNICODE字符，所以在执行代码之前需要define source code encoding，因为python的默认编码是ASCII。而且，你试图用错误的字符来吐出这个句子。它必须是—（它是UNICODE）

python（demo）

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
sent = "PORTLAND, Maine — FairPoint Communications has asked regulators for permission to stop signing up new customers for regulated landline service in Scarborough, Gorham, Waterville, Kennebunk and Cape Elizabeth."
sep = re.split('-|:|—', sent)
print sep

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python将新闻文章中的第一个句子拆分，然后使用

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >