Python中文
首页
教程
问答
标签
搜索
登录
注册
Python正则表达式意外替换中文字符
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一份中文字典词条列表(基于cc-cedict),包含以下格式的中文和拉丁字符,用换行符分隔:</p> <blockquote> <p>(source.txt)</p> <p>traditional_chars simplified_chars, pinyin, definition</p> <p>山牆 山墙,shan1 qiang2,gable</p> <p>B型超聲 B型超声, B xing2 chao1 sheng1,type-B ultrasound</p> </blockquote> <p>我想在繁体字和简体字之间加一个逗号:</p> <blockquote> <p>(Desired result)</p> <p>山牆,山墙,shan1 qiang2,gable</p> <p>B型超聲,B型超声, B xing2 chao1 sheng1,type-B ultrasound</p> </blockquote> <p>在<a href="https://regex101.com/r/mT9lJ7/2" rel="nofollow">regex101</a>中进行了一些实验后,我想出了这样一个模式:</p> <p><code>[A-z]*[\u4300-\u9fff]+(\s)[A-z]*[\u4300-\u9fff]+,</code></p> <p>我尝试用以下代码在Python中应用此模式:</p> <pre><code>import re sourcepath = 'sourcefile.txt' destpath = 'result.txt' pattern = '[A-z]*[\u4300-\u9fff]+(\s)[A-z]*[\u4300-\u9fff]+,' source = open(sourcepath, 'r').read() dest = open(destpath, 'w') result = re.sub(pattern, ',', source) dest.write(result) dest.close() </code></pre> <p>但当我打开结果.txt,我得到的结果不是我预期的:</p> <blockquote> <p>,shan1 qiang2,gable</p> <p>, B xing2 chao1 sheng1,type-B ultrasound</p> </blockquote> <p>我还尝试使用以下模式的regexp模块:</p> <p><code>[A-z]*\p{Han}(\s)[A-z]*\p{Han}</code></p> <p>但结果是一样的。在</p> <p>我认为通过将\s字符放在括号中,它将构成一个捕获组,并且只替换该空格。但看起来汉字也在被取代。我是不是在正则表达式、代码或两者都出错了?我应该如何改变它以获得期望的结果?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>使用示例代码在<code>Python 3.5</code>上测试:</p> <pre><code>result = re.sub(r"([\u4e00-\u9fff]+)\s+(?:[a-z]+)?([\u4e00-\u9fff]+)", r"\1,\2", subject, 0, re.IGNORECASE) </code></pre> <hr/> <p><strong>正则表达式解释</strong></p> ^{pr2}$
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
4 回答
为什么在使用strptim时会出现这个datetime日期错误
3 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
2 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
4 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
5 回答
为什么在使用tabla时会得到一个空的数据帧?
5 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
7 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
8 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
2 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
3 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
2 回答
为什么在使用TextBlob时会出现HTTP错误?
7 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
2 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
9 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
3 回答
为什么在使用tkinter时不能使用复选框?
4 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
7 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
8 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
5 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
3 回答