Python关于芬德尔在UTF8失败，而脚本的其余部分成功

# -*- coding: utf8 -*- from os import listdir import re import codecs import sys print "Välkommen till SOU-sök!" search_word = raw_input("Ange sökord: ") dictionary = {} for filename in listdir("20tal"): with open("20tal/" + filename) as currentfile: text = currentfile.read() dictionary[filename] = text for d in dictionary: result = re.findall(search_word + u'.*', dictionary[d], re.UNICODE) if len(result) > 0: print "Filnament är:\n %s \noch sökresultatet är:\n %s" % (d, result)

Filnament är: Betänkande och förslag angående vissa ekonomiska spörsmål berörande enskilda järnvägar - SOU 1929:2.txt och sökresultatet är: ['katter, r\xc3\xa4ntor m. m.', 'katter m- m., men exklusive r \xc3\xa4 nor m.', 'kattemedel subventionerar', av totalkostnaderna, ofta \xe2\x80\x94 med eller utan', 'kattas den nuvarande bilparkens kapitalv\xc3\xa4rde till 500 milj.

2条回答

网友

1楼 · 编辑于 2024-09-29 00:11:41

在Python中，2.xunicode列表项通常是转义的，除非您遍历每个列表项或将它们连接起来；可以尝试如下操作：

result = ', '.join(result)

if len(result) > 0:
    print ( u"Filnament är:\n %s \noch sökresultatet är:\n %s" % (d, result.decode('utf-8')))

输入：

^{pr2}$

结果：

katter, räntor m. m. katter m- m., men exklusive r ä nor m. kattemedel subventionerar av totalkostnaderna, ofta — med eller utan kattas den nuvarande bilparkens kapitalvärde till 500 milj

网友

2楼 · 编辑于 2024-09-29 00:11:41

文件名normalized的方式依赖于文件系统和操作系统。您的特定正则表达式可能与规范化方法不正确匹配。因此，可以通过remram来考虑这个解决方案：

import fnmatch
def myglob(pattern, directory=u'.'):
    pattern = unicodedata.normalize('NFC', pattern)
    results = []
    enc = sys.getfilesystemencoding()
    for name in os.listdir(directory):
        if isinstance(name, bytes):
            try:
                name = name.decode(enc)
            except UnicodeDecodeError:
                # Filenames that are not proper unicode won't match any pattern
                continue
        if fnmatch.filter([unicodedata.normalize('NFC', name)], pattern):
            results.append(name)
    return results

我在这里遇到了一个类似的问题：Filesystem independent way of using glob.glob and regular expressions with unicode filenames in Python

相关问题更多 >

编程相关推荐

热门问题

热门文章