擅长:python、mysql、java
<p>从<a href="https://en.wikipedia.org/wiki/.DS_Store" rel="nofollow noreferrer">Wikipedia</a>:</p>
<blockquote>
<p>In the Apple macOS operating system, .DS_Store is a file that stores custom attributes of its containing folder, such as the position of icons or the choice of a background image.</p>
</blockquote>
<p>所以在任何地方都可能有一个<code>.DS_Store</code></p>
<p>在这一行:<code>corp = PlaintextCorpusReader(corpusdir, '.*')</code>您可以选择哪些文件将在语料库中</p>
<p>第二个参数<code>'.*'</code>是一个正则表达式,用于选择要使用的文件。根据<a href="https://www.nltk.org/_modules/nltk/corpus/reader/plaintext.html#PlaintextCorpusReader" rel="nofollow noreferrer">the doc</a>,此参数可以是“指定此语料库中文件ID的列表或regexp”</p>
<p>因此,在您的例子中,您可以将匹配所有内容的<code>'.*'</code>更改为<code>'.*\.txt'</code>,以匹配任何字符以及“.”和“txt”。或者,如果您知道需要的每个文件的名称,您可以使用文件名列表<code>['file1.txt', 'file2.txt']</code></p>