擅长:python、mysql、java
<p>可以指定多个文件。(发件人:<a href="http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.xmldocs.XMLCorpusReader-class.html" rel="nofollow">http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.xmldocs.XMLCorpusReader-class.html</a>)</p>
<p>这里的问题是,我怀疑所有的文件都包含在一个文件结构中,沿着<code>corpora/nytimes/year/month/date</code>的行。XMLCorpusReader不会递归地遍历目录。i、 例如,使用上面的代码<code>XMLCorpusReader('corpora/nytimes', r'.*')</code>,XMLCorpusReader只看到<code>corpora/nytimes/</code>中的xml文件(即,没有,因为只有文件夹),而不是{<cd4>}可能包含的任何子文件夹中。此外,您可能打算使用<code>*.xml</code>作为第二个参数。在</p>
<p>我建议您自己遍历这些文件夹来构建绝对路径(上面的文档指定<code>fileids</code>参数的显式路径将起作用),或者如果您有可用的年/月/日组合列表,那么就可以利用它。在</p>