正则表达式搜索中的循环问题的回答

正则表达式搜索中的循环

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一些.csv文件需要解析，我被困在一个部分，需要在不同的行分开。要说清楚： <ul> <li>其中一部分是，如果一个键的值是Y，它应该检查文件的类别数[现在可以工作]</li> </ul> 这是示例csv： <pre><code>004 000000,Y 005 000000,N 006 000000,N 007 A000000,Y 007 B000000,16 007 C010100,1 007 C020100,XTF ADVISORS TRUST - ETF 2010 PORTFOLIO 007 C030100,Y 007 C010200,2 007 C020200,XTF ADVISORS TRUST - ETF 2015 PORTFOLIO 007 C030200,Y 007 C010300,3 007 C020300,XTF ADVISORS TRUST - ETF 2020 PORTFOLIO 007 C030300,Y 007 C010400,4 007 C020400,XTF ADVISORS TRUST - ETF 2025 PORTFOLIO 007 C030400,Y 007 C010500,5 007 C020500,XTF ADVISORS TRUST - ETF 2030 PORTFOLIO 007 C030500,Y 007 C010600,6 </code></pre> 返回节数和与<code>007 A000000</code>相关的行的Python代码如下： <pre><code>def haveSeries(csvfile): with open(csvfile, 'rb') as f: reader = csv.reader(f) row2 = 0 for row in reader: if (row[0] == '007 A000000') and (row[1]=='Y'): baseline = reader.line_num print baseline seriesnum = reader.next() print seriesnum[1] return (baseline,seriesnum[1]) </code></pre> 上面的例子返回16，所以我们有16个类别。因此，现在我应该制作另一个csv，它在所有行和每行的下一列中都有与类别号相关的数据。类别在键中编号，如 <pre><code>086 D020000,0 086 E010000,0 086 E020000,0 086 F010000,0 086 F020000,0 024 000100,N 025 D000101,0 025 D000102,0 025 D000103,0 025 D000104,0 025 D000105,0 025 D000106,0 025 D000107,0 ***... Category 1 starts at 024 000100 ...*** 075 A000100,0 075 B000100,0 076 000100,0.00 024 000200,N 025 D000201,0 025 D000202,0 025 D000203,0 025 D000204,0 025 D000205,0 ***... category 2 starts at 024 000200... and so on*** </code></pre> 所以识别这些的正则表达式类似于<code>\d{3}( \w| )\d{3}X\d.{,}</code>，对于X，我必须迭代1到16，并且每个类别有不同的行。你知道吗 我为这部分编写的代码： <pre><code>if haveSeries(csvfile) != False: seriesBaseNNum=haveSeries(csvfile) # TODO write all the lines from 1 to baseline again for row in reader: for i in xrange(1,int(seriesBaseNNum[1])): i= u'%02d' % i # two digits seriesi = re.compile ("\d{3}( \w| )\d{3}%s\d.{,}" % i) #err on %d so changed to %s matchers = seriesi.search(row[0]) if matchers: print matchers.**group(0)** </code></pre> 但我得到的结果是这样的： <pre><code>074 T000100 074 U010100 074 U020100 074 V010100 074 V020100 074 W000100 074 X000100 074 Y000100 075 A000100 075 B000100 076 000100 024 001100 025 D001101 025 D001102 025 D001103 025 D001104 025 D001105 025 D001106 025 D001107 025 D001108 028 A011100 028 A021100 028 A031100 028 A041100 028 B011100 028 B021100 028 B031100 028 B041100 028 C011100 028 C021100 ... </code></pre> 所以它只在i=1时迭代一次（碰巧i=11，我的意思是当%s是1，它前面的字符也是1时） <ol> <li>在这个例子中，如何在Regex上进行迭代以找到I=1到16的所有匹配项？你知道吗</li> <li>我应该如何实现必须为所有类别编写第一个n列并将其余的列写入每行的下一列的部分？你知道吗</li> </ol>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

正则表达式搜索中的循环

1 个回答

相关Python问题