Python解析问题的回答

Python解析

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图将rss2.0提要中的title标记解析为该提要中每个条目的三个不同变量。使用ElementTree，我已经解析了RSS，这样我就可以用下面的代码打印每个标题[减去后面的<code>)</code>]： <blockquote> <pre><code>feed = getfeed("http://www.tourfilter.com/dallas/rss/by_concert_date") for item in feed: print repr(item.title[0:-1]) </code></pre> </blockquote> 我把它包括在内是因为，正如你所看到的项目名称是一个repr（）数据类型，我对此不太了解。在 交互窗口中的特定<code>repr(item.title[0:-1])</code><code>print</code>ed如下所示： <blockquote> <pre><code>'randy travis (Billy Bobs 3/21' 'Michael Schenker Group (House of Blues Dallas 3/26' </code></pre> </blockquote> 用户选择一个波段，我希望在将每个<code>item.title</code>解析为3个变量（分别对应band、venture和date。。。或者可能是一个数组或者我不知道…）只选择与所选波段相关的那些。然后他们被发送到谷歌进行地理编码，但那是另一回事。在 我看过一些<code>regex</code>的例子，我正在读这些例子，但是看起来很复杂。它是？我想也许这里有人会对如何用一种聪明的方式做这件事有一些见解。我应该使用<code>re</code>模块吗？输出当前是<code>repr()</code>s有关系吗？有更好的方法吗？我在想我应该使用一个循环（这是我的pseudo python，就像我正在写的注释）： <pre> list = bandRaw,venue,date,latLong for item in feed: parse item.title for bandRaw, venue, date if bandRaw == str(band) send venue name + ", Dallas, TX" to google for geocoding return lat,long list = list + return character + bandRaw + "," + venue + "," + date + "," + lat + "," + long else </pre> 最后，我需要在.csv（逗号分隔）文件中选择如下所示的条目： <blockquote> <pre><code>band,venue,date,lat,long randy travis,Billy Bobs,3/21,1234.5678,1234.5678 Michael Schenker Group,House of Blues Dallas,3/26,4321.8765,4321.8765 </code></pre> </blockquote> 我希望这个要求不过分。我会自己调查的，只是想我应该在这里发帖，以确保它得到答复。在 所以，问题是，如何最好地将<code>feed</code>中的每个<code>repr(item.title[0:-1])</code>解析为3个独立的值，然后将它们连接到一个.csv文件中？在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

别让正则表达式吓跑你。。。这很值得学习。在 根据上面的示例，您可以尝试将尾部括号放回，然后使用以下模式： <pre><code>import re pat = re.compile('([\w\s]+)$([\w\s]+)(\d+/\d+)$') info = pat.match(s) print info.groups() ('Michael Schenker Group ', 'House of Blues Dallas ', '3/26') </code></pre> 要获取每个组的个体，只需在<code>info</code>对象上调用它们： ^{pr2}$ 在这种情况下，regex的难点在于确保知道标题中所有已知的可能字符。如果“Michael Schenker Group”部分中有非alpha字符，则必须调整该部分的regex以允许它们。在 上面的模式分解如下，从左到右进行解析： <code>([\w\s]+)</code>：匹配任何单词或空格字符（加号表示应该有一个或多个这样的字符）。括号表示匹配项将作为一个组捕获。这是“迈克尔·申克集团”的一部分。如果这里可以有数字和破折号，您需要修改方括号之间的部分，这是集合的可能字符。在 <code>$</code>：文字括号。反斜杠将转义圆括号，因为否则它将被视为正则表达式命令。这是字符串的“（”部分。在 <code>([\w\s]+)</code>：与上面的一样，但这次匹配的是“达拉斯蓝军之家”部分。在括号中，这样他们将被捕获为第二组。在 ^ {CD5>}：将数字3和26与中间的斜线匹配。在括号中，这样他们将被捕获为第三组。在 <code>$</code>：上面的右括号。在 python对regex的介绍相当不错，您可能需要花一个晚上的时间来复习一下<a href="http://docs.python.org/library/re.html#module-re" rel="nofollow noreferrer">http://docs.python.org/library/re.html#module-re</a>。另外，查看divinto Python，它有一个友好的介绍：<a href="http://diveintopython3.ep.io/regular-expressions.html" rel="nofollow noreferrer">http://diveintopython3.ep.io/regular-expressions.html</a>。在 编辑：见下面的扎切拉蒂，他有一些不错的编辑。两个脑袋总比一个好！在

Python解析

1 个回答

相关Python问题