如何在CSV文件中添加使用正则表达式找到的信息问题的回答

如何在CSV文件中添加使用正则表达式找到的信息

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在尝试将新信息“附加”到CSV文件中。问题在于，该信息不在数据帧结构中，而是使用正则表达式从文本中提取的信息。示例文本将是下一个： <blockquote> Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam id diam posuere, eleifend diam at, condimentum justo. Pellentesque mollis a diam id consequat. TITLE-SDFSD-DFDS-SFDS-01-01: This is the title 1 that is split into two lines with a blank line in the middle Conditions Pellentesque blandit scelerisque pellentesque. Sed nec quam purus. Quisque nec tellus sed neque accumsan lacinia sit amet sit amet tellus. Etiam venenatis nibh vel pellentesque elementum. Nullam eget tortor quam. Morbi sed leo et arcu aliquet luctus. Opening date 15 Apr 2021 Deadline 26 Aug 2021 Indicative budget: The total indicative budget for the topic is EUR 20.00 million. TITLE-SDFSD-DFDS-SFDS-01-02; This is the title2 in one single line Conditions Cras egestas consectetur sapien at dignissim. Maecenas commodo purus nibh, a tempus augue vestibulum feugiat. Vestibulum dolor neque, sagittis ut tortor et, lobortis faucibus quam. Opening date 15 March 2021 Deadline 17 Aug 2021 Indicative budget: The total indicative budget for the topic is EUR 15.00 million. TITLE-SDFSD-DFDS-SFDS-01-03: This is the title3 that is too long and takes two lines Conditions Cras egestas consectetur sapien at dignissim. Maecenas commodo purus nibh, a tempus augue vestibulum feugiat. Vestibulum dolor neque, sagittis ut tortor et, lobortis faucibus quam. Opening date 15 May 2021 Deadline 26 Sep 2021 Indicative budget: The total indicative budget for the topic is EUR 5.00 million. </blockquote> 要提取所有信息，我必须进行多次交互以提取我需要的信息。我知道我可以将一次迭代细分为几个组，但很难找到一个正则表达式。相反，我使用了其中几个： <pre><code>import re import csv with open('doubt2.txt','r', encoding="utf-8") as f: f_contents = f.read() regexHOR =r'\n(TITLE-\S+-\d{2}-\d{2})[:|;](.*?)^Conditions' regexOD = r'^Opening date\s+(\d{1,2} \w+ \d{4})\s*?' regexDL =r'^Deadline\s+(\d+ \w+ \d+)' patternHOR = re.compile(regexHOR, re.MULTILINE | re.DOTALL) patternOD = re.compile(regexOD, re.MULTILINE | re.DOTALL) patternDL = re.compile(regexDL, re.MULTILINE | re.DOTALL) matchesHOR = patternHOR.finditer(f_contents) matchesOD = patternOD.finditer(f_contents) matchesDL = patternDL.finditer(f_contents) </code></pre> <code>marchesHOR</code>查找两个组，而其他匹配项仅为一个组。一旦匹配完成，我必须将其导出到CSV文件中，执行下一个代码： <pre><code>with open("result.csv", "w",newline='') as outfile: csvfile = csv.writer(outfile) csvfile.writerow(['Topic ID', 'Title', 'Opening date', 'Deadline']) for match in matchesHOR: csvfile.writerow([match.group(1), match.group(2).replace('\n', ' '),'','']) for match in matchesOD: csvfile.writerow(['','',match.group(1),'']) for match in matchesDL: csvfile.writerow(['','','',match.group(1)]) </code></pre> 问题是，当我在<code>matchesHOR</code>之后编写新的nows时，它将我放在下面，正如您在下表中看到的： <div class="s-table-container"> ^{tb1}$ </div> 欢迎对执行四个交互以确定几个组的任何附加评论

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何在CSV文件中添加使用正则表达式找到的信息

1 个回答

相关Python问题