使用Python和Javascript在CSV中转换HTML

2024-06-28 10:03:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个疑问,我在一个需要从网站获取数据的程序中工作,但那个网站并没有任何API

所以我想把JavaScript和Python结合起来

我正在使用JavaScript转换此数据中的HTML:

<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body>BLUE - Amil Ltda14/07/2020;;102636;Name censured;213113;10101039;1;Única;20/09/2020;102636;HCRIANÇASJ;83,00; <br>BLUE18 - Amil Ltda21/07/2020;;102636;Name Censured Again;213029;10101039;1;Única;20/09/2020;102636;HCRI;83,00;

但是python的解释就像一个字符串,我需要转换成类似csvjson的格式

我正在尝试使用.replace (<br>,//n),但没有成功

另外,我需要删除以下部分:

<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body>BLUE - Amil Ltda14/07/2020

Tags: nameorghttp网站htmlwwwbodyblue
1条回答
网友
1楼 · 发布于 2024-06-28 10:03:37
const str = `<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body>BLUE - Amil Ltda14/07/2020;;102636;Name censured;213113;10101039;1;Única;20/09/2020;102636;HCRIANÇASJ;83,00; <br>BLUE18 - Amil Ltda21/07/2020;;102636;Name Censured Again;213029;10101039;1;Única;20/09/2020;102636;HCRI;83,00;`;
const lines = str.split(/<br>/gs);
for (let i = 0; i < lines.length; i++) {
    lines[i] = lines[i].replace(/(.*)BLUE\d*\s-\sAmil\sLtda\d+\/\d+\/\d+;;/, '');
}
console.log(lines);

相关问题 更多 >