刮削HTML代码中的编码变异

2024-09-30 18:25:47 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用perl get（）方法来获取一个URL。我得到了HTML代码，但当我从网站中提取泰米尔语内容时，它给了我奇怪的文本而不是泰米尔语文本。我使用Firefox检查器工具查看它包含泰米尔内容的HTML代码。但当我从菜单中查看源代码时，它会显示编码的字符串。我使用以下代码来获取HTML

#!/usr/bin/perl

use LWP::Simple;
 $content = get("http://www.arulvakku.com/biblecontent.php");

open www,">> foo";
select www;
print www $content;
 die "Couldn't get it!" unless defined $content;

并将HTML代码存储在foo中。当我用libreofficewriter打开它时，它会显示泰米尔语的网页。但是当我查看源代码时，它会给我编码。Firefox检查器和HTML代码中的等效代码如下：

 <span class = "biblecontent">  தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது,   <span style="color:#D26900;font-size:16px"></span></span>

刮削等效HTML代码：

<span class="biblecontent">  &#2980;&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;&#3021; &#2997;&#3007;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021;, &#2990;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021; &#2986;&#2975;&#3016;&#2980;&#3021;&#2980; &#2986;&#3018;&#2996;&#3009;&#2980;&#3009;,   <span style='color:#D26900;font-size:16px'></span></span>

如何获取泰米尔语内容或如何将HTML内容转换回泰米尔语。任何其他方式获得泰米尔语或其他语言内容的HTML代码对我很有帮助。你知道吗

Tags：代码文本内容编码 get 源代码 foo html

1条回答

网友

1楼 · 发布于 2024-09-30 18:25:47

使用HTML:：Entites模块：

#!/usr/bin/perl

use strict;
use warnings;
use HTML::Entities;
use utf8;

my $str = '&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;';

print decode_entities($str);

输出：

ொடக்கத்தில் கடவுள

刮削HTML代码中的编码变异

相关问题更多 >

编程相关推荐

热门问题

热门文章

刮削HTML代码中的编码变异

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >