[原创代码] [Perl]Mojo::UserAgent 抓取52shici页面

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

2楼

发表于 2018-12-7 12:52 | 只看该作者

本帖最后由 523066680 于 2018-12-7 19:07 编辑

文本提取的基本可以了，本来想用标题做文件名，做了Unicode文件名的支持。

遇到过的问题：
windows禁用的文件名符号：山樵 - 古风<中秋感赋〉 - 诗词吾爱
控制符号：
物理老师《少时听鼓词、初雪》 (<0x08>阮郎归)
潮落潮起《尼斯事件与圣彼得堡国际马拉松》 (<0x03><0x03><0x03><0x03>)

[url=][/url]

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

3楼

发表于 2018-12-7 15:52 | 只看该作者

在处理的时候又遇到“彩蛋”了：

《今恨爱多余》(巫山一段)
还我年华 2017-06-20 10:19
尊敬的广大诗友们，大家好！今天我以一位普通的吾爱网诗友向广大的诗友们揭露一件令人感到愤慨的事件：有位网名叫"舞雨"的人，完全盗窃了香港沧浪诗苑首席版主和吾爱网著名诗人炎凉居先生在2015年10月17日创作的《风入松-十四韵完整版》14首作品。并以"舞雨"网名在桃源诗社微刊N053，于2016年间发表。其中每句、每行、每字都和炎凉居的作品完全一样！难道只是巧合吗？答案是否定的！其完全盗窃了炎凉居先生的作品，手段卑鄙无耻，令人发指！

[url=][/url]

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

4楼

发表于 2018-12-7 18:48 | 只看该作者

本帖最后由 523066680 于 2018-12-7 20:07 编辑

提取正文的代码，Mojo::DOM 解析HTML，提取元素。
保存的文件名格式为：作者+标题+诗歌类型+页面ID

=info
    523066680/vicyang
    2018-12
=cut

use Mojo::DOM;
use File::Slurp;
use Encode;
use File::Path;
use Try::Tiny;
use File::Basename qw/basename/;
use Win32API::File qw(:ALL);
STDOUT->autoflush(1);

our $src = "D:/temp/52shici_mobile";
our $dst = "D:/temp/52shici_extract";
my $item;
my (@files, %already, $pgname, $dirlist);
my ($rate, $prev);

for my $subdir ( glob "${src}/*" )
{
    printf "%s\n", $subdir;
    $item = basename($subdir);
    mkpath "${dst}/${item}" unless -e "${dst}/${item}";

    # 需要处理的文件列表
    @files = glob "${subdir}/*";

    # 创建现有名单哈希表
    %already = ();
    my $dirlist = decode("utf16-le", `cmd /U /C dir /b \"${dst}/${item}\"`);
    grep { $_=~/(works_id=\d+)/; $already{$1} = 1; } split("\r\n", $dirlist);

    ($rate, $prev) = (0.0, 0.0);
    for my $id ( 0 .. $#files )
    {
        # 显示进度，百分率
        $rate = $id / $#files * 100.0;
        if ( ($rate-$prev) >= 1.0 ) {
            printf "%d\% ", $rate;
            $prev = $rate;
        }
        $pgname = basename($files[$id], ".html");
        next if exists $already{$pgname};
        abstract( "${dst}/${item}", $item, $files[$id] );
    }
    printf "\n";

    exit;
}

sub abstract
{
    my ($path, $item, $page) = @_;
    my $html = read_file( $page );
    $html=~s/\&nbsp;//g;
    #$html=~s/<script>.*$//es;

    my $dom = Mojo::DOM->new( $html );
    my $buff = "";
    my ($fname, $head) = ("", "");
    my $id = basename($page, ".html");

    # 作者 标题 类型 日期
    my $author = $dom->at(".works-author a")->text;
    my $title  = $dom->at(".works-title")->text;
    my $type   = $dom->at(".works-type")->text;
    my $date   = $dom->at(".works-author")->text;

    $author =~s/^\s+//;  # 去掉开头space
    $date =~s/:/./g;
    $head  = join(" ", $author, $title, $type, $date );
    $fname = join(" ", $author, $title, $type, $id );
    #printf "%s %s\n", utf2gbk($fname), $page;

    $buff .= $head;
    $buff .= $dom->at("#content_box")->all_text;

    $buff=~s/\r?\n([ \t]+)?/#MARK/g;
    $buff=~s/ {2,}/ /sge;               # 合并连续空格
    $buff=~s/(#MARK){2,}/#MARK#MARK/g;  # 合并超过两行的换行
    $buff=~s/#MARK/\r\n/g;
    
    #write_file( "${path}/${title}.txt", {binmode => ":raw"}, $buff );
    $path = decode('gbk', $path);
    $fname = decode('utf8', $fname);

    #去掉控制字符（某些文章标题就出现了<0x08>,<0x03>），并且是在Unicode编码下替换
    $fname =~s/\p{IsCntrl}//g;
    create_with_unicode_fname( $path, $fname, \$buff );
}

sub create_with_unicode_fname
{
    my ($path, $title, $buff) = @_;
    $title =~s/[\Q*?":<>|\\\/\E]/ /g;     # 去掉windows文件名敏感字符
    $path .= "/". $title .".txt\0\0";  # 合并路径，追加 \0\0
    $path = encode('utf16-le', $path);

    my $F = CreateFileW( $path, GENERIC_WRITE, 0, [], OPEN_ALWAYS, 0, 0);

    # 这里 FILE 句柄不支持 $FILE 变量形式
    try {
        OsFHandleOpen(FILE, $F, "w") or die "Cannot open file";
    } catch { printf "\nCan't create file: %s\n", encode('gbk', $title); return; };
    binmode FILE;
    print FILE $$buff;
    close(FILE);
}

sub utf2gbk { return encode('gbk', decode('utf8', $_[0] )); }
复制代码

[url=][/url]

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

5楼

发表于 2018-12-7 19:58 | 只看该作者

处理结果，提取后压缩 80MB 以内
http://523066680.ys168.com/
位置：临时/52shici

[url=][/url]

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

6楼

发表于 2018-12-7 20:27 | 只看该作者

本帖最后由 523066680 于 2018-12-7 21:11 编辑

转换速度对比：
固态硬盘，D:\Temp\52shici_mobile\爱恨情仇，8828 个文件
Mojo::DOM 提取耗时 48秒，
正则表达式提取耗时 12秒。

正则提取，普通硬盘，350156 个文件， 980秒

[url=][/url]

flashercs

中校

Rank: 6 Rank: 6

帖子: 1292
积分: 2294
技术: 291
捐助: 0
注册时间: 2017-3-20

7楼

发表于 2018-12-7 21:26 | 只看该作者

perl真好用,支持DOM操作.

flashercs

中校

Rank: 6 Rank: 6

帖子: 1292
积分: 2294
技术: 291
捐助: 0
注册时间: 2017-3-20

8楼

发表于 2018-12-7 21:37 | 只看该作者

普通硬盘,正则提取1个文件,perl 2.7ms; powershell 7.8ms(还是在运行过一次后,内存中有文件缓存的情况下的结果)
perl的性能优化真好.

Rank: 7 Rank: 7 Rank: 7

帖子: 3167
积分: 6481
技术: 320
捐助: 70
注册时间: 2008-8-3

9楼

发表于 2018-12-8 09:24 | 只看该作者

回复 8# flashercs

适合处理文本，骆驼Perl在这方面经久耐用。不过差不多销声匿迹了，
我也只是“情怀”，几乎不向人推荐 Perl，自己玩就好。

[url=][/url]