【完结】求网页信息抓取+150元 - 有偿求助 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

Rank: 5 Rank: 5

帖子: 423
积分: 817
技术: 2
捐助: 0
注册时间: 2008-11-24

9楼 跳转到 »

发表于 2021-10-4 15:46 | 只看该作者

本帖最后由 lxh623 于 2021-10-4 16:01 编辑

回复 8# went
如果我把所有电视剧网址写入文本a，再一个一个获取，可能更好。
【概览】里面的“主演”不要了，因为后面有演员。
【分集剧情】包括剧情介绍（展开）和每一集剧情，暂时没有抓取。
谢谢！

有些演员那里没有转行。
比如，ZZZ车梓茗饰演：齐贵田玲饰演牛兰花张宛庭饰演孙桂琴闫锐饰演马志刚王超饰演李天洋

TOP

went

少校

Rank: 6 Rank: 6

帖子: 864
积分: 1738
技术: 229
捐助: 0
注册时间: 2017-9-22

8楼

发表于 2021-10-4 12:08 | 只看该作者

#&cls&@cd /d "%~dp0" & powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" &pause&exit
cls
#whr 
$whr = New-Object -ComObject 'WinHttp.WinHttpRequest.5.1'

#函数 获取一页列表
function Get-PageList($page){
    $url = 'https://www.km.com/tv/-----{0}.html' -f $page
    $whr.Open('GET',$url,$false)
    $whr.Send()
    if($whr.Status -eq 200){
        $txt = $whr.ResponseText
        $whr.Abort()
        $pattern = '(?<=<div class="filter_res_image scale_image_container">\s+<a href=").*?(?=")'
        [regex]::Matches($txt,$pattern) | foreach { 
            if($_.Value -match '/(\d+).html$'){
                $Matches[1]
            }
        }
    }
}

#函数 获取主要信息
function Get-MainInfo($key){
    #主要信息界面
    $url = 'https://www.km.com/tv/{0}.html' -f $key
    $whr.Open('GET',$url,$false)
    $whr.Send()
    $txt = $whr.ResponseText
    $whr.Abort()

    #标题
    $pattern = '(?s)<div class="inside-title.*?>.*?>(.*?)<'
    if($txt -match $pattern){
        '名称: TTT' + $Matches[1]
        Write-Host ('解析电视剧: ' + $Matches[1])
    }
    #图片地址
    $pattern = '(?s)<div class="video_poster.*?">.*?<img src="(.*?)"'
    if($txt -match $pattern){
        '图片地址: ''https:' + $Matches[1]
    }
    #概览
    "`r`n【概览】"
    $pattern = '(?s)mr20">(.*?)<a class="unfold"'
    if($txt -match $pattern){
        $t = $Matches[1] -replace '(?s)<script>.*?</script>','' -replace '<.*?>','' -replace '\s{2,}','' 
        $t -replace '(导演：)|(主演：)|(地区/类型：)|(剧情集数：)|(播出时间：)|(在线观看网站：)|(别名：)|(片长：)',("`r`n" + '$0')
    }

    #分数
    $pattern = '(?s)<p class="score_num.*?>.*?>(.*?)<'
    if($txt -match $pattern){
        '综合评分: ' + $Matches[1]
    }

    #幕后信息
    "`r`n【幕后信息】"
    $pattern = '(?s)幕后信息</div>(.*?)<a class="intro_fold'
    if($txt -match $pattern){
        $Matches[1] -replace '<.*?>','' -replace '\s{2,}','' -replace '(编剧：)|(制片人：)|(TV首播时间：)|(在线播放平台：)|(出品公司：)|《',("`r`n" + '$0')
    }

    #演员表
   "`r`n【演员表】"
    $url = 'https://www.km.com/tv/yanyuan/{0}.html' -f $key
    $whr.Open('GET',$url,$false)
    $whr.Send()
    $txt = $whr.ResponseText
    $whr.Abort()


    $pattern = '(?s)<div class="actor-list-detail same_col">.*?<div class="actor-works same_col_bottom">'
    [regex]::Matches($txt,$pattern) | foreach {
        'ZZZ' + ($_.Value -replace '<.*?>','' -replace '\s{2,}','' -replace '饰演'," 饰演 ")
    }

    #人物介绍
	"`r`n【人物介绍】"
    $url = 'https://www.km.com/tv/role/{0}.html' -f $key
    $whr.Open('GET',$url,$false)
    $whr.Send()
    $txt = $whr.ResponseText
    $whr.Abort()
    $pattern = '(?s)<div class="role-name">.*?<div class="role-intro-js">'
    [regex]::Matches($txt,$pattern) | foreach {
        $_.Value -replace '<.*?>','' -replace '\s{2,}','' -replace '演员',' 演员' -replace '-->简介：',"-->简介：`r`n`t"
    }
}

#函数 一页数据保存为一个文件
function Save-PageInfo($page){
    #如果本页已解析,则跳过
    $f = 'page_{0:000}.txt' -f $page
    if([System.IO.File]::Exists($f)){
        '第{0}页已解析,跳过...' -f $page
        return;
    }
    #开始解析
    &{
        Get-PageList -page 1 | foreach {
            Get-MainInfo -key $_
            '----------------------------------'
        }
    } | Out-File $f
}

#解析并保存第一页数据
Save-PageInfo -page 1
复制代码

1 评分人数

lxh623: 乐于助人技术 + 1

https://docs.qq.com/doc/DSVJ0d094Q1NtbGta

TOP

lxh623

中尉

Rank: 5 Rank: 5

帖子: 423
积分: 817
技术: 2
捐助: 0
注册时间: 2008-11-24

7楼

发表于 2021-10-1 08:01 | 只看该作者

5楼只有标题，而且放弃了。
欢迎大家继续。

TOP

swanseabrian

五级士官

Rank: 4

帖子: 237
积分: 312
技术: 0
捐助: 0
注册时间: 2013-5-31

6楼

发表于 2021-9-30 14:54 | 只看该作者

回复 3# a20150604

我擦，你真牛b

TOP

slimay

三级士官

Rank: 3 Rank: 3

帖子: 103
积分: 222
技术: 15
捐助: 0
注册时间: 2021-2-21

5楼

发表于 2021-9-30 14:49 | 只看该作者

本帖最后由 slimay 于 2021-9-30 14:51 编辑

请到 http://cmd1152.ys168.com/ 文件区下载 "lxh623已经提取好的资料.zip"
附赠提取工具, 赠三种数据格式 ,txt, html, excel表格格式. 均是提取好的全部数据, 直接使用.无需加工

 ..   http://cmd1152.ys168.com/  文件区   下载 "lxh623已经提取好的资料.zip"
 七猫影视-提取.html
 七猫影视-提取.xls
 定制说明.txt
 搜视网-提取.html
 搜视网-提取.xls
 文本格式
 新站到-提取.html
 新站到-提取.xls
 附赠提取工具
复制代码

提取脚本,网址随便改, 理论上可提取任何网站

@echo off
REM 设置提取网址
set "url=https://www.tvsou.com/class/dianshiju/--"
REM 设置网页数量
set "num=100"

REM 开始提起网页
for /l %%a in (1,1,%num%) do ( 
	echo;正在下载 第 %%a 个页面
	curl  "%url%--%%a"  > home\%%a.txt
	echo;正在转码 第 %%a 个页面
	wincp    home\%%a.txt  -o ansi\N_%%a.txt -f 65001 -t 936 
)

REM 直接输出提取后的信息
(
for /l %%a in (1,1,%num%) do ( 
	zq    ansi\N_%%a.txt  
)
) > out.html
pause
复制代码

1 评分人数

lxh623: 乐于助人技术 + 1

TOP

zaqmlp

上尉

Rank: 5 Rank: 5

帖子: 974
积分: 1275
技术: 94
捐助: 0
注册时间: 2017-10-30

4楼

发表于 2021-9-30 13:10 | 只看该作者

要采集的信息那么多，才100元，不值得写

提供bat代写，为你省时省力省事，支付宝扫码头像支付
微信: unique2random

TOP

a20150604

禁止发言

帖子: 106
积分: 270
技术: 41
捐助: 0
注册时间: 2015-6-4

3楼

发表于 2021-9-30 12:40 | 只看该作者

本帖最后由 a20150604 于 2021-9-30 12:48 编辑

以下为单页获取演示, 可让代码自动逐页全部获取
演示为此2页
https://www.km.com/tv/-----13.html
https://www.km.com/tv/-----14.html

TOP

a20150604

禁止发言

帖子: 106
积分: 270
技术: 41
捐助: 0
注册时间: 2015-6-4

2楼

发表于 2021-9-30 12:12 | 只看该作者

已成功获取

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]