标题: 【完成】求网页下载内容+50元 [打印本页]
作者: lxh623 时间: 2021-9-30 09:48 标题: 【完成】求网页下载内容+50元
本帖最后由 lxh623 于 2021-9-30 15:09 编辑
https://www.daodaoba.com/?s=vod- ... A4%A7%E9%99%86.html
我只是想得到大陆电视剧的名字,9661条。
269页下载也行。
然而,这个网站异常难搞。
谢谢!
作者: a20150604 时间: 2021-9-30 12:45
已成功获取, 有意私聊
作者: zaqmlp 时间: 2021-9-30 12:45
本帖最后由 zaqmlp 于 2021-9-30 13:37 编辑
- <# :
- rem 另存为ANSI编码的bat
- cls&echo off
- cd /d "%~dp0"
- powershell -NoProfile -ExecutionPolicy bypass "[IO.File]::ReadAllText('%~f0',[Text.Encoding]::GetEncoding('GB2312'))|Invoke-Expression"
- pause
- exit
- #>
-
- $webclient=New-Object System.Net.WebClient;
- function gethtml($u){
- $t='';
- for($j=1;$j -le 3;$j++){
- try{
- $webclient.Headers.Add('User-Agent','Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36');
- $webclient.Encoding=[System.Text.Encoding]::UTF8;
- $t=$webclient.DownloadString($u);
- }catch{
- write-host ('第'+$j.toString()+'次获取网页内容失败');
- start-sleep -Seconds 3;
- };
- };
- return $t;
- };
-
- $outfile='.\结果.txt';
- $totalpage=0;
- $url='https://www.daodaoba.com/?s=vod-type-id-2-area-大陆-p-1.html';
- $html=gethtml $url;
- $m1=[regex]::match($html,'页次:\d+/(\d+)页');
- if($m1.Success){
- $fs=New-Object System.IO.FileStream($outfile, [System.IO.FileMode]::Create);
- $sw=New-Object System.IO.StreamWriter($fs, [Text.Encoding]::GetEncoding('GB2312'));
- $totalpage=[int]$m1.groups[1].value;
- for($i=1;$i -le $totalpage;$i++){
- write ('-----------'+$i.toString()+'/'+$totalpage.toString()+'-----------');
- $p_url=$url -replace '\d+(?=\.html)',$i.toString();
- $html=gethtml $p_url;
- $m2=[regex]::match($html,'<ul [^>]*?id="contents">([\s\S]+?)</ul>');
- if($m2.Success){
- $m3=[regex]::matches($m2.groups[1].value,'<li(?: [^>]+?)?>[\s\S]*?([^>]+)</a></h2>[\s\S]*?主演:</em>([^>]+)</p>[\s\S]*?</li>');
- foreach($it in $m3){
- $title=$it.groups[1].value;
- $cast=$it.groups[2].value;
- $sw.WriteLine($title);
- $sw.Flush();
- }
- }
- }
- $sw.Close();
- $fs.Close();
- }
复制代码
作者: slimay 时间: 2021-9-30 13:22
本帖最后由 slimay 于 2021-9-30 13:30 编辑
你要的信息已经整理好了,请到 http://cmd1152.ys168.com/ 文件区 下载 "提取的完美信息.html" , 显示效果如下, 点击电影名字, 即可跳转到电影页面,共提取9961条,分毫不差
功勋
超少年密码
高纬度战栗
前清秘史
食人鱼事件
日落紫禁城
咱爸咱妈60年
少年嘉庆
为了新中国前进
神鞭
一锁五十年
风满楼
非亲姐妹
愤怒的天使
翡翠凤凰
...
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |