Board logo

标题: 【完成】求网页下载内容+50元 [打印本页]

作者: lxh623    时间: 2021-9-30 09:48     标题: 【完成】求网页下载内容+50元

本帖最后由 lxh623 于 2021-9-30 15:09 编辑

https://www.daodaoba.com/?s=vod- ... A4%A7%E9%99%86.html
我只是想得到大陆电视剧的名字,9661条。
269页下载也行。

然而,这个网站异常难搞。

谢谢!
作者: a20150604    时间: 2021-9-30 12:45

已成功获取, 有意私聊
作者: zaqmlp    时间: 2021-9-30 12:45

本帖最后由 zaqmlp 于 2021-9-30 13:37 编辑
  1. <# :
  2. rem 另存为ANSI编码的bat
  3. cls&echo off
  4. cd /d "%~dp0"
  5. powershell -NoProfile -ExecutionPolicy bypass "[IO.File]::ReadAllText('%~f0',[Text.Encoding]::GetEncoding('GB2312'))|Invoke-Expression"
  6. pause
  7. exit
  8. #>
  9. $webclient=New-Object System.Net.WebClient;
  10. function gethtml($u){
  11.     $t='';
  12.     for($j=1;$j -le 3;$j++){
  13.         try{
  14.             $webclient.Headers.Add('User-Agent','Mozilla/5.0 (Windows NT 6.1; ) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36');
  15.             $webclient.Encoding=[System.Text.Encoding]::UTF8;
  16.             $t=$webclient.DownloadString($u);
  17.         }catch{
  18.             write-host ('第'+$j.toString()+'次获取网页内容失败');
  19.             start-sleep -Seconds 3;
  20.         };
  21.     };
  22.     return $t;
  23. };
  24. $outfile='.\结果.txt';
  25. $totalpage=0;
  26. $url='https://www.daodaoba.com/?s=vod-type-id-2-area-大陆-p-1.html';
  27. $html=gethtml $url;
  28. $m1=[regex]::match($html,'页次:\d+/(\d+)页');
  29. if($m1.Success){
  30. $fs=New-Object System.IO.FileStream($outfile, [System.IO.FileMode]::Create);
  31. $sw=New-Object System.IO.StreamWriter($fs, [Text.Encoding]::GetEncoding('GB2312'));
  32. $totalpage=[int]$m1.groups[1].value;
  33. for($i=1;$i -le $totalpage;$i++){
  34. write ('-----------'+$i.toString()+'/'+$totalpage.toString()+'-----------');
  35. $p_url=$url -replace '\d+(?=\.html)',$i.toString();
  36. $html=gethtml $p_url;
  37. $m2=[regex]::match($html,'<ul [^>]*?id="contents">([\s\S]+?)</ul>');
  38. if($m2.Success){
  39. $m3=[regex]::matches($m2.groups[1].value,'<li(?: [^>]+?)?>[\s\S]*?([^>]+)</a></h2>[\s\S]*?主演:</em>([^>]+)</p>[\s\S]*?</li>');
  40. foreach($it in $m3){
  41. $title=$it.groups[1].value;
  42. $cast=$it.groups[2].value;
  43. $sw.WriteLine($title);
  44. $sw.Flush();
  45. }
  46. }
  47. }
  48. $sw.Close();
  49. $fs.Close();
  50. }
复制代码

作者: slimay    时间: 2021-9-30 13:22

本帖最后由 slimay 于 2021-9-30 13:30 编辑

你要的信息已经整理好了,请到 http://cmd1152.ys168.com/  文件区   下载 "提取的完美信息.html"  , 显示效果如下, 点击电影名字, 即可跳转到电影页面,共提取9961条,分毫不差
功勋
超少年密码
高纬度战栗
前清秘史
食人鱼事件
日落紫禁城
咱爸咱妈60年
少年嘉庆
为了新中国前进
神鞭
一锁五十年
风满楼
非亲姐妹
愤怒的天使
翡翠凤凰
...




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2