[文本处理] 如何提取网站数据库内的内容？

如何提取网站数据库内的内容？
比如次站http://lives.sina.cn/event/?channel=finance&topic=globalnews1&refreshtime=60&fromsinago=0&vt=4&page=3
页面的最下角有页码，最新的新闻总显示在第一页。
我想该页面肯定是调用数据库内的内容自动生成的。
现在我想提取该数据库的所有内容，以供本地检索（如果可以在线检索也很好呀，不知可不可以？）
我该用什么语言，什么办法来完成这项“艰巨”的任务？

pcl_test

荣誉版主

Rank: 8 Rank: 8

帖子: 3041
积分: 5333
技术: 685
捐助: 0
注册时间: 2014-10-19

5楼

发表于 2016-8-12 18:35 | 只看该作者

@echo off
set day=2016-08-12
mshta http://bathome.net/s/hta/ "try{var i=0;web('http://lives.sina.cn/?date=%day%').match(/<dl\sclass=[^<]+?>[\s\S]+?<\/dl>/ig)._EACH(function(a){return ++i+'、'+a.match(/<strong>[^<]*?<\/strong>|<span>[^<]*?<\/span>|<h3\s[^<]*?>[^<]*?<\/h3>|<a\shref[^<]*?>[^<]*?<\/a>/ig)._EACH(function(a){return a.replace(/<[^<]*>/g,'')})}).join('\r\n')}catch(e){alert('无数据！')}"
pause
复制代码

TOP

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

4楼

发表于 2015-12-27 15:53 | 只看该作者

这要都让你拿到了，新浪还怎么混

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

aa77dd@163.com

禁止发言

帖子: 548
积分: 1246
技术: 176
捐助: 0
注册时间: 2015-6-4

3楼

发表于 2015-12-27 12:35 | 只看该作者

回复 1# 狗屁不通

只有两种方式

1. 成为新浪公司 IT 部门的核心员工, 掌管该数据库

2. 成为黑客, 黑进此公司系统, 窃取你想要的一切数据

好吧, 好象还有第三种方式:

成为 ZF 要员, "小李啊, 那个新啥的公司, 赶紧给我查下他们的水表, 把他们那个啥瘦子裤的都给我弄来"

TOP

pcl_test

荣誉版主

Rank: 8 Rank: 8

帖子: 3041
积分: 5333
技术: 685
捐助: 0
注册时间: 2014-10-19

2楼

发表于 2015-12-27 12:32 | 只看该作者

爬虫或黑他网站

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 如何提取网站数据库内的内容？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]