本帖最后由 heiben 于 2014-11-28 20:34 编辑
要求是抓取一个目录下的所有html的指定内容,并将其按照格式输出(txt,xls)
在淘宝上找人代写,结果有人说可以,有人不行。
详细要求:



html样本与最终结果放在云盘
http://yunpan.cn/cAXcBy2N7Ij6H 提取码 7b4e
求大神帮助,自己用java写了一些如下:
用Python的Beautiful soup应该更快解决,抓取复制代码 这一部分的内容就可将检查点的大部分都抓取了,但难点就在如何连同基线项,等级与检查点等都关联上。。结果只要不合规的,也就是打红色交叉
的。
最终结果的输出要与excel的相同。- import java.io.BufferedReader;
- import java.io.FileOutputStream;
- import java.io.IOException;
- import java.io.InputStream;
- import java.io.InputStreamReader;
- import java.io.OutputStreamWriter;
- import java.io.PrintWriter;
- import java.net.URL;
- import java.net.URLConnection;
- import java.util.regex.*;
- public class Test {
-
- public static void main(String[] args) {
- try {
- URL url = new URL("http://127.0.0.1/html/10.248.1.68(80).html");
- URLConnection conn = url.openConnection();
- conn.setDoOutput(true);
- InputStream in = null;
- in = url.openStream();
- String content = pipe(in,"utf-8");
- //System.out.println(content);
- String Regex=">IP地址</th><td>(.*?)</td></tr>(.*?)>安全评估分</th><td>(.*?)</td></tr>(.*?)src=\"images/blank.gif\"(.*?)</td><td colspan='1' rowspan='1' width='40px'>(.*?)</td><td colspan='1' rowspan='1' width='40px'>(.*?)</td><td colspan='1' rowspan='1' width='30px'>(.*?)</th><td colspan='1' rowspan='1' width='150px'>(.*?)</td><td>(.*?)";
- String html=content;
-
- Pattern p1=Pattern.compile(Regex);
-
- Matcher m=p1.matcher(html);
-
- while(m.find())
- {
- //System.out.println(m.group());
- System.out.println("IP地址:"+m.group(1)+"\r\n检查分:"+m.group(3)+"\r\n基线项:"+m.group(5)+"\r\n风险等级:"+m.group(7)+"\r\n检查点:"+m.group(9));
- }
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- static String pipe(InputStream in,String charset) throws IOException {
- StringBuffer s = new StringBuffer();
- if(charset==null||"".equals(charset)){
- charset="utf-8";
- }
- String rLine = null;
- BufferedReader bReader = new BufferedReader(new InputStreamReader(in,charset));
- PrintWriter pw = null;
-
- FileOutputStream fo = new FileOutputStream("test.html");
- OutputStreamWriter writer = new OutputStreamWriter(fo, "utf-8");
- pw = new PrintWriter(writer);
- while ( (rLine = bReader.readLine()) != null) {
- String tmp_rLine = rLine;
- int str_len = tmp_rLine.length();
- if (str_len > 0) {
- s.append(tmp_rLine);
- pw.println(tmp_rLine);
- pw.flush();
- }
- tmp_rLine = null;
- }
- in.close();
- pw.close();
- return s.toString();
- }
- }
复制代码
|