Board logo

标题: [文本处理] [求助]抓爱词霸 页面信息 [打印本页]

作者: lllsoslll    时间: 2012-11-1 23:42     标题: [求助]抓爱词霸 页面信息

http://www.iciba.com/batch 的信息抓下来,
获取 batch 的单词解释
三方工具提供如下: wget  awk  grep  sed  iconv
                           或者 精简版perl5.6(perl.exe perl56.dll 下载http://ishare.iask.sina.com.cn/f/14534556.html)
                           vbs 也可
作者: tmplinshi    时间: 2012-11-2 01:14

本帖最后由 tmplinshi 于 2012-11-2 01:27 编辑
  1. curl http://dict-co.iciba.com/api/dictionary.php?w=batch -s | iconv -f utf-8 -c | sed -n -r "s/^<acceptation>(.*)(<\/acceptation>)?$/\1/p"
复制代码
  1. wget -O - http://dict-co.iciba.com/api/dictionary.php?w=batch -q | iconv -f utf-8 -c | sed -n -r "s/^<acceptation>(.*)(<\/acceptation>)?$/\1/p"
复制代码

作者: lllsoslll    时间: 2012-11-2 20:19

谢谢,
http://dict-co.iciba.com/api/dictionary.php?w=batch

你 是 如何 分析出 这个 url的?
作者: tmplinshi    时间: 2012-11-2 20:37

本帖最后由 tmplinshi 于 2012-11-2 20:41 编辑

回复 3# lllsoslll


    在 Google 里搜索 爱词霸 api 找到的。
作者: lllsoslll    时间: 2012-11-3 11:20

在这个帖子中,sed 如何非贪婪匹配?
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <dict num="219" id="219" name="219">
  3. <key>batch</key>
  4. <p>
  5. 1234567890234567
  6. </p>
  7. aaaaaaa
  8. <p>
  9. <ps>bt</ps>
复制代码
替换为
  1. batch
  2. bt
  3. 1234567890234567
  4. aaaaaaa
复制代码

作者: tmplinshi    时间: 2012-11-3 12:22

本帖最后由 tmplinshi 于 2012-11-3 12:24 编辑

回复 5# lllsoslll


    <?xml version="1.0" encoding="UTF-8"?>
<dict num="219" id="219" name="219">
<key>batch</key>
<p>
1234567890234567
</p>
aaaaaaa
<p>

<ps>bt</ps>
红色部分是怎么来的?

这样?
  1. sed "s/<[^>]*>//g"
复制代码

作者: lllsoslll    时间: 2012-11-3 19:30

这个api 很不稳定啊, 有时候返回的结果有例句,有时候又没有, 有时候会阻塞很长时间,
作者: wc726842270    时间: 2012-11-4 03:53

在此膜拜一下老大的思路,我是肯定想不到查找后加个API的,
作者: tmplinshi    时间: 2012-11-4 08:55

这个api 很不稳定啊, 有时候返回的结果有例句,有时候又没有, 有时候会阻塞很长时间,
lllsoslll 发表于 2012-11-3 19:30


我也发现经常响应很慢。
  1. wget -O - -q http://www.iciba.com/batch | sed -n -r "/^\t{3,}<label>/!d; s/^[^>]*>(.*)<.*$/\1/p" | iconv -f utf-8 | sed -n "H;${g;s/;\n/;/g;p}"
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2