[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
本帖最后由 netdzb 于 2021-5-23 14:00 编辑

回复 1# wxyz0001

请帖一下问题相关的代码,说明问题。
还有你抓的网页是什么编码的?
你把你要解析的网页也贴出来呀。

TOP

回复 4# wxyz0001

你把网页贴出来,我可以试试看。同样还可以用xpath,
我一直没有写python了,应该及时复习一下了。

TOP

本帖最后由 netdzb 于 2021-5-23 21:49 编辑

回复 7# wxyz0001

我上来看了一下,提供网页的url是utf-8编码的。你主题贴提到的<p>标签只有一个啊。
到底需要提取哪些信息?

TOP

回复 7# wxyz0001

简化一下问题,定义一个html,你bs4解析的时候的遇到了什么问题?

html = '''<div class="blkContainerSblkCon">
          <table class="booklist">
          <tbody><tr class="category">
                 <td colspan="1">2020年精选</td>
                 </tr>

                 <tr>
                   <td class="title"><a target="_blank" href="https://www.dzwzzz.com/2020_06/duzh20200623.html" title="在抗疫前线的父母">在抗疫前线的父母

</a></td>
                                <td class="author" title="林少娟">林少娟</td>
                                <td class="source" title="微信公众号“南都周刊”">微信公众号“南都周刊”</td>
                 </tr>
                 <tr>
                      <td class="title"><a target="_blank" href="https://www.dzwzzz.com/2020_05/duzh20200534.html" title="最后的5%是关键">最后的5%是关键

</a></td>
                      <td class="author" title="〔日〕石川拓治">〔日〕石川拓治</td>
                      <td class="source" title="上海文艺出版社《天才主厨的绝对温度》一书">上海文艺出版社《天才主厨的绝对温度》一书</td>
                 </tr>
            </tbody>
            </table>
            </div>'''

TOP

回复 10# wxyz0001

你是说
<table class="booklist">
如果是这样的会读不出来
<table class="book list">

TOP

回复 12# wxyz0001

我下面的代码是可以通过的

from bs4 import BeautifulSoup

html = '''<div class="blkContainer SblkCon">
          <table class="booklist">
          <tbody><tr class="category">
                 <td colspan="1">2020年精选1</td>
                 <td colspan="2">2020年精选2</td>
                 </tr>

                 <tr>
                   <td class="title"><a target="_blank" href="https://www.dzwzzz.com/2020_06/duzh20200623.html" title="在抗疫前线的父母">在抗疫前线的父母

</a></td>
                                <td class="author" title="林少娟">林少娟</td>
                                <td class="source" title="微信公众号“南都周刊”">微信公众号“南都周刊”</td>
                 </tr>
                 <tr>
                      <td class="title"><a target="_blank" href="https://www.dzwzzz.com/2020_05/duzh20200534.html" title="最后的5%是关键">最后的5%是关键

</a></td>
                      <td class="author" title="〔日〕石川拓治">〔日〕石川拓治</td>
                      <td class="source" title="上海文艺出版社《天才主厨的绝对温度》一书">上海文艺出版社《天才主厨的绝对温度》一书</td>
                 </tr>
            </tbody>
            </table>
            </div>'''

soup = BeautifulSoup(html,"html.parser")
#addr = soup.find_all('booklist').find_all('category')
addr = soup.find('div', class_='blkContainer SblkCon').find('table', class_='booklist').find('tr',class_='category').find_all('td')
print(addr)

===========                 

<td colspan="1">2020年精选1</td>
<td colspan="2">2020年精选2</td>

如果我我想输出
===>
2020年精选1
2020年精选2

正确的代码应该怎么写?

TOP

返回列表