您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – 使用BeautifulSoup解析HTML表

5b51 2022/1/14 8:21:25 python 字数 3440 阅读 501 来源 www.jb51.cc/python

我过去曾使用过BeautifulSoup,但我反对新事物;令人难以置信的通用/最小的HTML表格标记...我的目标是获取每个值和它的标签(每个都在自己的td中)并打印出来......它们可以合并,我不在乎,我只是想制作确保每个标签都应用于正确的值.这是一个示例表:<tbody><tr> <td class='labels'&gt

概述

我过去曾使用过BeautifulSoup,但我反对新事物;令人难以置信的通用/最小的HTML表格标记…我的目标是获取每个值和它的标签(每个都在自己的td中)并打印出来……它们可以合并,我不在乎,我只是想制作确保每个标签都应用于正确的值.这是一个示例表:


  

我知道如何抓住这些价值……

for td in soup.findAll('table')[0]:  # theres more than one table on the page
    print td.renderContents().strip()

但这只给了我……

'Dawn:'
'07:01'
'Sunrise:'
'07:26'
'Moonrise:'
'14:29'
'Moon

我想我可以抓住那些类值“标签”和“site_data”,但我如何确保标签和数据分组正确?

import pprint
from BeautifulSoup import BeautifulSoup  
soup = BeautifulSoup(docTxt)
groupedData = []
for row in soup.findAll("tr"):
    data = {}
    allTDs = row.findAll("td")
    for x in range(0,len(allTDs)-1,2):
        data[allTDs[x].renderContents().strip()] = allTDs[x+1].renderContents().strip()
    groupedData.append(data)

pprint.pprint(groupedData)

输出

[{'Dawn:': '07:01','Moonrise:': '14:29','Sunrise:': '07:26'},{'Dusk:': '18:27','Moonset:': '01:55','Sunset:&nbsp;': '18:02'},{'Day length:': '10:36','Daylight:': '11:26','Moon Phase:': 'Waxing Gibbous'}]

总结

以上是编程之家为你收集整理的python – 使用BeautifulSoup解析HTML表全部内容,希望文章能够帮你解决python – 使用BeautifulSoup解析HTML表所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶