您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

使用Python获取HTML文件上所有标签中的href属性值

使用Python获取HTML文件上所有标签中的href属性值

好吧,为了完整起见,我将在这里添加我发现的最佳答案,并在Mark Pilgrim的Dive Into Python一书中找到它。

以下是用于列出网页中所有URL的代码

from sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):                              
        SGMLParser.reset(self)
        self.urls = []

    def start_a(self, attrs):                     
        href = [v for k, v in attrs if k=='href']  
        if href:
            self.urls.extend(href)

import urllib, urllister
usock = urllib.urlopen("http://diveintopython.net/")
parser = urllister.URLLister()
parser.Feed(usock.read())         
usock.close()      
parser.close()                    
for url in parser.urls: print url

感谢所有的答复。

python 2022/1/1 18:31:47 有241人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶