urllister.py中的问题

This item was filled under [ 易懂python ]
在8.3节里,urllister.py 和 后面调用该模块的代码,不明白
urllister.py如下:

from sgmllib import SGMLParser

class URLLister(SGMLParser):
def reset(self):
SGMLParser.reset(self)
self.urls = []

def start_a(self, attrs):
href = [v for k, v in attrs if k=='href']
if href:
self.urls.extend(href)

使用代码过程:
>>> import urllib, urllister
>>> usock = urllib.urlopen(“http://diveintopython.org/”)
>>> parser = urllister.URLLister()
>>> parser.feed(usock.read())
>>> usock.close()
>>> parser.close()
>>> for url in parser.urls: print url

关于urllister.py,书中有说明:
reset 由 SGMLParser 的 __init__ 方法来调用,也可以在创建一个分析器实例时手工来调用。所以如果您需要做初始化,在 reset 中去做,而不要在 __init__ 中做。这样当某人重用一个分析器实例时,会正确地重新初始化。这部分看了sgmllib的代码,明白了

但是,后面说“只要找到一个 <a> 标记,start_a 就会由 SGMLParser 进行调用”,这个怎么也搞不懂,为什么找到<a>后就会自动调用start_a呢?怎么体现出来的?请帮忙解释一下,非常感谢

#######################################
查看sgmllib中的源码:(SGMLParser模块中)
def finish_starttag(self, tag, attrs):
try:
method = getattr(self, ’start_’ + tag)
欢迎交流,我的邮箱是ljy080829@gmail.com
Bookmark and Share
Tagged with: [ , , , ]

喜欢这篇文章的人还喜欢。。。

You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Leave a Comment