这是因为DOCTYPE
零件格式不正确。
它还包含一些奇怪的标签,例如:
<!Co Dreef / Eelco de Graaff Faculteit der Rechtsgeleerdheid Universiteit Leiden><!e-mail j.dreef@law.leidenuniv.nl >
尽管如此,您可以剥离垃圾使机械化的HTML解析器满意:
import mechanize
url = 'http://zrs.leidenuniv.nl/ul/start.PHP'
br = mechanize.Browser()
response = br.open(url)
response.set_data(response.get_data()[177:])
br.set_response(response)
br.select_form(nr = 0)