问题是名称空间。当解析为XML时,img标记位于http://www.w3.org/1999/xhtml命名空间中,因为这是该元素的默认命名空间。您在没有名称空间的情况下要求img标记。
尝试这个:
>>> tree.getroot().xpath(
... "//xhtml:img",
... namespaces={'xhtml':'http://www.w3.org/1999/xhtml'}
... )
[<Element {http://www.w3.org/1999/xhtml}img at 11a29e0>]