//h1[@class='state']
在上面的xpath中,你正在选择h1
具有class
属性的标签state
所以这就是为什么它选择所有进入的东西 h1 element
如果你只想选择h1
标签文本,则只需
//h1[@class='state']/text()
//h1[@class='state']//text()
因此区别在于/text()
特定标签的文本,特定标签的文本//text()
及其子标签
下面提到的代码为你工作
site = ''.join(hxs.select("//h1[@class='state']/text()").extract()).strip()