1 Star 5 Fork 8

1264644959 / blog

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
我在工作中用到的xpath解析规则.md 1.50 KB
一键复制 编辑 原始数据 按行查看 历史
1264644959 提交于 2020-09-30 11:42 . commit

我在工作中用到的xpath解析规则

img


a[not(contains(text(),'不限'))]

//span[contains(text(),'招聘人数')]/../i/text()    父路径

normalize-space(//dl[@class='zw_a']/dt/text())  去掉 \t\n\r 字符

substring-before(//div[contains(@class,'pubtime-jobintro')]/text(),'更新')

selector.xpath('//div[@id="content"]//tr[position()>1]/td[2]/a/@href')  位置参数

//div[contains(text(),'联 系 人:')]/following-sibling::div[1]    获取当前节点的下一个相邻节点

substring-after(//a[contains(text(),'尾页')]/@href,'page=')

//div[contains(@class,'posJobSort')]//a/@href

//h3[contains(text(),'职位详情')]/parent::div[1]/following-sibling::div[1]//text()

#在使用模板的时候,如果是异步请求,需要加上请求头,用户身份和token,在获取详情页入口的时候,如果拿取不到数据,select:xpath regex: //*  查看获取到数据的格式,再进行改正

//span[contains(text(),'开发商')]/parent::div/following-sibling::div/a/text()

(//img[starts-with(@src,'https://static.damengxiang.me/files/qrcode/')]/@src)[1]
//上面是以标签的模糊属性进行定位,并且只取第一个元素,用括号括起来

//元素匹配
page_num = html.xpath("//ul[contains(@class,'pagination')]/li[last()-1]/a/text()")

问题1

为什么xpath语法有时候返回字符串,有时候返回列表,返回格式怎么统一?

问题2

如何把html文本中的nbsp符号替换为空?

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/super__man/blog.git
git@gitee.com:super__man/blog.git
super__man
blog
blog
master

搜索帮助

344bd9b3 5694891 D2dac590 5694891