爬虫网页源码已经拿到但是xpath解析不出来想要的数据.md · chenp/blog - Gitee.com

6月22日，上海·源创会，云技术专场火热报名中

forked from 1264644959 / blog

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

爬虫网页源码已经拿到但是xpath解析不出来想要的数据.md 783 Bytes

一键复制编辑原始数据按行查看历史

提交于 2020-07-28 14:17 . commit

爬虫网页源码已经拿到但是xpath解析不出来想要的数据

拿到的 response.text 为下面这种格式

使用xpath怎么也提取不到想要的数据，我想要拿 class为 info 的 p标签下的 span 标签的公司名字

发现有很多 \n \t 还有 \ 转义字符

我拿取百度首页，就没有这么多的转义字符

尝试使用 HTMLParse来解决这个问题，但是还是不行

后来只能使用强大的正则来解决这个问题了

应该是微博的反爬机制吧

马建仓 AI 助手

尝试更多

代码解读

代码找茬

代码优化

1

https://gitee.com/nchenp/blog.git

git@gitee.com:nchenp/blog.git

nchenp

blog

blog

master