1 Star 0 Fork 8

chenp / blog

forked from 1264644959 / blog 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
爬虫网页源码已经拿到但是xpath解析不出来想要的数据.md 783 Bytes
一键复制 编辑 原始数据 按行查看 历史
zhangyunlei 提交于 2020-07-28 14:17 . commit

爬虫网页源码已经拿到但是xpath解析不出来想要的数据

拿到的 response.text 为下面这种格式

image-20200728101138197

使用xpath怎么也提取不到想要的数据,我想要拿 class为 info 的 p标签下的 span 标签的公司名字

发现有很多 \n \t 还有 \ 转义字符

我拿取百度首页,就没有这么多的转义字符

image-20200728101629352

尝试使用 HTMLParse来解决这个问题,但是还是不行

后来只能使用强大的正则来解决这个问题了

应该是微博的反爬机制吧

img

img

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/nchenp/blog.git
git@gitee.com:nchenp/blog.git
nchenp
blog
blog
master

搜索帮助

344bd9b3 5694891 D2dac590 5694891