某些网页无法获取到正文 · Issue #IHVJ0 · 红薯/HtmlSucker - Gitee.com

开源项目 > 程序开发 > 常用工具包 &&

/ 详情

已完成

创建于

2018-02-11 13:42

例如：http://qnzz.youth.cn/yw/201802/t20180202_11369806.htm

去掉MaxTextContentExtractor.TEXT_TAGS中的"ul"有所改善

创建了任务

这个不能随便去，你可以试试另外一种算法：）

@红薯两种算法默认都不行。

@野生虾米菌这个项目的意义在于，当你在写爬虫的时候，如果对方的网站你没有抓取的规则，那么可以用 HtmlSucker 来补充

关闭了任务

登录后才可以发表评论

Java

1

https://gitee.com/ld/HtmlSucker.git

git@gitee.com:ld/HtmlSucker.git

ld

HtmlSucker

HtmlSucker