76 Star 318 Fork 72

红薯 / HtmlSucker

 / 详情

某些网页无法获取到正文

已完成
创建于  
2018-02-11 13:42

例如:http://qnzz.youth.cn/yw/201802/t20180202_11369806.htm

去掉MaxTextContentExtractor.TEXT_TAGS中的"ul"有所改善

评论 (3)

野生虾米菌 创建了任务

这个不能随便去,你可以试试另外一种算法:)

@红薯 两种算法默认都不行。

@野生虾米菌 这个项目的意义在于,当你在写爬虫的时候,如果对方的网站你没有抓取的规则,那么可以用 HtmlSucker 来补充

红薯 关闭了任务

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(2)
36 ld 1578913711
Java
1
https://gitee.com/ld/HtmlSucker.git
git@gitee.com:ld/HtmlSucker.git
ld
HtmlSucker
HtmlSucker

搜索帮助