本项目实现需求:给我们一个网页地址,爬取他的网页内容,然后输出成我们想要的PDF格式文档,请注意,是高质量的PDF文档
第一步,安装Node.js
,推荐http://nodejs.cn/download/
,Node.js
的中文官网下载对应的操作系统包
第二步,在下载安装完了Node.js
后, 启动windows
命令行工具(windows下启动系统搜索功能,输入cmd,回车,就出来了)
第三步 需要查看环境变量是否已经自动配置,在命令行工具中输入 node -v
,如果出现 v10. ***
字段,则说明成功安装Node.js
第四步 如果您在第三步发现输入node -v
还是没有出现 对应的字段,那么请您重启电脑即可
第五步 打开本项目文件夹,打开命令行工具(windows系统中直接在文件的url
地址栏输入cmd
就可以打开了),输入 npm i cnpm nodemon -g
第六步 下载puppeteer
爬虫包,在完成第五步后,使用cnpm i puppeteer --save
命令 即可下载
第七步 完成第六步下载后,打开本项目的url.js
,将您需要爬虫爬取的网页地址替换上去(默认是http://nodejs.cn/
)
第八步 在命令行中输入 nodemon index.js
即可爬取对应的内容,并且自动输出到当前文件夹下面的index.pdf
文件中
TIPS
: 本项目设计思想就是一个网页一个index.pdf
拷贝出去,然后继续更换url
地址,继续爬取,生成新的
对应像京东首页这样的开启了图片懒加载的网页,爬取到的部分内容是
loading
状态的内容,对于有一些反爬虫机制的网页,爬虫也会出现问题,但是绝大多数网站都是可以的
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。