C#开发爬虫的知识总结,目前还在更新中。这并不是一个完整的爬虫程序,只是一些示例。
为什么要拿C#开发爬虫项目,因为个人还是比较喜欢C#。C#虽然库少一点,但想要的功能基本还是能实现的。
总结的知识点如果什么错误之处,还恳请大家提个issue指正,一起学习进步♂( ̄▽ ̄)/
基础知识
网页抓取原理
法律与道德约束
抓取网页
抓取动态网页
WebAPI调用
获取实时天气
获取Bing每日图片
获取网页DOM
使用CSS选择器和XPath选取元素
Url抓取(当Url太多时,UI会卡)
图片抓取
文件下载
多线程抓取
抓包工具使用
模拟登录并获取登录后的内容
必应图片搜索(仅供交流学习使用,请勿用作商业用途)
爬虫数据存储
Berkeley DB
SQLite
小例子-全国家常菜价格统计(仅供交流学习使用,请勿用作商业用途)
小例子-通用抓取
将网页保存为图片/PDF
Visual Studio 2013 + .Net 4.5
Visual Studio 2015 + .Net 4.5.2
Visual Studio 2017 + .Net 4.7.2
如果没有安装Blend SDK,GAC中没有System.Windows.Interactivity.dll,需要自己引用bin/x64/Debug目录下的System.Windows.Interactivity.dll
编译时可能会显示各种库找不到,Nuget还原下包就可以正常编译了
更新CEF至85.3.130版本后,会出现找不到ChromiumWebBrowser的问题。解决方法是:还原Nuget包后重新打开项目
Berkeley DB需要引用bin/x64/Debug目录下的libdb_dotnet181.dll,运行时还需要libdb_csharp181.dll和libdb181.dll,已置于bin/x64/Debug目录下
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。