培训项目
1/首先导入各种需要的包 2/运行main.py主程序 3/逻辑程序在job_grab.py里面,有注释 4/setting.py文件,pipelines.py文件,item.py文件需要着重看一下,这是scrapy框架必须要有的文件 5/如无报错,出处的文件应该在同级目录,job_data.csv不要直接用offic打开,会出现乱码问题,建议 a,新建一个excel文件,打开 b,选择"数据"选项卡,然后选择来自文本,打开文件夹,找到刚才输出的job_data.csv c,进行设置,选择“分隔符号”不要选固定宽度,下一步 d,分隔符勾选,“逗号”去掉“Tab键”其他不用操作,下一步 e,点击完成即可,再将文件另存为csv文件,之后用excel就可正常打开。出现这个问题主要是默认编码, 暂时没有找到更好的办法 item.py 是定义所要抓取的数据结构,各个字段 pipelines.py 是进行输出的文件定义的,声明不同的类进行数据处理,我所使用的是txt和csv输出,字段进行了修改, 可以直接输出到数据库,不过字段要重新组织一下。 setting.py 里面大部分进行过定义了,需要修改的几个参数,下面几行是控制使用哪些类进行文件输出的,后面的数字式优先级,0-300 TEM_PIPELINES = { #输出csv表,将下面一行注释取消,同时将txt的注解掉,不然会生成两份 'JobSpiders.pipelines.JobspidersPipeline': 3, #生成txt文件 #'JobSpiders.pipelines.JobspidersTXTPipeline': 3, 输出mysql #'JobSpiders.pipelines.MysqlTwistedPipline': 1, # 'JobSpiders.pipelines.MysqlTwistedPythonPipline':2, } data_hive.py 该文件是用来通过python将txt数据导入到hive中,当然通过修改也可以将csv直接导入到hive中,不过不建议, 在文件中也提到了原因 data_mysql.py 该文件是直接将以逗号分割的csv数据导入到mysql数据库中,使用的是pandas,方便操作 csv_txt.py 纯粹是为了懒省事,不想再跑一遍爬数据的程序,因为csv格式直接加载到hive数据库中,使用逗号进行分割会出现问题, 比如job_advantages_tag中,抓取的数据“五险一金,双休,年假”这些同样是以逗号分隔的,绘本分成不同的字段, 造成数据插入混乱,所以转化一下,使用’#‘进行分割,也可以是别的自定义字符,注意与数据库一致。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。