招聘数据分析

介绍

培训项目

1/首先导入各种需要的包 2/运行main.py主程序 3/逻辑程序在job_grab.py里面，有注释 4/setting.py文件，pipelines.py文件，item.py文件需要着重看一下，这是scrapy框架必须要有的文件 5/如无报错，出处的文件应该在同级目录，job_data.csv不要直接用offic打开，会出现乱码问题，建议 a,新建一个excel文件，打开 b，选择"数据"选项卡，然后选择来自文本，打开文件夹，找到刚才输出的job_data.csv c,进行设置，选择“分隔符号”不要选固定宽度，下一步 d,分隔符勾选，“逗号”去掉“Tab键”其他不用操作,下一步 e,点击完成即可，再将文件另存为csv文件，之后用excel就可正常打开。出现这个问题主要是默认编码，暂时没有找到更好的办法 item.py 是定义所要抓取的数据结构，各个字段 pipelines.py 是进行输出的文件定义的，声明不同的类进行数据处理，我所使用的是txt和csv输出，字段进行了修改，可以直接输出到数据库，不过字段要重新组织一下。 setting.py 里面大部分进行过定义了，需要修改的几个参数，下面几行是控制使用哪些类进行文件输出的，后面的数字式优先级，0-300 TEM_PIPELINES = { #输出csv表，将下面一行注释取消，同时将txt的注解掉，不然会生成两份 'JobSpiders.pipelines.JobspidersPipeline': 3, #生成txt文件 #'JobSpiders.pipelines.JobspidersTXTPipeline': 3, 输出mysql #'JobSpiders.pipelines.MysqlTwistedPipline': 1, # 'JobSpiders.pipelines.MysqlTwistedPythonPipline':2, } data_hive.py 该文件是用来通过python将txt数据导入到hive中，当然通过修改也可以将csv直接导入到hive中，不过不建议，在文件中也提到了原因 data_mysql.py 该文件是直接将以逗号分割的csv数据导入到mysql数据库中，使用的是pandas，方便操作 csv_txt.py 纯粹是为了懒省事，不想再跑一遍爬数据的程序，因为csv格式直接加载到hive数据库中，使用逗号进行分割会出现问题，比如job_advantages_tag中，抓取的数据“五险一金,双休,年假”这些同样是以逗号分隔的，绘本分成不同的字段，造成数据插入混乱，所以转化一下，使用’#‘进行分割，也可以是别的自定义字符，注意与数据库一致。

Petit / 招聘数据分析

招聘数据分析

介绍

简介

发行版

贡献者

近期动态

Petit / 招聘数据分析 .gitee-modal { width: 500px !important; }

招聘数据分析

介绍

简介

发行版

贡献者

近期动态

搜索帮助

Petit / 招聘数据分析