2 Star 1 Fork 1

Petit / 招聘数据分析

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.md 2.46 KB
一键复制 编辑 原始数据 按行查看 历史

招聘数据分析

介绍

培训项目

1/首先导入各种需要的包 2/运行main.py主程序 3/逻辑程序在job_grab.py里面,有注释 4/setting.py文件,pipelines.py文件,item.py文件需要着重看一下,这是scrapy框架必须要有的文件 5/如无报错,出处的文件应该在同级目录,job_data.csv不要直接用offic打开,会出现乱码问题,建议 a,新建一个excel文件,打开 b,选择"数据"选项卡,然后选择来自文本,打开文件夹,找到刚才输出的job_data.csv c,进行设置,选择“分隔符号”不要选固定宽度,下一步 d,分隔符勾选,“逗号”去掉“Tab键”其他不用操作,下一步 e,点击完成即可,再将文件另存为csv文件,之后用excel就可正常打开。出现这个问题主要是默认编码, 暂时没有找到更好的办法 item.py 是定义所要抓取的数据结构,各个字段 pipelines.py 是进行输出的文件定义的,声明不同的类进行数据处理,我所使用的是txt和csv输出,字段进行了修改, 可以直接输出到数据库,不过字段要重新组织一下。 setting.py 里面大部分进行过定义了,需要修改的几个参数,下面几行是控制使用哪些类进行文件输出的,后面的数字式优先级,0-300 TEM_PIPELINES = { #输出csv表,将下面一行注释取消,同时将txt的注解掉,不然会生成两份 'JobSpiders.pipelines.JobspidersPipeline': 3, #生成txt文件 #'JobSpiders.pipelines.JobspidersTXTPipeline': 3, 输出mysql #'JobSpiders.pipelines.MysqlTwistedPipline': 1, # 'JobSpiders.pipelines.MysqlTwistedPythonPipline':2, } data_hive.py 该文件是用来通过python将txt数据导入到hive中,当然通过修改也可以将csv直接导入到hive中,不过不建议, 在文件中也提到了原因 data_mysql.py 该文件是直接将以逗号分割的csv数据导入到mysql数据库中,使用的是pandas,方便操作 csv_txt.py 纯粹是为了懒省事,不想再跑一遍爬数据的程序,因为csv格式直接加载到hive数据库中,使用逗号进行分割会出现问题, 比如job_advantages_tag中,抓取的数据“五险一金,双休,年假”这些同样是以逗号分隔的,绘本分成不同的字段, 造成数据插入混乱,所以转化一下,使用’#‘进行分割,也可以是别的自定义字符,注意与数据库一致。

Python
1
https://gitee.com/lepetitprince/analysis_of_recruitment_data.git
git@gitee.com:lepetitprince/analysis_of_recruitment_data.git
lepetitprince
analysis_of_recruitment_data
招聘数据分析
master

搜索帮助