1 Star 17 Fork 3

wenhaha / 51job数据爬取与分析

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

51job数据爬取与分析

介绍

从51job上爬取了10万条(耗时50秒左右)职位数据,抽取“数据分析”岗,进行数据清洗,然后做了分析

使用说明

  1. get_data.py :获取数据的爬虫程序,将爬取的数据存储在本地mysql数据库中。
  2. 数据清洗.ipynb :从数据库中读取数据并清洗,将结果输出到Excel表格
    • 获取工作名中包含“数据”的工作信息
    • 从‘6-8千/月’等工资格式中提取出有效薪资salary如:7000。
    • 根据salary做一次分箱,方便之后进行分析
    • 提取工作的城市信息
    • 提取工作要求中的“学历要求”
    • 参照provinces.py中提供的省份字典,获取工作对应的省份
    • 根据工作福利条数生成福利得分treatment_score
  3. job1.pbix :使用powerBI 对数据进行大致分析
    • 月薪的描述性统计信息
    • 月薪范围计数对比
    • 不同学历的月薪均值
    • 热门城市热力图、地图
    • 福利词云图

参与贡献

  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

扩展

  1. 可以分析其他职位的数据

  2. 实习岗和全职岗可分开

预览

数据预览

清洗前:

1

清洗后:

1

数据分析结果

11

1

空文件

简介

从51job上爬取了10万条职位数据,抽取“数据分析”岗,进行数据清洗,然后做了分析 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/wenhaha8/job51_analysis.git
git@gitee.com:wenhaha8/job51_analysis.git
wenhaha8
job51_analysis
51job数据爬取与分析
master

搜索帮助