代码拉取完成,页面将自动刷新
同步操作将从 Way/bigdata_analyse 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
该 repo 是本人实践过的数据分析项目集合,每个项目都会包含一个友好的说明文档,用来阐述和展示整个开发流程,同时也会提供相关的数据集,以供下载练习。
采用不同的技术栈,通过对不同行业的数据集进行分析,期望达到以下目标:
jupyter notebook 是一种网页交互形式的 python 编辑器,直接通过 pip 安装,也支持 markdown,很适合用来做数据分析可视化以及写文章、写示例代码等。
主题 | 处理方式 | 技术栈 | 数据集下载 |
---|---|---|---|
1 亿条淘宝用户行为数据分析 | 离线处理 | 清洗 hive + 分析 hive + 可视化 echarts | 阿里云 或者 百度网盘 提取码:5ipq |
1000 万条淘宝用户行为数据实时分析 | 实时处理 | 数据源 kafka + 实时分析 flink + 可视化(es + kibana) | 百度网盘 提取码:m4mc |
300 万条《野蛮时代》的玩家数据分析 | 离线处理 | 清洗 pandas + 分析 mysql + 可视化 pyecharts | 百度网盘 提取码:paq4 |
130 万条深圳通刷卡数据分析 | 离线处理 | 清洗 pandas + 分析 impala + 可视化 dbeaver | 百度网盘 提取码:t561 |
10 万条厦门招聘数据分析 | 离线处理 | 清洗 pandas + 分析 hive + 可视化 ( hue + pyecharts ) + 预测 sklearn | 百度网盘 提取码:9wx0 |
7000 条租房数据分析 | 离线处理 | 清洗 pandas + 分析 sqlite + 可视化 matplotlib | 百度网盘 提取码:9en3 |
6000 条倒闭企业数据分析 | 离线处理 | 清洗 pandas + 分析 pandas + 可视化 (jupyter notebook + pyecharts) | 百度网盘 提取码:xvgm |
COVID-19 疫情数据分析 | 离线处理 | 数据获取 requests + 清洗 pandas + 分析 pandas + 可视化 (jupyter notebook + pyecharts) | COVID-19 或者 百度网盘 提取码:wgmg |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。