1 Star 0 Fork 0

Superbol / douban250

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

视频路径:https://www.bilibili.com/video/BV12E411A7ZQ?from=search&seid=13125463768609555306

1 项目意义 随着如今电影越来越多,各种各样的烂片和捞钱的商业片也层出不穷,而有意义的电影慢慢的变的很少。在这种情况下豆瓣通过大数据整合了网友心中的TOP250部电影,而豆瓣的页面充斥着太多与电影无关的信息,于是我们做一个电影250的整合,数据取至豆瓣。爬取每部电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接存到excel表和数据库,然后把数据做可视化处理,分析250部电影中的评分。能够更好的从数据可视化界面中查看感兴趣的电影

2 项目内容 此项目数据来源https://movie.douban.com/top250及子页面。 通过观察页面标签的规律,使用request库爬取页面,用Beautiful Soup配合re正则表达式解析标签,拿到电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接,分别用openpyxl写入excel表,和用pymysql写入数据库,配合Flask轻量级web框架,搭建网页读取数据库数据把每部电影的信息放入表格,Echars实现数据可视化,配合wordCloud词云库根据250部电影的一句话描述,提炼出词云树 2.1实现的功能(实际应用)

  1. 爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Excel
  2. 爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Mysql
  3. 通过网页的形式呈现出数据库里的电影数据
  4. 通过对大众评分进行排比,使用Echars生成柱状图实现数据可视化 2.2对技术方法的总结 在此项目中使用到技术和工具:
  5. 使用编译器:Pycharm
  6. 数据库工具: SQLyog
  7. 使用Python模块: BeautifulSoup:分析标签 RE:正则表达式 Requests:爬虫 Pymysql:操作Mysql库 Openpyxl:操作Excel库 Flask:轻量级Web框架 PyInstaller:打包工具 4.额外知识:SQL,HTML,CSS

3项目准备经验总结 3.1资源调研

  1. 网络资源:豆瓣TOP250网站
  2. 图书论文资源:CSDN

此次项目实践遇到的问题:

  1. 在数据清洗上不够细心花了很多时间,在爬取的过程中带出了很多不必要的标签 主要是对正则表达式的不熟悉
  2. SQL语句不扎实,在写入mysql中,一直报错,后来发现是语句拼写错误导致
  3. 对库的不熟悉,在使用不同的函数中,老是报莫名其妙的错误,原因是没传参
  4. 运行问题,在项目完成时,考虑到别的环境下部署要安装Python环境和库,非常麻烦。最后使用PyInstraller打包成exe执行文件,在别的环境也可以直接运行
  5. PyInstraller也是踩了很多坑,打包后运行程序报错,提示找不到URL, 查阅资料发现没有把模板和静态资源带上

空文件

简介

基于flask 豆瓣电影250部数据可视化 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/superbol/douban250.git
git@gitee.com:superbol/douban250.git
superbol
douban250
douban250
master

搜索帮助