douban250: 基于flask 豆瓣电影250部数据可视化

视频路径:https://www.bilibili.com/video/BV12E411A7ZQ?from=search&seid=13125463768609555306

1 项目意义随着如今电影越来越多,各种各样的烂片和捞钱的商业片也层出不穷,而有意义的电影慢慢的变的很少。在这种情况下豆瓣通过大数据整合了网友心中的TOP250部电影,而豆瓣的页面充斥着太多与电影无关的信息,于是我们做一个电影250的整合,数据取至豆瓣。爬取每部电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接存到excel表和数据库,然后把数据做可视化处理,分析250部电影中的评分。能够更好的从数据可视化界面中查看感兴趣的电影

2 项目内容此项目数据来源https://movie.douban.com/top250及子页面。通过观察页面标签的规律,使用request库爬取页面,用Beautiful Soup配合re正则表达式解析标签,拿到电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接,分别用openpyxl写入excel表,和用pymysql写入数据库,配合Flask轻量级web框架,搭建网页读取数据库数据把每部电影的信息放入表格,Echars实现数据可视化,配合wordCloud词云库根据250部电影的一句话描述，提炼出词云树 2.1实现的功能（实际应用）

爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Excel
爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Mysql
通过网页的形式呈现出数据库里的电影数据
通过对大众评分进行排比,使用Echars生成柱状图实现数据可视化 2.2对技术方法的总结在此项目中使用到技术和工具：
使用编译器：Pycharm
数据库工具: SQLyog
使用Python模块： BeautifulSoup:分析标签 RE：正则表达式 Requests:爬虫 Pymysql:操作Mysql库 Openpyxl:操作Excel库 Flask:轻量级Web框架 PyInstaller:打包工具 4.额外知识:SQL,HTML,CSS

3项目准备经验总结 3.1资源调研

网络资源：豆瓣TOP250网站
图书论文资源：CSDN

此次项目实践遇到的问题:

在数据清洗上不够细心花了很多时间,在爬取的过程中带出了很多不必要的标签主要是对正则表达式的不熟悉
SQL语句不扎实,在写入mysql中,一直报错,后来发现是语句拼写错误导致
对库的不熟悉,在使用不同的函数中,老是报莫名其妙的错误,原因是没传参
运行问题,在项目完成时,考虑到别的环境下部署要安装Python环境和库，非常麻烦。最后使用PyInstraller打包成exe执行文件,在别的环境也可以直接运行
PyInstraller也是踩了很多坑,打包后运行程序报错,提示找不到URL, 查阅资料发现没有把模板和静态资源带上

Superbol / douban250

简介

发行版

贡献者

近期动态

Superbol / douban250 .gitee-modal { width: 500px !important; }

简介

发行版

贡献者

近期动态

搜索帮助

Superbol / douban250