8 Star 337 Fork 7

Requesetss / Python网络爬虫与推荐算法的新闻推荐平台

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MulanPSL-2.0

Python网络爬虫与推荐算法的新闻推荐平台

介绍

网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐

  • 权重衰减进行用户兴趣标签权重的衰减,避免内容推荐的过度重复
  • 标签推荐进行用户标签与新闻标签的匹配,按照匹配比例进行新闻的推荐
  • 区域推荐进行IP区域确定,匹配区域性文章进行推荐
  • 热点推荐进行新闻热点的计算的依据是新闻阅读量、新闻评论量、新闻发布时间

涉及框架:Django、jieba、selenium、BeautifulSoup、vue.js

软件功能结构/页面展示

输入图片说明

用户端 输入图片说明 输入图片说明 输入图片说明 输入图片说明 输入图片说明

管理端 输入图片说明 输入图片说明 输入图片说明

保姆级安装教程

  1. 安装Python环境

    安装包下载:https://www.python.org/ftp/python/3.6.8/python-3.6.8-amd64.exe Snipaste_2022-04-21_08-49-37

    然后就是各种下一步,安装完就行了,测试安装是否成功就打开CMD

    pip --version
    python --version

    出现下面的内容就是安装成功了

    Snipaste_2022-04-21_08-54-04

  2. 安装Python依赖

    Python就一个文件夹"FinalProject"

    打开CMD --> cd F:\code\NewsRecommends\FinalProject (注意此处的路径是我本地的,改成你自己电脑上的即可)

    执行 pip install -r requirements.txt安装Python项目运行的所需依赖

  3. 安装NodeJS

    下载地址:https://nodejs.org/dist/v16.14.2/node-v16.14.2-x64.msi

    一直下一步就完事了

  4. 安装NodeJS依赖

    前端页面分成了两个项目,所以两个项目都需要分别安装依赖

    用户端前端:News-Page

    打开CMD --> cd F:\code\NewsRecommends\News-Page (注意此处的路径是我本地的,改成你自己电脑上的即可)

    执行 npm install安装NodeJS所需依赖

    管理端前端:vue-admin-template-master

    打开CMD --> cd F:\code\NewsRecommends\vue-admin-template-master (注意此处的路径是我本地的,改成你自己电脑上的即可)

    执行 npm install安装NodeJS所需依赖

    注:这个过程很慢,并且有可能因为网络超时导致失败之类的,所以自己多试几次

  5. 数据库创建/数据导入

    数据库使用的是MySQL,没安装的可以下载一个phpstudy(小皮面板)

    MySQL安装了就比较难卸载干净了,卸载不干净下次安装必报错,所以不建议新手去捣鼓,不信邪的也可以去试试

    小皮面板上直接启动MySQL服务就行了

    然后就是使用Navicat去连接MySQL服务器

    默认账号/密码应该都是 root

    然后新建一个news数据库 把目录F:\code\NewsRecommends\FinalProject下的news.sql导入到数据库中

  6. 项目数据库配置

F:\code\NewsRecommends\FinalProject\newsapi\newsServer\settings.py
DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.mysql',
        'NAME': 'news',
        'USER': 'root', // 自己的数据库账号
        'PASSWORD': 'root', // 自己的数据库密码
        'HOST': '127.0.0.1',
        'PORT': '3306',
    }
}

F:\code\NewsRecommends\FinalProject\newsapi\Spider\OperationMysql.py
    def __init__(self):
        self.conn = pymysql.connect(
            host='127.0.0.1',  # 连接的数据库服务器主机名
            port=3306,  # 数据库端口号
            user='root',  # 数据库登录用户名
            passwd='root',
            db='news',  # 数据库名称
            charset='utf8',  # 连接编码
            cursorclass=pymysql.cursors.DictCursor
        )

到此所有需要安装的东西都安装完了

启动

  1. Django项目启动
# 打开CMD
cd F:\code\NewsRecommends\FinalProject\newsapi
# 注意此处的路径是我本地的,改成你自己电脑上的即可
python manage.py runserver 0.0.0.0:8000
  1. 前端项目启动
//用户端 (改成自己的路径)
cd F:\code\NewsRecommends\News-Page
npm run dev 
//管理端 (改成自己的路径)
cd F:\code\NewsRecommends\vue-admin-template-master
npm run serve

使用

可以直接看到的是两个页面

客户端:

http://127.0.0.1:8080

管理端:

http://127.0.0.1:9090

然后爬虫的状态是因为我数据的记录是开着的,所以需要自己手动把数据库里的爬虫和解析器状态都改成关闭

news_api_spiderstate表

status这一列全部改成0

然后再到管理端打开就完事了

时间设置的短一些,不然你等半天也不会有数据

会Linux的其实放到Linux可能会更好用一些,不会就按照上述方法进行

PS

这是一个普通本科的毕业设计项目,耗时1个月左右,一个人独立完成开发(前端+后端),所以细节可能并不是那么到位,完成的项目也懒得继续去优化了,但是基本的功能该有的都有吧,所以如愿以偿的获得一个比较高分的答辩结果,拿我项目去做毕设的人也大有人在,论文就不要找我要了,白嫖也有个度,问我卖不卖的我也不太想搭理,因为我开的价你未必给得起,做之前我还特意去问了毕设贩子,同类型同题材的项目1500RMB,所以自重。知道用这个项目的都是学生,所以要钱没啥意义。

这个项目没有用多么高深的推荐算法,所以跟机器学习的大佬们没法比~

有问题私聊、加群问都行,太小白的问题,我就不太想回复了,上面保姆级教程该说的都说了

毕设能不能拿高分就看各位自己的造化了

愿意的就点个星,不愿意的就算啦,佛系~

问题交流群:

原有的交流群已经解散了哈,确实工作比较忙,没办法维护和协助大家解决问题,有问题加微信或者邮件沟通吧,能回复我尽量回复,不能回复也请尽量!!微信我主页可见。

木兰宽松许可证, 第2版 木兰宽松许可证, 第2版 2020年1月 http://license.coscl.org.cn/MulanPSL2 您对“软件”的复制、使用、修改及分发受木兰宽松许可证,第2版(“本许可证”)的如下条款的约束: 0. 定义 “软件”是指由“贡献”构成的许可在“本许可证”下的程序和相关文档的集合。 “贡献”是指由任一“贡献者”许可在“本许可证”下的受版权法保护的作品。 “贡献者”是指将受版权法保护的作品许可在“本许可证”下的自然人或“法人实体”。 “法人实体”是指提交贡献的机构及其“关联实体”。 “关联实体”是指,对“本许可证”下的行为方而言,控制、受控制或与其共同受控制的机构,此处的控制是指有受控方或共同受控方至少50%直接或间接的投票权、资金或其他有价证券。 1. 授予版权许可 每个“贡献者”根据“本许可证”授予您永久性的、全球性的、免费的、非独占的、不可撤销的版权许可,您可以复制、使用、修改、分发其“贡献”,不论修改与否。 2. 授予专利许可 每个“贡献者”根据“本许可证”授予您永久性的、全球性的、免费的、非独占的、不可撤销的(根据本条规定撤销除外)专利许可,供您制造、委托制造、使用、许诺销售、销售、进口其“贡献”或以其他方式转移其“贡献”。前述专利许可仅限于“贡献者”现在或将来拥有或控制的其“贡献”本身或其“贡献”与许可“贡献”时的“软件”结合而将必然会侵犯的专利权利要求,不包括对“贡献”的修改或包含“贡献”的其他结合。如果您或您的“关联实体”直接或间接地,就“软件”或其中的“贡献”对任何人发起专利侵权诉讼(包括反诉或交叉诉讼)或其他专利维权行动,指控其侵犯专利权,则“本许可证”授予您对“软件”的专利许可自您提起诉讼或发起维权行动之日终止。 3. 无商标许可 “本许可证”不提供对“贡献者”的商品名称、商标、服务标志或产品名称的商标许可,但您为满足第4条规定的声明义务而必须使用除外。 4. 分发限制 您可以在任何媒介中将“软件”以源程序形式或可执行形式重新分发,不论修改与否,但您必须向接收者提供“本许可证”的副本,并保留“软件”中的版权、商标、专利及免责声明。 5. 免责声明与责任限制 “软件”及其中的“贡献”在提供时不带任何明示或默示的担保。在任何情况下,“贡献者”或版权所有者不对任何人因使用“软件”或其中的“贡献”而引发的任何直接或间接损失承担责任,不论因何种原因导致或者基于何种法律理论,即使其曾被建议有此种损失的可能性。 6. 语言 “本许可证”以中英文双语表述,中英文版本具有同等法律效力。如果中英文版本存在任何冲突不一致,以中文版为准。 条款结束 如何将木兰宽松许可证,第2版,应用到您的软件 如果您希望将木兰宽松许可证,第2版,应用到您的新软件,为了方便接收者查阅,建议您完成如下三步: 1, 请您补充如下声明中的空白,包括软件名、软件的首次发表年份以及您作为版权人的名字; 2, 请您在软件包的一级目录下创建以“LICENSE”为名的文件,将整个许可证文本放入该文件中; 3, 请将如下声明文本放入每个源文件的头部注释中。 Copyright (c) [Year] [name of copyright holder] [Software Name] is licensed under Mulan PSL v2. You can use this software according to the terms and conditions of the Mulan PSL v2. You may obtain a copy of Mulan PSL v2 at: http://license.coscl.org.cn/MulanPSL2 THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v2 for more details. Mulan Permissive Software License,Version 2 Mulan Permissive Software License,Version 2 (Mulan PSL v2) January 2020 http://license.coscl.org.cn/MulanPSL2 Your reproduction, use, modification and distribution of the Software shall be subject to Mulan PSL v2 (this License) with the following terms and conditions: 0. Definition Software means the program and related documents which are licensed under this License and comprise all Contribution(s). Contribution means the copyrightable work licensed by a particular Contributor under this License. Contributor means the Individual or Legal Entity who licenses its copyrightable work under this License. Legal Entity means the entity making a Contribution and all its Affiliates. Affiliates means entities that control, are controlled by, or are under common control with the acting entity under this License, ‘control’ means direct or indirect ownership of at least fifty percent (50%) of the voting power, capital or other securities of controlled or commonly controlled entity. 1. Grant of Copyright License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable copyright license to reproduce, use, modify, or distribute its Contribution, with modification or not. 2. Grant of Patent License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable (except for revocation under this Section) patent license to make, have made, use, offer for sale, sell, import or otherwise transfer its Contribution, where such patent license is only limited to the patent claims owned or controlled by such Contributor now or in future which will be necessarily infringed by its Contribution alone, or by combination of the Contribution with the Software to which the Contribution was contributed. The patent license shall not apply to any modification of the Contribution, and any other combination which includes the Contribution. If you or your Affiliates directly or indirectly institute patent litigation (including a cross claim or counterclaim in a litigation) or other patent enforcement activities against any individual or entity by alleging that the Software or any Contribution in it infringes patents, then any patent license granted to you under this License for the Software shall terminate as of the date such litigation or activity is filed or taken. 3. No Trademark License No trademark license is granted to use the trade names, trademarks, service marks, or product names of Contributor, except as required to fulfill notice requirements in Section 4. 4. Distribution Restriction You may distribute the Software in any medium with or without modification, whether in source or executable forms, provided that you provide recipients with a copy of this License and retain copyright, patent, trademark and disclaimer statements in the Software. 5. Disclaimer of Warranty and Limitation of Liability THE SOFTWARE AND CONTRIBUTION IN IT ARE PROVIDED WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED. IN NO EVENT SHALL ANY CONTRIBUTOR OR COPYRIGHT HOLDER BE LIABLE TO YOU FOR ANY DAMAGES, INCLUDING, BUT NOT LIMITED TO ANY DIRECT, OR INDIRECT, SPECIAL OR CONSEQUENTIAL DAMAGES ARISING FROM YOUR USE OR INABILITY TO USE THE SOFTWARE OR THE CONTRIBUTION IN IT, NO MATTER HOW IT’S CAUSED OR BASED ON WHICH LEGAL THEORY, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. 6. Language THIS LICENSE IS WRITTEN IN BOTH CHINESE AND ENGLISH, AND THE CHINESE VERSION AND ENGLISH VERSION SHALL HAVE THE SAME LEGAL EFFECT. IN THE CASE OF DIVERGENCE BETWEEN THE CHINESE AND ENGLISH VERSIONS, THE CHINESE VERSION SHALL PREVAIL. END OF THE TERMS AND CONDITIONS How to Apply the Mulan Permissive Software License,Version 2 (Mulan PSL v2) to Your Software To apply the Mulan PSL v2 to your work, for easy identification by recipients, you are suggested to complete following three steps: i Fill in the blanks in following statement, including insert your software name, the year of the first publication of your software, and your name identified as the copyright owner; ii Create a file named “LICENSE” which contains the whole context of this License in the first directory of your software package; iii Attach the statement to the appropriate annotated syntax at the beginning of each source file. Copyright (c) [Year] [name of copyright holder] [Software Name] is licensed under Mulan PSL v2. You can use this software according to the terms and conditions of the Mulan PSL v2. You may obtain a copy of Mulan PSL v2 at: http://license.coscl.org.cn/MulanPSL2 THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v2 for more details.

简介

网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐 目前项目能用,但是有很多Bug,近期找时间想重构这个项目了~ 展开 收起
Python 等 5 种语言
MulanPSL-2.0
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/z812483032/NewsRecommends.git
git@gitee.com:z812483032/NewsRecommends.git
z812483032
NewsRecommends
Python网络爬虫与推荐算法的新闻推荐平台
master

搜索帮助