42 Star 140 Fork 68

gitclebeg / nlp-sentiment

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

##基于自然语言处理的情感分析工具

请注意:

  1. pom.xml 文件中 lingpipe-core jar 没办法从中央仓库下载已经集成到 libs 目录里面,而 pom.xml 中只能使用绝对路径,请注意修改
  2. pom.xml 文件中 hanlp jar 包可能需要手动下载,然后添加到 maven 仓库

本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。

设计思想

专注某一个领域,比如军事、经济、政府等,利用互联网上的数据。

  1. 首先训练一个专业领域与非专业其它领域的二分类器。
  2. 然后在对新的样本判断是否是该领域的
  3. 训练一个情感分类器,判断这个样本是该领域的正面信息还是负面信息。

新增说明4:将模型训练和模型生成应用分离,提炼一些测试用例。

  1. 新增 NGramClassierTrainer 用于基于 NGram 特征的分类器训练
  2. 增加模型训练配置类:ClassModelConfiguration

新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。

  1. 主程序:DfIdfClassifier.java
  2. 效果如下:
  • CATEGORY nment others
  • government 233 46
  • others 110 390
  • 准确度: 0.8
  • 总共正确数 : 623
  • 总数:779

新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。

  1. 测试语料:data/text_classification.zip 解压缩即可
  2. 运行程序:NGramClassifier.java 即可。
  3. 效果如下:
  • Total Accuracy=0.9550706033376123
  • 95% Confidence Interval=0.9550706033376123 +/- 0.014546897368198444
  • Confusion Matrix
  • reference \ response
  •   		 government,others
  • government 271, 8
  • others 27, 473

新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。

####注意:有时候不用中文分词器效果更好,一定要测试。

  1. 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。
  2. 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。
  3. 分词之后去除停用词效果更加差。
  4. 结巴分词效果不好,而且速度慢。

###1、基于词典和贝叶斯模型的情感分析 主程序:eshore.cn.it.sentiment.Sentiment 此类通过 data/Sentiment_Dictionary中的正负面词语建立模型。

测试: eshore.cn.it.sentiment.SentimentTest 通过这个类就可以测试 data/500trainblogxml中的某个文件夹下面的博客的情感。

###2、直接利用lingpipe的情感分析模块测试情感分析 直接运行程序: eshore.cn.it.sentiment.ChinesePolarityBasic 程序就会通过: data/polarity_corpus/hotel_reviews/train2训练 然后自动测试: data/polarity_corpus/hotel_reviews/test2 最后给出程序测试结果。

  # Test Cases=4000
  # Correct=3541
  % Correct=0.88525

空文件

简介

利用自然语言处理技术进行情感分析 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/gitclebeg/nlp-sentiment.git
git@gitee.com:gitclebeg/nlp-sentiment.git
gitclebeg
nlp-sentiment
nlp-sentiment
master

搜索帮助