2 Star 0 Fork 0

小峰仔 / 毒物

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
README-ch.md 1.52 KB
一键复制 编辑 原始数据 按行查看 历史
小峰仔 提交于 2021-02-02 17:21 . update README-ch.md.

毒物检测

数据

data

  • duwuxiangqing.xls:毒物详情表:主要包含毒物名称,物理性质,化学性质,症状描述,临床检验(代码主要用到这两个)
  • duwuzhengzhuang.xlsx:包含所有症状的描述性词语,也称为词库

编码

code

2020-12-08-Top1&Top5.py:作用为匹对所有毒物准确率,Top1的概率,Top5之内配对成功的概率,以及完全未匹对上的毒物个数

Update-Top1&Top5.py:对之前的2020-12-08-Top1&Top5进行优化,加快速度,现在检测速度为15秒,同时优化了一下检测率,加了一个判断:判断selflen要小于等于lst_word

smallposition.py:找出毒物特征少于等于3个特征的毒物,共计1032,其中完全没有特征的毒物有869个

quan-Top1&Top5.py:建立词频权值字典,通过统计所有描述中的特征词,建立对应的字典,然后排序找出最大的,令maxn=最大的出现次数+10,每个特征对应的权值为:(1-(出现的次数/maxn))*10保留两位有效数字。

目前任务

①将代码进行优化,加快执行速度

②设置权重,统计语料库中的普遍词和特殊词,设置不同的权重,来提高检测毒物率

③将毒物特征少的毒物检索出来,进行特征扩充

④找出毒物族

⑤根据近义词来检索词库

已解决任务

①代码优化Ok

②权重字典库完成,但效果不好

③毒物特征少的毒物以筛出,交由其他成员去进行扩充

Python
1
https://gitee.com/xiaofeng_tsai/poison.git
git@gitee.com:xiaofeng_tsai/poison.git
xiaofeng_tsai
poison
毒物
master

搜索帮助