代码拉取完成,页面将自动刷新
回顾与总结AB测试的理解
ABtest就是为了测试和验证模型/项目的效果,在设备端设计出多个版本,在同一维度下,分别用组成相同/相似的群组去随机访问这些版本/模型,记录下群组的用户体验数据和业务数据,最后评估出最好的版本给予采用。
对于AI模型测试而言,在保证在其它维度信息相同或相似条件下(测试样本尽可能与实际情况一致或保持相应比例,以保证测试结果与可以代表实际情况),使用不同AI模型进行测试,记录分析相关关键指标(如识别算法中的检出、误报,推荐算法中的点击、访问、转化等),综合评估出最好的模型给予详细报告进行说明以及采用推荐。
中心极限定理: 在样本量足够大的时候,可以认为样本的均值近似服从正态分布。
假设检验: 是依据一定的假设条件由样本推断总体的一种方法
关键指标:
总检出率、总误报率、检测效率、特定物品检出情况、以及其它维度检出情况等
模型部署:
在同一型号、配置的设备上分别部署相应(2种或以上)对照AI模型,并进行对数据进行分别存储(并进行特征编号,以进行区分)。
数据采集:
在保障AI识别标的物相近情况下(尽可能保证样品数量一致、种类齐全),在保证项目开发速度下,尽可能样本量越多越好。
一般情况下,测试集与验证集数量不会太多,但必须具有代替整体数据特征,具体数量一般没有硬性规定,需要综合考虑具体情况。
1.数据管理:
在数据采集过程中,保证对数据的质量监控(数据格式、数据缺失、数据维度信息等)
2.数据清洗:
得到数据后(原始表、原始文本、数据库)进行数据清洗,去重、缺失
3.数据分析:
通过技术(execl、python或其它统计分析类软件/语言)得到关键性指标。
根据关键性指标,得到结论(对原目的进行证明\证否)
理论:
越大越好,越接近实际越好
实际:
数据获取存在一定成本,还要保障项目开发效率
第一类错误:
坏的改动误认为是得到了正收益
第二类错误:
好的改动误认为是得到了负收益/无收益
在实际的工作中,第一类错误是不能接受的。一个坏的产品/模型上线,比砍掉好的产品/模型/功能影响更大。
避免:
从多维度上观察数据关键性指标,在多维度上表现优异,一定程度上避免了第一\二类错误发生的概率定义一个显著水平,数据结果在提升2%以内(根据实际情况决定),将认为没有显著性改善
数据样本是否具有代表性?
数据指标是否合理?是否存在权重?
数据维度是否齐全?
提出的假设是否被证明?如果被证明,那么模型改善在哪里?如果被证否,那么分析是模型问题还是ABtest测试方法问题?
模型训练集与测试集尽可能要完全区分开,避免结果过拟合,造成第一类错误。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。