Baichuan2-7B的推理性能测试。 在910A上chat多轮对话单卡推理性能达到27.86 tokens/s,910B上仅约为25.1 tokens/s。 同时910B的多卡测试推理性能反而会比单卡慢。 目前这种情况是正常的吗?
登录 后才可以发表评论