通过Rank-1相似性矩阵分解建模反病毒引擎共识演化 世界新要闻
工作来源
arXiv:2201.00757
(资料图片仅供参考)
工作背景
各个引擎之间并不是独立的,引擎的强相关性可能会导致准确度的下降。引擎的相关有多种可能:
同一家公司的不同产品
产品检测能力向领先厂商学习
厂商将技术授权给其他厂商
恶意软件在演化,难道反病毒引擎就不演化了吗?
工作设计
在 n 个反病毒引擎、m 个文件的情况下,检出与家族分类可形成两个矩阵(注:家族名称使用 AVClass 提取)。
需要定义指标衡量二者相似,二者结果相同的情况除以二者都存在的情况。定义指标衡量二者变化同步性:
在反病毒引擎共识符合一阶交互的情况下,使用时间 Rank-1 相似矩阵(R1SM-T)算法来反映时序数据中一阶交互的变化。算法如下所示:
工作准备
利用 VirusShare 的 25100286 个样本,查看其对应的 VirusTotal 扫描报告。查询在 2015 年 12 月至 2016 年 5 月之间进行,受限于扫描频率限制,每个样本只有一个扫描报告。
扫描日期(横跨十年的范围)的统计如下所示:
VirusTotal 的结果中有 93 个反病毒引擎,所有引擎的扫描量如下所示:
检出矩阵与分类矩阵如下所示:
工作评估
检测同步性与分类同步性如下所示:
检测同步性
检出矩阵的 R1SM 分解如下所示,分解产生 16 个分量覆盖矩阵 60.596%,即四成矩阵无法解释。
如下显示了 R1SM=0.85 时聚类情况:
可以明显看出相同厂商的不同产品,如 TrendMicro 与 TrendMicro-Housecall、PandaB3 与 PandaBeta。以及一些大家公认的检测相似:BitDefender、Emsisoft 与 GData;McAfee、McAfee-GW-Edition 与 Microsoft;Avast、AVG 与 Fortinet。
分类同步性
分类矩阵的 R1SM 分解如下所示,分解产生 21 个分量覆盖矩阵 58.394%,即四成矩阵无法解释。
如下显示了 R1SM=0.7 时聚类情况:
Fortinet 和 McAfee 在 2019 年宣布联合开发端点安全解决方案,可能二者确实存在某种技术共享。
引擎共识
R1SM-T 模型经过超过五百万次的迭代训练,检出数据平均能解释 73.709%,分类数据平均能解释 67.196%。每月变化如下所示:
根据解释性,威胁情报的共享一开始局限在小群体间,但是后来信息共享变得无处不在。
分解的第一个组件如下所示:
很多原因都会产生较大的波动情况:
2014 年 11 月的 Alyac,2015 年的 Norman 等加入或者退出 VirusTotal。
2010 年 2 月到 7 月,K7 TotalSecurity 10.0 版本
工作思考
厂商之间的技术合作、收购剥离与 SDK 类型的检测能力整合都会导致引擎的结果存在极大的相似性,而这在类似 VirusTotal 的场景中是十分重要的。多引擎扫描的共识与演化,近几年也被业界所重点关注,并且有一系列研究发布。在选择检测引擎时,如果选择了极为相似的检测引擎,是否还能达成当初想要构建多引擎检测能力的目标呢?
相关阅读
-
通过Rank-1相似性矩阵分解建模反病毒引...
工作来源arXiv:2201 00757工作背景各个引擎之间并不是独立的,引擎... -
2022年度欧盟网络安全态势综述|全球视点
文|上海政法学院、中国—上合基地文献信息部副主任孙频捷2022年,俄... -
环球关注:F-Secure调查:五分之一的英...
据F-Secure称,过去有数百万英国成年人成为数字诈骗者的受害者,但... -
天天热讯:赛迪顾问:2024年中国数据库市...
作者软件与信息技术服务业研究中心分析师李浩然软件与信息技术服务... -
Gartner端点安全技术成熟曲线六大看点
根据Gartner最新发布的2022年端点安全技术成熟曲线报告,零信任和XD... -
当前信息:乌克兰网络安全公司高管揭秘...
编者按乌克兰网络安全公司CyberUnitTech首席执行官兼联合创始人叶戈...