发布“微软”史无前例;收集了价值17万美元奖金的恶意软件数据集预测算法量子比特
- 时间:
- 浏览:0
一组“史无前例”的恶意软件感染数据
这个数据集来自[微软],毕竟,他们的重要产品Windows可能是世界上害虫危害最大的软件。
同时,还有Kaggle比赛。训练机器学习算法,预测一台计算机是否感染了恶意软件。
网罗了60项以上的信息。
数据行包含一个哈希标记HasDetections,该哈希标记HasDetections对应于设备ID的MachineIdentifier,该哈希标记HasDetections指示设备是否未感染恶意软件。
同时,它也包含了大量可能可以判断是否中毒的信息。例如,设备运转状况的指标,以及自身的硬件和软件环境。系统,防火墙版本,装一些疫苗软件,默认浏览器是电脑还是手机,显示器分辨率多少,处理器几核什么架构内存用多大的固态硬盘……
是游戏用的,触摸屏,手写的笔,还是有表示国家和城市的数字代码等。
这样的数据一共有多少。答案是训练套装约900万件测试套装约800万件,也就是说,微软提供1600万台设备的信息,训练算法。
如果你对这么大的数字不敏感的话……改变大小的测量方法这个数据集是以csv的形式存储的,合计8.47GB。
这些数据由Windows Defender(Windows Defender)从Windows用户收集,该Defender是Windows系统本身的记录和默认防火墙。当然,数据是清洗的,不包括隐私信息。
本次比赛由微软、北东大学、佐治亚理工大学共同主办。
参与者应该做的是训练测试集中的所有计算机预测在[0,1]范围内感染恶意软件的概率的算法。
比赛设有2万5000美元(约17万日元)的奖金池。第一位是1.2万美元,第二位是7000美元,第三、五位分别是3000、2000和1000美元。
但是,君士坦德们依然很热心。
从上周开始到报道的时候有551支队伍参加。离比赛结束还有三个多月。如果加上与众不同的队名跑的话就来得及。
有兴趣吗
比赛的地址。
https://www.Kaggle。com/c/microsoft-malware-prediction/。