- 机器学习和恶意软件分类
- 基于API调用序列,主要是n-gram和tfidf特征
- 机器学习工具用的lightgbm
- Using machine learning method to classify malware type
- most of the feature is extracted from API sequence
- using n-gram and tfidf to extract the vector
- you can download the trainset from this website
- file_split.py 读取csv文件,并按照不同的文件ID组织
- preprocess.py 会将每个文件,转成json格式,并且序列化api
- basic_feature.py 提取简单特征
- tfidf_model.py 生成tfidf模型
- feature.py 利用生成的tfidf模型转换训练和测试数据
- light_gbm_model.py 模型调参
- model_predict.py 结果预测
- 这是参加 第三届『阿里云安全算法挑战赛』源代码,最后成绩在Top30以内,不在Top10以内。
- 因为Top30以内需要提交PPT,所以写了PPT。PPT里面有检测原理介绍。
- Top10选手需要去参加决赛,Top5 选手需要答辩。他们答辩视频见:http://tb.cn/qYyB8Mw。可以学学好的思路。
- 比赛链接(里面有训练和测试数据):https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.66304169Zp1gFH&raceId=231668