科赛平台--2017中国网络安全技术对抗赛(初赛第14名分享)-第一题
2017-06-29 20:18
323 查看
这次比赛要谢谢在“西安电子科技”大学的研究生师兄,跟着他们学到了很多
这次网络对抗赛一共有两个赛题,
一、面对第一题的完整解法讲下。
题目要求:题目提供3种网页的源代码,一共有钓鱼网页(多为仿冒页面)、被黑网页(仅指植入黑链网页)、正常网页这3种,训练集规模是49121个网页,和其余的对抗学习的比赛一样,这个竞赛提供的黑样本也是极少,不过时间长了也记不太清了,好像是400左右。预测集规模是近25万。题目评分方式是:通过对识别仿冒页面、被黑页面(植入黑链)的准确率以及算法情况进行评分。
具体做法
1:特征方面
代码:
2:模型方面使用
这次网络对抗赛一共有两个赛题,
一、面对第一题的完整解法讲下。
题目要求:题目提供3种网页的源代码,一共有钓鱼网页(多为仿冒页面)、被黑网页(仅指植入黑链网页)、正常网页这3种,训练集规模是49121个网页,和其余的对抗学习的比赛一样,这个竞赛提供的黑样本也是极少,不过时间长了也记不太清了,好像是400左右。预测集规模是近25万。题目评分方式是:通过对识别仿冒页面、被黑页面(植入黑链)的准确率以及算法情况进行评分。
具体做法
1:特征方面
代码:
soup = BeautifulSoup(file_data, "html.parser") xx = u'([\u4e00-\u9fa5]+)' p = r"(?<=<title>).+?(?=</title>)"
Part1:先使用 BeautifulSoup 提取出来网页title,然后用正则提出里面的中文 temp = str(soup.title) result = re.findall(p,temp)#得到网页title p = r"<a[^>]+?href=.*>([^<]+)<\/a>"
Part2:然后直接用正则,提取出来网页正文里面,超链接后面的文本 result.extend(re.findall(p,file_data))#找到超链接后面的文本 temp = soup.get_text()
Part3: 先使用 BeautifulSoup get_text函数,将网页的文本内容(也就是代码)转换成 字符串,然后用正则提取出来所有中文 temp = re.findall(xx,temp)#找到整个网页文本中的中文 result.extend(temp) return result
第三步明明可以提取出来所有的中文,为什么还要做前两步:因为在钓鱼网页、黑网页中,那两部分是最能辨认出来为黑网页的内容 ,而我们使用的是 tfidf 这个概念来进行提取最重要的关键词,这种理念中,
所以如果在一个样本中,那些具有很明显区分 正负样本的词能多几次,这种词能更好的被筛选出来当做“特征词”
然后使用这个函数:
# max_features=3000,通过在语料库中的词频,挑出来最重要的3000个词来进行判断 tv = TfidfVectorizer(sublinear_tf = True, max_df = 0.5, encoding='gbk',max_features=3000)
直接选取出来3000个最重要的单词!
2:模型方面使用
XGBClassifier
svm.SVC
ExtraTreesClassifier
MLPClassifier
进行投票选择,对每个网页的标签进行打标
3:提分点,这也是对抗学习的常用方法,因为训练集给出的负样本很少,所以我们一半会把测试集中预测概率接近0 1的当做已知样本加到训练集中再进行训练,如此反复
相关文章推荐
- 未来京东真能成为中国第一大B2C电商平台吗?
- 2017中国共享信用平台火爆 广东问果科技 成功造佳绩
- 2017中国采购平台内幕大事排行,你知多少
- 中国第一应用质量管理互动平台中国测试平台网上线
- Joomla,Magento,PHP,电子商务,网站建设,HelloJoomla!开源信息汇聚、分享、交流平台,贡献中国开源力量!
- 从亿达科技到中国搜索技术分享平台
- 2017中国云平台发展现状与趋势研究报告
- 润泽智能创业项目“智慧城市用电安全监控云平台” 2017泉州创新创业大赛,勇夺小组第一!
- 2017中国网络安全大会,安普诺创始人就WebShell检测做分享
- 元年C1斩获“2017中国管理会计及BI管理平台创新产品”大奖
- 打造西安工业云平台 中服软件助力智能制造发展 ——2017中国·西安工业互联网论坛暨“西安工业云平台”发布会
- TOP100summit 2017:【案例分享】魅族持续交付平台建设实践
- 2017 计蒜之道 初赛 第四场 (计蒜课比赛)第一题
- 机智云完成2 亿元B 轮融资,打造中国第一物联网开发平台
- 中国第一应用质量管理互动平台中国测试平台网上线
- 2017百度之星初赛B场第一题Chess--简单杨辉三角问题
- they're hiring 中国人群定向数字广告第一平台
- 2017第12届中国国际养老辅具及康复医疗博览会会刊(参展商名录)
- 2017数学建模B题回顾与解题分享
- GNOME 2017 亚洲峰会确定将在中国重庆举办