bot机器人账号八大类特征分析---识别问题账号
2017-12-01 10:32
197 查看
账户数据本身的可分析性是分析算法的基础。通过分析数据特征来为建模做准备。账户数据特征通常分为活动行为特征,社团特征,发文特征、语法语义特征、时空特征等:
1. 活动特征:发文数量,发文被回复的比例,连续发文的平均时间间隔,用户在站点的发文级别,本站点首发的天数,通过发文回复关系得出的聚集系数和互惠性,两人之间在一个共同讨论中的次数。
2. 社团特征:对普通用户的差评比例,被举报的比例,被删比例,被限制比例。
3. 发文特征:文本作者,虚假写作样式,钓鱼内容,恶作剧内容,故意捣乱内容,
是否短句,是否骂人,是否第一人称,字符数量,平均单词长度,平均音节数,大句子数量,自动易读指数ARI,语言探索与字词计数LIWC特征的不同目录数。
4. 词法特征:此法是否和自动语言生成程序如Eliza类似,平均的hashtag数量,用户@数量,链接数,特殊字符数。是否有地理信息,标点符号和链接的比例。
5. 语义特征:平均情绪分数,反驳排序度量值(Contradiction Rank),负面情绪长度,高频主题,所用语言数量,情绪不连续度
6. 时态行为特征:用户情绪随时间是否来回自相矛盾,用户情绪的变动情况方差,互相交流时间分布的熵,发文时间的可预测性,每日发文数量,失去粉丝的比例,信噪比。
7. 用户概况特征:是否有图,是否绑定主页URL, 用户名是否看起来是自动生成的,发文回复@的数量,粉丝数量,账号和此人其他途径网站账号互相绑定的数量。GPS可定位性,是否在黑名单出现过。
8. 网络特征:用户情感与他关注的人以及粉丝的情绪分值的平均差,平均转发数量,出度和入度中心度,平均聚集系数,Pagerank中心度和相互中心度,用户网络是否呈星型或团结构,用户关注人是已知机器人账号的数量,用户所属网络中存在机器人账号的数量和比例。
参考文献:
1. Srijan Kumar, Justin Cheng, Jure Leskovec, V.S. Subrahmanian. "An Army of Me: Sockpuppets in Online Discussion Communities." WWW, 2017 – 26th International World Wide Web Conference, 2017
2. V.S. Subrahmanian, Amos Azaria, Skylar Durst, Vadim Kagan et al. " The DARPA Twitter Bot Challenge" Computer 49 (6), 38-46. IEEE, 2016
1. 活动特征:发文数量,发文被回复的比例,连续发文的平均时间间隔,用户在站点的发文级别,本站点首发的天数,通过发文回复关系得出的聚集系数和互惠性,两人之间在一个共同讨论中的次数。
2. 社团特征:对普通用户的差评比例,被举报的比例,被删比例,被限制比例。
3. 发文特征:文本作者,虚假写作样式,钓鱼内容,恶作剧内容,故意捣乱内容,
是否短句,是否骂人,是否第一人称,字符数量,平均单词长度,平均音节数,大句子数量,自动易读指数ARI,语言探索与字词计数LIWC特征的不同目录数。
4. 词法特征:此法是否和自动语言生成程序如Eliza类似,平均的hashtag数量,用户@数量,链接数,特殊字符数。是否有地理信息,标点符号和链接的比例。
5. 语义特征:平均情绪分数,反驳排序度量值(Contradiction Rank),负面情绪长度,高频主题,所用语言数量,情绪不连续度
6. 时态行为特征:用户情绪随时间是否来回自相矛盾,用户情绪的变动情况方差,互相交流时间分布的熵,发文时间的可预测性,每日发文数量,失去粉丝的比例,信噪比。
7. 用户概况特征:是否有图,是否绑定主页URL, 用户名是否看起来是自动生成的,发文回复@的数量,粉丝数量,账号和此人其他途径网站账号互相绑定的数量。GPS可定位性,是否在黑名单出现过。
8. 网络特征:用户情感与他关注的人以及粉丝的情绪分值的平均差,平均转发数量,出度和入度中心度,平均聚集系数,Pagerank中心度和相互中心度,用户网络是否呈星型或团结构,用户关注人是已知机器人账号的数量,用户所属网络中存在机器人账号的数量和比例。
参考文献:
1. Srijan Kumar, Justin Cheng, Jure Leskovec, V.S. Subrahmanian. "An Army of Me: Sockpuppets in Online Discussion Communities." WWW, 2017 – 26th International World Wide Web Conference, 2017
2. V.S. Subrahmanian, Amos Azaria, Skylar Durst, Vadim Kagan et al. " The DARPA Twitter Bot Challenge" Computer 49 (6), 38-46. IEEE, 2016
相关文章推荐
- 三种强大的物体识别算法——SIFT/SURF、haar特征、广义hough变换的特性对比分析
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图 .
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结2——级联分类器与检测过程 .
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结
- 性能分析:如何识别负载下的同步问题
- 三种强大的物体识别算法——SIFT/SURF、haar特征、广义hough变换的特性对比分析
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结2——级联分类器与检测过程
- 三种强大的物体识别算法——SIFT/SURF、haar特征、广义hough变换的特性对比分析
- 特征点识别(Breakpoint/Dominant-points Classsification)——AKC函数的分析与实现
- 很好的人脸识别特征脸分析
- 【图像识别】【读论文】纸币图像特征提取和识别问题
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图
- 聊天机器人 ,中文翻译,繁简 ,关键词提取,主题提取,摘要提取 ,命名体识别,分词 ,情感分析,正负类分析 ,近义词,同义词,句子相似性,聚类,监督,无监督,词性标注,词向量句子向量
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图
- 三种强大的物体识别算法——SIFT/SURF、haar特征、广义hough变换的特性对比分析
- AdaBoost中利用Haar特征进行人脸识别算法分析与总结2——级联分类器与检测过程
- 图像识别之颜色直方图特征可行性分析