您的位置:首页 > 其它

bot机器人账号八大类特征分析---识别问题账号

2017-12-01 10:32 197 查看
账户数据本身的可分析性是分析算法的基础。通过分析数据特征来为建模做准备。账户数据特征通常分为活动行为特征,社团特征,发文特征、语法语义特征、时空特征等:

1. 活动特征:发文数量,发文被回复的比例,连续发文的平均时间间隔,用户在站点的发文级别,本站点首发的天数,通过发文回复关系得出的聚集系数和互惠性,两人之间在一个共同讨论中的次数。

2. 社团特征:对普通用户的差评比例,被举报的比例,被删比例,被限制比例。

3. 发文特征:文本作者,虚假写作样式,钓鱼内容,恶作剧内容,故意捣乱内容,

是否短句,是否骂人,是否第一人称,字符数量,平均单词长度,平均音节数,大句子数量,自动易读指数ARI,语言探索与字词计数LIWC特征的不同目录数。

4. 词法特征:此法是否和自动语言生成程序如Eliza类似,平均的hashtag数量,用户@数量,链接数,特殊字符数。是否有地理信息,标点符号和链接的比例。

5. 语义特征:平均情绪分数,反驳排序度量值(Contradiction Rank),负面情绪长度,高频主题,所用语言数量,情绪不连续度

6. 时态行为特征:用户情绪随时间是否来回自相矛盾,用户情绪的变动情况方差,互相交流时间分布的熵,发文时间的可预测性,每日发文数量,失去粉丝的比例,信噪比。

7. 用户概况特征:是否有图,是否绑定主页URL, 用户名是否看起来是自动生成的,发文回复@的数量,粉丝数量,账号和此人其他途径网站账号互相绑定的数量。GPS可定位性,是否在黑名单出现过。

8. 网络特征:用户情感与他关注的人以及粉丝的情绪分值的平均差,平均转发数量,出度和入度中心度,平均聚集系数,Pagerank中心度和相互中心度,用户网络是否呈星型或团结构,用户关注人是已知机器人账号的数量,用户所属网络中存在机器人账号的数量和比例。

参考文献:

1. Srijan Kumar, Justin Cheng, Jure Leskovec, V.S. Subrahmanian. "An Army of Me: Sockpuppets in Online Discussion Communities." WWW, 2017 – 26th International World Wide Web Conference, 2017

2. V.S. Subrahmanian, Amos Azaria, Skylar Durst, Vadim Kagan et al. " The DARPA Twitter Bot Challenge" Computer 49 (6), 38-46. IEEE, 2016
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐