您的位置:首页 > 其它

基于网页可信特征的信息可信度评估方法(IEEE2011)

2015-08-21 19:10 295 查看
Evaluation Method of Information Credibility Basedon the Trust Features of Web Page
基于网页可信特征的信息可信度评估方法(IEEE2011)
文章引入基于网页可信特征的信息可信度评估方法。根据网页特征预定义可信特征后,建立信息可信度评估标准。最后,可信度的参考值可以通过可信度评估计算获得。

可信特征

(1)考虑信息可信度可以通过网站权威性反映。(2)为了判断信息可信度,我们需要理解信息的语义内容。提取信息内容的语义知识作为关键词通过搜索引擎查询,认为包含查询词的搜索结果是信息可信度的语义层支持。(3)信息发表的类型是转载或者独立发表是评估信息可信度的因素。因此,提取信息发表的网站源,网站实体信息,语义内容和发表类型作为可信特征。

可信度评估标准

总结3个信息可信度的评估标准:信息源的权威性,信息共性,信息源的独立性。

信息源的权威性:C1~k1Vauthority,C1:信息可信度的组成部分,Vauthority:信息源的权威度,k1:相关系数,0~1。认为包含实体信息的网址更正式,它的可信度系数值相应地更高。

信息的共性:越多源声称一特定的句子为真,则句子实际上为真的可能性越大。信息共性可以认为是网络中同一主题的相似信息的共现频率。通常来说,可信的信息得到更多的支持。提出两个策略:S1:只有内容和待评估目标信息相似的信息可以用来评估目标信息。S2:所有关联时间段的信息用来评估目标信息。为了用发表相似内容的不同网址评估可信度,用搜索引擎收集在那时间段发表的信息,计算和目标信息的cosine值,如果语义内容相似,就认为它们有高的共性。C2=k2×tsim(I,Pi)×Vi/tsim(I,Rn)×Vn,C2:信息可信度的组成部分,k2:相关系数,有相似内容的信息占所有相关信息的比例t/n,sim(I,Pi):信息I和Pi的相似度值,Vi:信息源的权威度,Rn:与I相关的信息,t:求和。

信息源的独立性:由两个独立源发表的信息比由两个互相依赖源发表的信息更可信。两个源发表相似主题的信息比信息转载更可信。划分网络发表的信息为4类:原创,没有源地址的转载,带源地址的转载,非原创非转载。可信度通过以下启发式规则衡量:S1:对于第一类,信息原创,有高的可信度。S2:对于第二、三类,带源地址的信息比无源地址的信息更可信。S3:对于第4类,信息具有最低的可信度。根据这些规则,对应的可信度值设置为0~1。可信度组成部分C3根据启发式规则获得。

可信度分析算法

输入:被评估的目标网络信息,系数值已经定义的著名院校列表。输出:信息可信度值。步骤:(1)提取可信特征,包括信息源,网址的实体信息,语义内容和信息发表类别。(2)如果信息源在著名院校列表中,C1值可以直接获取。如果不在,C1值可以通过网址实体信息规则计算。(3)提取的内容根据中国科学院的分词算法分割,每个词的权重通过TFIDF计算。语义内容可以用具有高权重的几个关键词表达。(4)通过中文搜索引擎收集在那个时间段与目标信息关联的信息。如果它们的语义内容相似,它们具有高共性。C2值可以通过相似信息的统计得到。(5)得到C3的值。(6)可信度分析结果通过权重算法计算。根据实验结果分别调整信息可信度组成部分的权重。

实验表明可信度的3个组成部分中,C2是最重要的,C1和C3的值需要人工干预。因此,第三个组成部分的权重应设置得更高一些。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: