您的位置：首页 > 其它

基于网页可信特征的信息可信度评估方法（IEEE2011）

2015-08-21 19:10 295 查看

Evaluation Method of Information Credibility Basedon the Trust Features of Web Page
基于网页可信特征的信息可信度评估方法（IEEE2011）
文章引入基于网页可信特征的信息可信度评估方法。根据网页特征预定义可信特征后，建立信息可信度评估标准。最后，可信度的参考值可以通过可信度评估计算获得。

可信特征

（1）考虑信息可信度可以通过网站权威性反映。（2）为了判断信息可信度，我们需要理解信息的语义内容。提取信息内容的语义知识作为关键词通过搜索引擎查询，认为包含查询词的搜索结果是信息可信度的语义层支持。（3）信息发表的类型是转载或者独立发表是评估信息可信度的因素。因此，提取信息发表的网站源，网站实体信息，语义内容和发表类型作为可信特征。

可信度评估标准

总结3个信息可信度的评估标准：信息源的权威性，信息共性，信息源的独立性。

信息源的权威性：C1~k1Vauthority，C1：信息可信度的组成部分，Vauthority：信息源的权威度，k1：相关系数，0~1。认为包含实体信息的网址更正式，它的可信度系数值相应地更高。

信息的共性：越多源声称一特定的句子为真，则句子实际上为真的可能性越大。信息共性可以认为是网络中同一主题的相似信息的共现频率。通常来说，可信的信息得到更多的支持。提出两个策略：S1：只有内容和待评估目标信息相似的信息可以用来评估目标信息。S2：所有关联时间段的信息用来评估目标信息。为了用发表相似内容的不同网址评估可信度，用搜索引擎收集在那时间段发表的信息，计算和目标信息的cosine值，如果语义内容相似，就认为它们有高的共性。C2=k2×tsim(I,Pi)×Vi/tsim(I,Rn)×Vn，C2：信息可信度的组成部分，k2：相关系数，有相似内容的信息占所有相关信息的比例t/n，sim(I,Pi)：信息I和Pi的相似度值，Vi：信息源的权威度，Rn：与I相关的信息，t：求和。

信息源的独立性：由两个独立源发表的信息比由两个互相依赖源发表的信息更可信。两个源发表相似主题的信息比信息转载更可信。划分网络发表的信息为4类：原创，没有源地址的转载，带源地址的转载，非原创非转载。可信度通过以下启发式规则衡量：S1：对于第一类，信息原创，有高的可信度。S2：对于第二、三类，带源地址的信息比无源地址的信息更可信。S3：对于第4类，信息具有最低的可信度。根据这些规则，对应的可信度值设置为0~1。可信度组成部分C3根据启发式规则获得。

可信度分析算法

输入：被评估的目标网络信息，系数值已经定义的著名院校列表。输出：信息可信度值。步骤：（1）提取可信特征，包括信息源，网址的实体信息，语义内容和信息发表类别。（2）如果信息源在著名院校列表中，C1值可以直接获取。如果不在，C1值可以通过网址实体信息规则计算。（3）提取的内容根据中国科学院的分词算法分割，每个词的权重通过TFIDF计算。语义内容可以用具有高权重的几个关键词表达。（4）通过中文搜索引擎收集在那个时间段与目标信息关联的信息。如果它们的语义内容相似，它们具有高共性。C2值可以通过相似信息的统计得到。（5）得到C3的值。（6）可信度分析结果通过权重算法计算。根据实验结果分别调整信息可信度组成部分的权重。

实验表明可信度的3个组成部分中，C2是最重要的，C1和C3的值需要人工干预。因此，第三个组成部分的权重应设置得更高一些。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航