您的位置:首页 > 运维架构 > 网站架构

在线问答网站结构定义和信息处理系统---技术规格说明书

2015-11-03 09:22 435 查看

1、引言

1-1、编写目的

   明确设计,供项目管理者阅读。

1-2、定义

缩写、术语

解 释

关键词

从报告、论文中选取出来用以表示全文主题内容信息的单词或术语;关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词

停用词

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词

标签

一种互联网内容组织方式,是相关性很强的关键字,它帮助人们轻松的描述和分类内容,以便于检索和分享

元数据 (meta data)

描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

数据库实体

数据库管理系统中的不同管理对象

1-3、参考资料

  1、http://shiyanjun.cn/archives/548.html

  2、http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

  3、http://xwrwc.blog.163.com/blog/static/46320003201010634132451/

  4、http://www.cnblogs.com/kissdodog/archive/2013/02/28/2937900.html

  5、/article/4372351.html

  6、/article/4372352.html

  7、/article/4372353.html

  8、/article/4372354.html

  9、http://developer.baidu.com/wiki/index.php?title=%E5%B8%AE%E5%8A%A9%E6%96%87%E6%A1%A3%E9%A6%96%E9%A1%B5/%E7%99%BE%E5%BA%A6%E7%BF%BB%E8%AF%91/%E7%BF%BB%E8%AF%91API

2、总体设计

2-1、需求

定义在线问答网站的内容结构,找出其中涉及的实体及它们之间的关系;

能够支持增量式的将输入的新数据,按照定义好的内容结构合并到已有的内容中(重复内容怎么处理,更新内容怎么处理,用户上传内容怎么处理);

支持标签;

支持关键词翻译;

有一个界面来跟踪和报告数据处理的进度。

2-1-1、定义内容结构,得到实体关系,建立数据库

输入:无

输出:无

2-1-2、数据库连接

输入:serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)

输出:无

2-1-3、插入新数据

输入:PageTitle、Author、postdate、link、<tag,文本>组

输出:插入数据库

2-1-4、去重、去噪

输入:未经过处理的rawdata

输出:去掉html标签等噪声数据的文本,去掉非utf-8编码的文本

2-1-5、分词

输入:文本数据、分词器(默认用PanGu分词器)

输出:用该分词器处理得到的分词数据

2-1-6、关键词抽取

输入:数据库中的分词后的数据

输出:通过TF-IDF方法得到关键词

2-1-7、翻译

输入:数据库中的文本数据

输出:实现中英对照

2-1-8、最终数据展示

输入:Ttile、Author、Postdate、满足前面条件下的标签

输出:满足前面所有要求的文本数据

2-1-9、跟踪报告数据处理进度

输入:无

输出:显示数据处理的进度

2-2、软件结构

程序

功能

输入

输出

数据库连接

连接数据库

serverIp(服务器地址),dbName(数据库名称),string user(用户),password(用户密码)



插入数据

向数据库中增加数据

PageTitle、Author、postdate、link、<tag,文本>组



去重、去噪

去除噪声数据、非utf-8文本

原始数据

去噪后数据

分词

对去噪数据进行分词

去噪后数据

分词数据

关键词抽取

得到文本的关键词

数据库中分词数据

若干个关键词

翻译

进行文本中英对照

文本数据

中英对照的文本数据

最终数据展示

对得到的最终数据进行功能展示

数据库中相应数据

展示数据库中数据

跟踪报告处理数据进度

一个界面来跟踪和报告数据处理的进度

选择的文本数据(可有很多个)

输出现在正在处理得数据以及处理得进度

2-2-1、模块汇总表

关键词抽取子系统

模块名称

功能简述

去噪、去重

去除噪声数据、非utf-8文本

分词

对去噪数据进行分词

关键词抽取

抽取出数据的关键词

翻译子系统

模块名称

功能简述

中英互译

对文本进行翻译对照

UI展示子系统

模块名称

功能简述

处理单个数据界面

对数据进行插入、去噪、分词、提取关键词、中英对照、最终结果显示

处理多个文件界面

跟踪和报告数据处理的进度界面

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: