系统源码及原文免费下载地址请访问:www.54manong.com
一、 系统简介
通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,提取语料库中pdf、doc、ppt、html、excel、txt及专利等文件中的内容信息,并将抽取的信息进行去噪处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留。在完成语料预处理后进行知识挖掘,首先基于领域词典,对去噪处理后的信息进行分词、词汇统计分析,最终找出领域单词概念和组合概念,同时记录语料中包含领域概念的语句,并基于规则抽取核心语句中领域概念间的关系,通过本体的推理,形成此文档的概念知识关系网,并保存为xml语法格式,存入数据库。在此基础上通过对识别的领域概念和核心语句的精炼,提取出文档的关键词(1-3个)和摘要信息(3句左右)。基于关键词和摘要信息对文档进行自动分类,并在以后信息更新时,保持聚类结果的相对稳定。分析完相关的语料资料后,生成整个网站的概念知识网,并将挖掘出的知识建立语义索引库。
用户使用该系统时,支持目录导航、相关概念、扩展概念和语义查询。目录导航:显示系统自动聚类的特定领域的层次结构信息,每个节点后显示节点下的网页或文档资源的个数,并支持图形化显示。语义查询:支持用户对关键词、词组和简单语句的查询,通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,同时通过本体推理,找出相关概念和扩展概念并能显示出来。
二、 系统架构图
图1、系统架构图
三、 系统数据处理流程图
图2、系统主要模块间关系图
图3、语义索引库构建流程图
图4、信息检索数据流程图
四、 系统模块设计
编号
名称
人员分配
备注
G20111025F01
系统页面开发
设计并开发
G20111025F02
网络爬虫
升级完善
G20111025F03
信息提取
重点
G20111025F04
信息去噪
难点
G20111025F05
智能分词
升级完善
G20111025F06
领域概念识别
重点
G20111025F07
概念间关系抽取
重点、难点
G20111025F08
文档关键词抽取
重点、难点
G20111025F09
文档自动摘要
重点、难点
G20111025F10
文档自动分类
重点、难点
G20111025F11
语料管理模块
工作量较大
G20111025F12
知识提取库
重点、难点
G20111025F13
语义索引库
重点、难点
编号
名称
人员分配
备注
L20111025S1
信息检索模块
升级完善
L20111025S2
检索结果优化
升级完善
L20111025S3
网状信息可视化显示
重点
L20111025S4
统计信息可视化显示
重点
编号
名称
人员分配
备注
L20111025Y1
互联网资源
较简单
L20111025Y2
领域词典
工作量较大
L20111025Y3
领域本体
重点
L20111025Y4
目录导航体系
难点、要点
五、 系统各模块具体分工情况
(1) 系统页面开发
编号
G20111025F01
模块
系统页面开发
描述
系统操作的平台
功能
合理布局,设置系统各项功能相应按钮、信息展示框。
整体布局拟采用左、中、右三栏结构,主要栏目包括:语义检索、资源分布图、本体知识图等。
格式
存储
输出
接口
难点
分工
贾婷负责搜集、调研互联网同类网站(包括相关智能搜索引擎、专家系统和行业重要网站),栾勇设计首页整体布局和栏目设置,最终在doc中采用表格或其他形式描述出来。
(2) 网络爬虫
编号
G20111025F02
模块
网络爬虫
描述
对Heritrix网络爬虫工具的功能进行合理扩展利用。
功能
扩展升级已有网络爬虫工具,比如添加能够抓取特定前缀的URL、抓取含有特定关键字的网页等功能。
格式
存储
输入
起始网址、摘要、前缀、关键词、抓取链接层数、抓取时间、抓取网页个数、抓取全部或只抓取更新等等
输出
抓取的互联网网页信息
接口
难点
分工
备注
更新抓取时为识别信息是否为新信息,需要在知识提取库或索引库设置相应字段记录。
(3) 信息提取
编号
G20111025F03
模块
信息提取
描述
提取网络爬虫抓取的各类网页文件和doc、docx、pdf、ppt、txt等文本文件内容。注意调用pdf文件内容提取程序(已有)时,当pdf为扫描版或软件识别版,可能会出错,要找出原因,同时注意当文档内容分栏或有插图、插表时的提取结果,设法提高准确性。
功能
格式
存储
输入
输出
接口
难点
分工
(4) 信息去噪
编号
G20111025F05
模块
信息去噪
描述
去除抽取信息中的干扰字符,同时尽量确保有用信息完整保留
功能
实现信息去噪算法,归纳总结各种类型文件抽取内容的特点,以句子为单位,去除空格、页眉、页脚、页码、乱码和其他杂乱符号;归纳总结并识别出文件中各级标题的特点
格式
存储
输入
文件内容抽取结果
输出
以句子为单位输出
接口
难点
去噪算法
分工
备注
去噪算法应当多花时间,防止过多有用信息也被去除。
(5) 智能分词
编号
G20111025F04
模块
智能分词
描述
分析JE分词工具、庖丁解牛分词工具、Lucene自带分词工具、哈工大分词工具和中科院计算所分词工具的优缺点,选定适合该系统的分词工具。系统运行时不需要更新用户自定义词典,但需支持扩展词性(用于标识词是否为领域概念),初步考虑选用JE分词工具(考虑分词工具是否免费、有效期等因素)。
功能
分词工具有多个函数可以调用:快速分词(只分词)、全功能分词(分词、词性、关系)等,如果需要多次调用,需选择合适的分词函数。
格式
存储
输入
信息去噪结果:以句为单位。
输出
多维向量:词、词性、本体角色、在句子中与其他词的关系等等。
接口
难点
处理好分词与去噪的先后关系,提高准确率。
分工
备注
注意本体半自动构建系统中分词和信息去噪的先后关系,有可能先去噪后分词,或者交叉进行,考虑那种方式准确率高。
(6) 领域概念识别
编号
G20111025F06
模块
领域概念识别
描述
基于智能分词中扩展词性标识,识别领域概念,并记录包含领域概念的句子,用于概念间关系抽取。
功能
格式
存储
输入
文件中所有句子的分词结果:多维向量
输出
文件中的领域词汇(包括本体中的关系词汇)
接口
难点
组合领域概念、自定义领域词典中未收录的领域概念识别;
本体中动词属性关系词的识别抽取
分工
(7) 概念间关系抽取
编号
G20111025F07
模块
概念间关系抽取
描述
基于HOWNET对输入的概念进行相似度计算,并通过聚类算法聚类,最终提取出概念间关系。
功能
格式
存储
输入
句子、带句法分析的分词结果、领域概念识别结果
输出
概念间关系三元组 xml语法格式字符串
接口
难点
注意概念间关系冗余的处理。
分工
备注
选用较好的聚类算法并比较结果
(8) 文档关键词抽取
编号
G20111025F08
模块
文档关键词抽取
描述
基于领域概念识别结果,参考统计等关键词抽取算法,提取2至4个最能体现文档主题的词语。
功能
格式
存储
输入
领域概念识别结果
输出
1至3个领域关键词
接口
难点
高效准确的关键词抽取算法
分工
(9) 文档自动摘要
编号
G20111025F09
模块
文档自动摘要
描述
基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要。
功能
格式
存储
输入
分词结果和领域概念识别结果
输出
2至4句文档摘要
接口
难点
研究寻找准确性较好的自动摘要算法。
分工
(10) 文档自动分类
编号
G20111025F10
模块
文档自动聚类
描述
基于文档中识别出的领域词汇并重点考虑文档的关键词,根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。
功能
格式
存储
输入
领域词汇识别结果和关键词提取结果
输出
映射到目录导航体系中的节点
接口
难点
高效遍历和映射算法
分工
(11) 语料管理模块
编号
G20111025F11
模块
语料管理模块
描述
提供对网络抓取资料和用户上传资料的目录导航,能够查看资料容量、抓取时间、网址等信息。
功能
格式
存储
输入
输出
接口
难点
可以将存储目录记录在数据表中,通过访问数据库实现查看。
分工
(12) 知识提取库
编号
G20111025F12
模块
知识提取库
描述
记录网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息。
功能
格式
存储
输入
网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息
输出
数据库
接口
难点
分工
(13) 信息检索模块
编号
L20111025S1
模块
信息检索模块
描述
依据信息检索数据处理流程图,实现相应功能
功能
格式
存储
输入
用户查询关键词或查询语句
输出
用户需要的相关信息
接口
难点
提高信息检索的效率
分工
(14) 检索结果优化
编号
L20111025S3
模块
检索结果优化
描述
对用户查询返回的结果依据相关性进行优化排序
功能
格式
存储
输入
用户查询输入和每条返回结果的领域概念、关键词、摘要等信息
输出
每条返回结果的查询相关性权值。
接口
难点
优化排序算法
分工
(15) 网状信息可视化显示
编号
L20111025S4
模块
网状信息可视化显示
描述
当用户鼠标移至查询结果列表中每条信息的“图形预览”图标上时,读取记录该条文档信息中概念及关系的xml格式数据,调用信息可视化工具,显示该条记录的概念关系图。另外,通过该模块可以图示化展示本体结构和目录导航结构。
功能
格式
存储
输入
xml格式数据
输出
动态结果图
接口
难点
解决节点太多、太少时图形显示的美观问题。图形中节点文字要清晰,节点太多时,合理省略节点。
分工
(16) 统计信息可视化显示
编号
L20111025S5
模块
统计信息可视化显示
描述
使用饼状图、柱状图、折线图展示系统中相关统计信息,如目录导航体系中各节点资源数量、用户查询命中数量,以及其他与系统实际应用中相关的统计信息。
功能
格式
存储
输入
相关统计数据
输出
相关统计图形
接口
难点
分工
(17) 互联网资源
编号
L20111025Y1
模块
互联网资源
描述
通过调研查找互联网上领域相关的门户网站信息,用于网络爬虫信息抓取来源。
功能
格式
存储
输入
输出
网址、网名、介绍
接口
难点
分工
(18) 领域词典
编号
L20111025Y2
模块
领域词典
描述
通过调研收起领域相关词汇,构建领域自定义词典。
功能
格式
存储
输入
输出
领域自定义词典。
接口
难点
分工
(19) 领域本体
编号
L20111025Y3
模块
领域本体
描述
通过不断收集领域主题词、领域概念,不停地完善领域本体。
功能
格式
存储
输入
输出
接口
难点
分工
(20) 目录导航体系
编号
L20111025Y4
模块
目录导航体系
描述
功能
显示系统自动聚类的行业领域的层次结构信息,每个节点后显示节点下的网页资源个数。目录导航体系的前两层需要人手工设计,参考领域本体层次架构体系,并且要同时考虑行业用户的需求。每一个资源根据提炼出的关键词和摘要信息进行映射,可以同属于目录体系的多个节点。
格式
存储
输入
输出
接口
难点
分工
重要名词:
相关概念:与用户查询输入关键词相关的概念。
扩展概念:用户输入关键词在本体中的上下位概念。
本体知识图:显示本体结构、层次关系、属性关系。
资源分布图:图形化显示系统自动聚类的结果。
Web知识图:图形化预览各条搜索结果信息的知识图。
文档知识图:图形化显示系统上传文档的知识结构图。
统计分析图:采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。
来源:我是码农,转载请保留出处和链接!
本文链接:http://www.54manong.com/?id=1260
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();