39 中国职业技术教育杂志社投稿基于相似度的多数据库分类_职称驿站
论文发表指导_期刊投稿推荐_期刊论文发表咨询_职称驿站

论文发表指导,期刊推荐,国际出版

职称驿站学术导航
关闭职称驿站导航

论文发表职称晋升 全方位咨询服务

学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询

中国职业技术教育杂志社投稿基于相似度的多数据库分类

来源:职称驿站所属分类:计算机应用论文
发布时间:2015-04-15浏览:42次

   摘 要:许多大型组织拥有大量的子公司,进行事务处理时会产生大量的多源数据库,然而现有的数据挖掘只致力于对单个数据库的挖掘,由此,提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价,在对多数据库进行挖掘和分析之前,首先要对多数据库进行分类。由于多数据库中包含大量数据,现有的分类算法GreedyClass的时间复杂度可达到O(m4),所需代价非常大。由此提出了IdentifyCompleteclass算法用于对多数据库分类,其时间复杂度降为O(m3),并提出了相应的寻找最优完全分类算法IdentifyBestClassification,实验证明改进后的算法有较高的运行效率。

  关键词:中国职业技术教育杂志社,多数据挖掘,多数据库分类,IdentifyCompleteclass算法,IdentifyBestClassification算法

  许多大型组织拥有多个分布在不同地区的子公司,而各个子公司具有不同类型的数据库,因此总公司需要挖掘不同数据元结构的数据库然后作相关决策。由此,怎样从多数据库中有效的确定知识特性[1-2]成为亟待解决的问题。在对数据进行挖掘和分析之前,首先要对多数据库进行分类。

  然而现有独立于应用的多数据分类算法存在着一些问题。例如算法时间复杂度高[3,5],不一定能得到最优分类[3],浪费存储空间[4]等。本文针对以上问题提出了可行性的改进算法,使得对多数据库的分类更快、更准、更节省空间。

  1 相关概念

  文献[3-5]中对多数据库分类提出了相关理论概念并进行了理论证明,下面给出相关定义。

  D为一个大量多元数据库的集合,且D={D1,D2,…,Dm},Item(Di)为数据库Di(i=1,2,…,m)中所有项目的集合:定义1. 令Class(D,α)={class1α,class2α,…,classnα}为多数据库D={D1,D2,…,Dm}在α划分下的分类集合,如果Class(D,α)满足以下条件则其为完全分类(complete classification):

  (1)class1α∪class2α∪…∪ classnα=D;

  (2)若∨�CDi∈classxα,∨�CDj∈classyα(x≠y,1≤x,y≤n),则classxα∩classyα=且sim(Di,Dj)<α。

  定义2.令Class(D,α)={class1α,class2α,…,classnα}为多数据库D(={D1,D2,…,Dm})在α划分下的分类集合,α∈[0,1],Goodness与|Class(D,α)|间的绝对距离为:

  其中在Goodness(α)为α划分下的分类集合中各个类别子集之间的距离。

  定义3.多数据库D={D1,D2,…,Dm},设在相似度α下,当αi<αj<αk(α∈[0,1])时,若D的最优分类为Class(D,αj)={class1αj ,class2αj ,…,classnαj},则需满足以下条件为:(1)Class(D,αi),Class(D,αj),Class(D,αk)都为完全分类;(2)对∨�Cαx∈(αi,αk),且αx≠αj,多数据库D不存在其它的完全分类;(3)Distance(αi)>Distance(αj),且Distance(αj)  2 现有算法存在的问题

  文献[3]中所提出的GreedyClass算法及BestClassification算法存在以下缺点:(1)GreedyClass算法时间复杂度高。在对于给定阈值α产生分类时,程序没有最大的优化算法,对不完全分类没有做处理,增加了程序的运行时间。(2)算法BestClassification不一定能得到最优分类。变量step为阈值α的步长,并在算法初始时定义,而step值的选择具有盲目性,有可能导致选择到错误的最优分类,甚至使程序陷入死循环。针对以上问题,本文提出了新的多数据分类算法。

  3 基于相似度的多数据库分类新算法

  3.1 数据库相似度值的存储。文献[3][4][5]中对多数据库分类时,首先计算数据库之间的相似度值,然后存储在二维对称矩阵中,利用矩阵寻找最优分类。但实际寻找最优分类时只用到了m(m?1)/2+1个相似度值,即对称矩阵的小上三角元素和相似度值1。因此在计算数据库之间的相似度时,我们采用上小三角矩阵压缩存储方法。对于m阶对称矩阵A,其中aii=1(1≤i≤m),aij=aji(i≠j)。将其压缩存储到一维数组需要12m(m?1)+1个元素空间。即实际存储的元素(非零元素)为:

  设用一维数组B[1・・・12m(m?1)]来存储上小三角矩阵A,采用行主顺序压缩存储方法,则由文献[10]中给定了从A到B的映射对应关系。给定A中任一元素aij(1≤i  ,1≤i  利用该方法可以轻易得到任意两数据库间的相似度,相似度值的存储空间从m2[3,4,5]减少到了12 m(m?1)。

  3.2 寻找完全分类。寻找多数据库D在阈值α下的完全分类时,只需按索引顺序遍历数组SimArray,并分析值大于或等于α的索引。数组a[m]用来判断数据库是否已经被划分到某个分类中,所有元素的初始值为0,表示未被划分。根据以上性质寻找多数据库D在阈值α下的完全分类,算法1为具体的实现算法。

  算法1:IdentifyCompleteClass

  输入:数组SimArray[12m(m?1)];阈值α;输出:Class(D,α):多数据库D在阈值α下的分类;(1)定义数组a[m],且所有元素初始值为0;(2)令n←0;//n为完全分类集的当前子类数目;(3)令k←1;//数组SimArray索引;(4)for i=1 tom?1do;(5)forj=i+1 to m do

《中国职业技术教育杂志社投稿基于相似度的多数据库分类》

本文由职称驿站首发,您身边的高端学术顾问

文章名称: 中国职业技术教育杂志社投稿基于相似度的多数据库分类

文章地址: https://m.zhichengyz.com/p-28327

相关内容推荐
41本民族学与文学方向AMI收录期刊
土木工程2区sci期刊推荐9本
A类核心学术论文难发吗
教师职称专著对第一作者单位有要求吗
博士出书的最佳时间,理清3个环节,出版会及时
公共卫生、环境卫生与职业卫生SSCI期刊推荐6本
南大核心期刊难发吗?为什么难发,怎么才能更好发
职称评审出版专著有哪些优势?超重要的4点分享给大家
未能解决您的问题?马上联系学术顾问

未能解决您的问题?

不要急哦,马上联系学术顾问,获取答案!

免费获取
扫码关注公众号

扫码关注公众号

微信扫码加好友

微信扫码加好友

职称驿站 www.zhichengyz.com 版权所有 仿冒必究
冀ICP备16002873号-3