39 基于信息元的数据特征分析技术_职称驿站
论文发表指导_期刊投稿推荐_期刊论文发表咨询_职称驿站

论文发表指导,期刊推荐,国际出版

职称驿站学术导航
关闭职称驿站导航

论文发表职称晋升 全方位咨询服务

学术出版,国际教著,国际期刊,SCI,SSCI,EI,SCOPUS,A&HCI等高端学术咨询

基于信息元的数据特征分析技术

来源:职称驿站所属分类:软件开发论文
发布时间:2012-07-24浏览:35次

  摘要:本为对基于信息元的数据特征分析技术进行了简要介绍,介绍了数据特征的测度,包括集中趋势、离散趋势及分布形态的测度,重点介绍数据挖掘的相关概念、方法及在商业方面的一些典型应用。
  引言
  信息元是信息的最小单位,根据信息元的各种属性可以将信息元进行归类。
  数据挖掘,是计算机科学中一门较年轻的学科交叉领域,是利用包括统计、人工智能、数据库管理在内的各种手段以从大量数据中发现新属性的过程。这一过程的重点是发现数据中以前不为人知的新属性,与机器学习等重在总结新数据中已知属性的过程不同。
  数据挖掘经常被误用于描述数据的处理过程,例如数据的收集、提炼、存储、分析及统计等过程,总的来说数据挖掘应该对应于计算机决策支持系统,例如人工智能、机器自主学习和商业智能。数据挖掘这一概念中的关键是“发现”,或者说“数据分析”更为合适,而不是其它过程,即通过科学合理的分析方法,“发现”数据新的特征。因此,从某种角度上来说,数据分析或数据特征分析与数据挖掘是等价的。
  一、 基于信息元的数据特征分析技术
  1) 数据特征的测度
  概括性的来说,数据特征的测度包括:
  1. 集中趋势的测度。包括众数、中位数、均值等。
  2. 离散趋势的测度。包括异众比率、四分位差、方差、标准差及离散系数等。
  3. 分布形态的测度。包括偏态及峰态等。
  集中趋势是指一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值和中心值,不同类型的数据用不同的集中趋势测度。
  离散趋势反映各变量值远离中心值的程度。
  偏态及峰态是指将数据分布的形状与标准正态分布相比较,偏态分布系数的计算方式为:三阶中心矩除以标准差的三次方;峰态分布系数的计算方法为:四阶中心矩除以标准差的四次方再减去三。
  2) 数据挖掘概念的深入
  数据库知识发现过程通常包含以下几个阶段:1、选择;2、前处理;3、变换;4、数据挖掘;5、理解或评估。但CRISP-DM也将其简化过程定义为1、前处理;2、数据挖掘;3、结果评估。由此可见,数据挖掘在整个数据库知识发现过程中的重要地位。
  数据挖掘通常会包含以下六个任务块:
   异常发现。通过确定异常数据记录,可能会发现需要进一步详细分析的问题。
   连结关系学习。搜寻变量之间的组织关系。例如:某个大超市可能会基于客户的消费习惯来收集数据。通过连接关系学习过程,超市可以确定哪些商品是通常会被放在一块购买的,进而做出相应的商业决策。某些时候这也被称作市场分析。
   分组。将数据按照某些相似点或者某种规律进行分组,但这些规律并不是数据中本身存在的组织规律。
   归类。将已知的组织规律应用到新的数据中去。例如,一个电子邮件程序可能会试图将一封邮件分类为合法的或者垃圾邮件。
   回归。试图找到一种存在最少错误的模型来描述数据。
   总结。提供一种更简洁的数据描述,包括抽象化的描述和格式化的报告。
  3) 数据挖掘的典型应用
  数据挖掘在客户关系管理上有非常显著的贡献。相较于随机的通过打电话或者发邮件来联系一位潜在客户,一家公司可以尽可能的将大部分精力放在那些预测到会有较高可能性产生回应的客户群上。更复杂一点的应用例如通过预测在所有潜在需求中哪一个渠道的顾客会最可能产生回应,从而最优化的调配公司资源。另外的,这种复杂应用也可以用来自动的为相应客户群发送邮件。一旦数据挖掘的结果确定,这种“复杂程序”可以自动的发送一封电子邮件会常规邮件到相应客户。最后,在一些情况下,一部分人在没有发送邀请的情况下也会进行回应,这时候,可以通过模型来预测哪一类人群在发送邀请的情况下会最大限度的增大回应的程度及可能性。
  商业上应用数据挖掘技术在看到可观的投资回报的同时,也会发现预测模型的数量会变得相当庞大。试图建立一个通用模型通常会导致出现许多预料不到的问题,按照不同的地区、消费者类型等特征来建立分类模型是一个更明智的选择。与其发送一个邀请到所有可能产生回应的客户,还不如仅仅发送邀请到最有可能产生回应的客户群。另外,在一定时间阶段内,确定能带来最多盈利的客户群并且发送相应的邀请给这个客户群以确保获得最大利益,这才是最合理化的做法。为了达到以上目标,商业上必须持续的维护模型的质量并且逐步演化到自动化数据挖掘这种技术上来。
  数据挖掘对人力资源管理部门也提供了相当的帮助,例如,确定公司内最成功员工的特性。得到的信息,例如成功员工所毕业的大学,可以帮助HR更好的确定招募哪一类型的员工。另外,企业战略管理应用帮助公司将公司层面的目标,例如利润或利润率目标转化为实际的执行目标,例如生产计划和劳动力水平。
  另一个数据挖掘的例子被称为市场分析,与数据挖掘在零售市场的应用有关。如果一家服装店存储了客户购买的信息,它可以分析确定哪些客户更喜欢棉制品,哪些客户更喜欢丝织品。尽管有时候去试图解释这种关系式很困难的一件事,但单纯利用这种关系式比较简单的。这一个例子与以交易为基础的数据连接关系学习有关。但并不是所有的基于逻辑但并不精确的交易数据都会被呈现在数据库中。
  市场分析也被用于确定那些甲级顾客。甲级顾客是那些在链接产品背后观念,并且接受产品并且最后向社会推荐这一产品这个过程中扮演了关键角色的客户。分析这一类顾客的消费数据使得公司可以预测未来的购买趋势、供给及需求。
  “特征挖掘”也是数据挖掘的一类,它主要集中在发现数据的现有特征上。在这里,特征主要代表的是连结关系。最终搜寻连结关系的动机来自于分析大超市的交易数据,换句话说,是为了分析消费者购买商品的行为。例如,一条连结关系“啤酒→土豆片(80%)”意味着80%购买土豆片的顾客也购买了啤酒。
  二、 结语
  数据特征分析技术及数据挖掘技术是一门年轻的技术,尽管它在现在社会中扮演了越来越重要的地位,但它的发展也不是一帆风顺的,也遇到了挑战和阻碍。其中,来自个人隐私及道德方面的阻碍是一个主要的发展障碍。另外,随着社会的发展,人们对数据挖掘技术及特征分析技术也提出了越来越多的要求,技术上的更新日益加快,例如对大数据的存储分析,对不同类型数据的存储分析等方面仍然有待发展。但总的来说,数据特征分析技术会在未来生活中扮演一个更为重要的角色。

《基于信息元的数据特征分析技术》

本文由职称驿站首发,您身边的高端学术顾问

文章名称: 基于信息元的数据特征分析技术

文章地址: https://m.zhichengyz.com/p-16091

相关内容推荐
建筑出版社出版图书的要求,这4点一定要知道
scopus和ei的区别,4个方面带你理清楚
中国科学院sci三区期刊目录
自己出版书在哪里出版最好?必知前提要求,做对的选择
影响因子大于20的计算机SCI期刊
6本核心期刊的2025年的重点选题
学术著作出版流程,5大步骤搞定出版
针灸方向的sci期刊推荐9本
未能解决您的问题?马上联系学术顾问

未能解决您的问题?

不要急哦,马上联系学术顾问,获取答案!

免费获取
扫码关注公众号

扫码关注公众号

微信扫码加好友

微信扫码加好友

职称驿站 www.zhichengyz.com 版权所有 仿冒必究
冀ICP备16002873号-3