邵珠庆の博客 生命只有一次,你可以用它来做些更多伟大的事情–Make the world a little better and easier

1610月/113

免费数据分析工具(插件)

总结推荐22个免费的数据可视化和分析工具。列表如下:

数据清理(Data cleaning)

当你分析和可视化数据前,常需要“清理”工作。比如一些输入性列表“New York City”,同时其他人会说“New York, NY”。因此你需要标准化这些工作,使看到统一的样式。下面的两个工具被用来帮助使数据处于最佳的状态。

1.DataWrangler

斯坦福大学可视化组(SUVG)设计的基于web的服务,以你刚来清理和重列数据。点击一个行或列,DataWrangler会弹出建议变化。比如如果你点击了一个空行,一些建议弹出,删除或删除空行的提示。它的文本编辑很cooool。

Free data analysis

2.Google Refine

Google Refine。用户在电脑上运行这个应用程序后就可以通过浏览器访问之。这个东西的主要功能是帮用户整理数据,接下来的演示视频效果非常好:用户下载了一 个CSV文件,但是同一个栏中的同一个属性有多种写法:全称,缩写,后面加了空格的,单数复数格式不一的。。。但是这些其实都代表了同一个属 性,Google Refine 的作用就是帮你把这些不规范的写法迅速统一起来。

Free data analysis

统计分析(Statistical analysis)

有时,你需要你的数据的图形化的表达。

3.R项目

R语言是主要用于统计分析、绘图的语言和操作环境。虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可比美GNU Octave甚至商业软件MATLAB。

Free data analysis

可视化应用与服务(Visualization applications and services)

这些工具提供了不同的可视化选项,针对不同的应用场景。

4.Google Fusion Tables

Google Fusion Tables被 认为是云计算数据库的雏形。还能够方便合作者在同一个服务器上分享备份,email和上传数据,快速同步不同版本数据,Fusion Tables可以上传100MB的表格文件,同时支持CSV和XLS格式,当然也可以把Google Docs里的表格导入进来使用。对于大规模的数据,可以用Google Fusion Tables创造过滤器来显示你关心的数据,处理完毕后可以导出为csv文件。 

Google Fusion Tables的处理大数据量的强大能力,以及能够自由添加不同的空间视图的功能,也许会让Oracle,IBM, Microsoft传统数据库厂商感到担心,Google未来会强力介入数据库市场。

Free data analysis

5.Impure

Impure,允许点击、拖曳来连接模块,由西班牙分析公司Bestiario创建。 

6.Tableau Public

Free data analysis

7.Many Eyes

Free data analysis

Free data analysis

8.VIDI

Free data analysis

9.Zoho Reports

Free data analysis

10.Choosel

Free data analysis

11.Exhibit

12.Google Chart Tools

Free data analysis

13.JavaScript InfoVis Toolkit

InfoViz

14.Protovis

15.Quantum GIS (QGIS)

Free data analysis

16.OpenHeatMap

Free data analysis

17.OpenLayers

18.OpenStreetMap

19.TimeFlow

Free data analysis

20.IBM Word-Cloud Generator

21.Gephi

Free data analysis

22.NodeXL

IntroTutorial-Layout-v2_GraphImage-2.png

 

 

 

数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研、数据分析又有什么样的联系?…… 

   

一  扫盲篇

    研究结果表明,企业处理的数据每5年就会成倍增长,导致企业数据过度的重复和不一致,如何在这些数据中获取有利信息就促进数据挖掘技术发展。

1、数据挖掘的相关概念

   谢邦昌教授在《数据挖掘 clementine应用实物》一书中提到,数据挖掘是指寻找隐藏在数据中的信息(如趋势、特征及相关性)的过程,也就是从数据中挖掘信息或知识KDD(knowledge discovery in databases)。

   数据挖掘可以说汇合了以下六个领域:

  a 数据库系统-数据仓库和联机分析(OLAP)

  b 机器学习

  c 统计与数据分析方法

 可视化

  e 数学规划

  f 高性能计算

   

    数据挖掘和数据仓库有什么样的联系?我个人的理解是数据仓库的建立是数据挖掘的前提条件,因为数据仓库里的数据通常是整理过的数据,也就是我们通常所说的Clear Data,而从这些有用的数据中找出我们感兴趣或是有价值的信息的过程就是数据挖掘。

 

2、数据挖掘的应用领域

   数据挖掘对每个公司来说都是一个重要的策略性计划,因而将它设为高度机密,所以要调查各公司用数据挖掘到底做什么样的事相当不容易。这里简单的说说数据挖掘的几个常用领域:

   客户档案管理方面,通常公司都希望找出客户的一些共同特征,希望能借此预测哪些人可能成为他们的客户,以帮助营销人员找到正确的营销对象,以降低营销成本,提高成功率

   购物篮分析,通常用来帮助零售从业人员了解客户的消费行为,譬如哪些客户会一起购买,哪些客户会购买某种产品后隔段时间会购买另外一种产品,利用数据挖掘,零售从业人员可以更有效的决定进货量或库存量,商品如何排放等等

   客户关系管理,公司通常可以分析,原本一些属于自己的客户,后来却转变成竞争对象的客户,分析这一部分群体的特征,再根据这些特征到现有客户数据中找出有 可能转向的客户,然后设计出相应的方案来留住这一部分客户群体(毕竟找一个新客户的成本要比留住一个原有客户的成本高的多)

    除此之外,数据挖掘还运用到其他许多行业,如金融业、电信业、零售业、互联网等等,其常用情况汇总如下:

 

 

数据挖掘的应用

以客户为中心

以操作为中心

以研究为中心

终身价值

购物篮分析

档案细分

保留

目标市场

采集

知识门户

交叉销售

活动管理

电子商务

盈利能力分析

定价

欺诈检测

风险评估

投资组合管理

员工离职

现金管理

生产效率

网络性能

制造工艺

组合化学

遗传研究

流行病学

 

 

 

3、数据挖掘的进行步骤及常用分析方法

   每个人数据挖掘过程都不一样,但可以肯定的一点是他们大部分时间都花在准备数据阶段,而其他步骤也只是这样一个大致流程:

   1)理解数据与进行的工作

   2)获取相关知识和技术

   3)整合与检查数据

   4)去除错误与不一致的数据

   5)发展模型与假设

   6)实际数据挖掘工作

   7)测试与验证所挖掘的数据

   8)解释与使用数据

   数据挖掘分析方法是利用数据来建立一些模仿真实世界的模型,利用这些模型来描述数据中的模式以及关系,常用的数据挖掘分析方法主要有:

   1)用于分类聚类的分析方法,如:因子分析、判别分析、聚类分析等,除此之外还有决策树(常用分类方法为CART<classification and regression trees>及CHAID<chi-square automatic interaction detector>两种)

   2)推算预测分析方法,如回归、时间序列、神经网络等

   3)序列规则分析方法,如关联规则、序列规则等

 

4、主要数据挖掘软件

     目前市面上比较常用的数据挖掘软件有不下于30种(当然都是老外开发的,目前为止还没发现国人开发的此类软件),例如MLC++,Clementine,Darwin,Intelligent Miner,SAS data Mining,S-plus,matlab等等。下面简单的介绍几种:

1)SPSS Clementine,SPSS公司发行,此工具结合了多种图形用户接口分析技术,包含神经网络、关联规则及规则生成技术。

2)Oracle Darwin,甲骨文公司发行,其优点是支持多重算法,可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,定位在中、大范围的执行

3)SAS Enterprise Miner,SAS公司发行,目前数据挖掘市场上的领导者,适用于企业在数据挖掘的发展及整个CRM的决策支持应用

4)IBM Intelligent Miner,IBM公司发行,是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,定位于企业数据挖掘解决方案的先锋。

 

二、数据挖掘与市场分析

   “统计分析给您以先机,分析报告给您后见之明,数据挖掘给您以洞察”这样一句话来形容市场分析与数据挖掘的关系再确切不过了。然而数据挖掘只是用来帮助业 务分析策划人员从数据中发现各种可能的假设,这些假设是否正确,是否有价值还有待确定,为了得到更加确定的答案,企业不得不花费一些时间和经历来验证这些 假设,从而导致企业提出调研目的,针对相关假设设计相应的调查问卷,根据调查结果,运用统计分析得出分析报告,从而推出一系列新的发展方案,发展新的客 户,回头又继续数据挖掘,形成一个数据挖掘--市场调研--统计分析的良性循环。

    除此之外,统计分析还给数据挖掘提高了许多新的分析方法,如神经网络技术应用中的---概率分析网(PLN),挖掘方法上的---贝叶斯网络,遗传算法中的---概率进化算法(PMEA)等等。

 

三、从事数据挖掘工作需掌握的相关知识

  1、数据库技术  数据挖掘是在大量数据中找出自己感兴趣或有用信息的过程,这其中涉及到数据库操作的相关功能,那么掌握一种数据库以上的知识就成了必然,这也是为什么目前国内许多企业数据挖掘从业人员是计算机专业的原因。

  2、相关行业知识  也就是前面数据挖掘步骤中有提到相关知识和技术,没有行业背景知识,纯技术做出来的分析报告就好像"无根"之水

  3、掌握一种以上的数据挖掘软件  其实许多的数据库也提供了相应的分析功能,比如前面提到的IBM、Oracle 数据挖掘软件

  4、相关统计及市场分析知识  没有这些知识做出来的报告可能犯下或多或少的错误,从而使分析结果出现严重的偏差

 

 

 

 

邵珠庆推荐文章

博文加载中...

anyShare分享到:

喜欢这个文章吗?

考虑订阅我们的RSS Feed吧!

发布在 邵珠庆

评论 (3) 引用 (0)
  1. I have never ever imagined that studying can be so significantly exciting.

  2. I found a cut on my leg :/

  3. I’ve been browsing online more than three hours today, yet I never found any interesting article like yours. It’s pretty worth enough for me. Personally, if all webmasters and bloggers made good content as you did, the net will be a lot more useful than ever before.


Leave a comment

*

还没有引用.