数据分析这点事
先声明一下,按照传统的定义,我还真不是数据分析高手,各种关联算法,只会最简单的一种(话说不少场合还算管用);各种挖掘技术,基本上一窍不通;各种牛逼的数据分析工具,除了最简单的几个免费统计平台之外,基本上一个都不会用。所以,各种高手高高手请随意BS,或自行忽略。这里说点高手不说的。
从微博段子说起,微博上关于数据分析有两个段子,我经常当作案例讲,第一个段子,说某投资商对某企业所属行业有兴趣,要做背景调查,甲是技术流,一周分析各种网上数据,四处寻找行业材料,天天熬夜,终于写出一份报告;乙是人脉流,和对方高管喝了次酒,请对方核心人员吃了顿饭,所有内幕数据全搞定,问谁的方法是对的;第二个段子,某电商发现竞争对手淘宝店,周收入突然下降了30%,但是隔周后又自然恢复,中间毫无其他异常现象,于是老板让分析师分析,苦逼的分析师辛苦数日,做各种数学模型,总算找到勉强的理由自圆其说,老板读毕,虽说不能让人信服,却也没有更合理的解释,某日,见对手老板,闲聊此事,“你们某段时间怎么突然收入下降?”“嗨,别提了,丈母娘去世了,回家奔丧,公司放羊了。”老板恍然大悟。
两个段子,第一个段子,微博上一边倒的说,苦逼分析没有人脉有用;第二个段子类似,一边倒的认为,人脉的消息比苦逼分析管用多了。但是我想说的是,这个解读绝对是错的!
先说第一个段子,其实网络不乏这种“人脉达人”,特别是媒体圈,一些所谓的“IT名记”或者“著名评论家、分析师”和各种互联网大佬称兄道弟,天天秘闻不断,但是呢?他们从不研究产品,不分析用户,所以,他们知道了数据,却不懂数据背后是什么,更不知道什么是重要的,什么是次要的,我有时会批评身边这样的朋友,别天天觉得自己知道几个互联网大佬的花边新闻,就当自己是资深业内人士了,正因为掌握这些东西又觉得炫耀,才反而忽视了真正有价值的信息和有价值的数据。这就是为什么混网络媒体的,见过市面的各种达人,在互联网创业浪潮里,几乎没有成功几率的真实原因,自以为人脉广泛,无所不知,其实正因为缺乏最基本的数据背景分析,所以才是看上去什么都懂,细究下其实什么都不懂。请记住一点,除非你是富二代,官二代,衔着金钥匙出生,那不在我的讨论范围里,否则,没有苦逼的经历,就没有牛逼的成就。
我常订阅一些著名分析师的微博,他们透露的数据往往是很有价值的(这是我订阅的原因),但是他们的解读通常是惨不忍睹的,这就是只看表象的恶果,而且随便翻看一下他们的数据解读,可以说他们的数据感和数据认知贫乏到可笑,甚至缺乏最基本的数据校核和考证的能力,他们拿到了某公司核心数据又怎样?没经历过苦逼的分析,他们其实什么都看不到。
第二个段子同理,如果不是持续有效的数据跟踪,怎么能得出下降30%的结论,这一数据结论与人脉得到的消息相互验证,才会得到完整真实的结果,否则仅仅是闲聊,你怎能知道对方企业管理对业绩影响的范畴,苦逼的分析也许一时没有人脉的消息管用,但是你所得到的对数据的认知和积累,是人脉永远不会给你的。
所以,再次强调,基本的数据跟踪和日常的数据感养成,绝不是可以忽略和无视的。人脉情报可以成为数据解读重要的信息来源,但是绝不能喧宾夺主,替代基本的数据分析工作。
下面说一下数据感,什么是数据感?就是别人说一个数据出来,你会琢磨一下这个是否符合常理,与你日常的数据观测经验是否一致,如果不一致,那么可能的理由是哪些? 比如12306号称一天几十亿次点击,如果你有数据感,第一眼就会质疑这个“点击”定义的合理性;比如曾经有人说某国内图片分享网站一天多少亿访问量,第一眼就知道这个“访问量”定义是有歧义的,(事后官方解释是图片加载量,这个和访问量差异几十倍。) 数据感需要不断的培养,和基本的逻辑(比如你应该知道中国有多少网民,每天有多少人上网,一个大概什么类型,什么排名的网站会覆盖网民的比例是多少),以及善于利用各种工具,我以前在巨头公司,得益于公司巨大的数据资源,可以看到很多互联网的核心数据;但是离开后,才发现,其实互联网上公开可获取的数据途径是非常多的,而且善于利用的话非常有效。每天去查询一些感兴趣的数据,经过一段时间积累,想没有数据感都难。
作为公司或团队负责人,怎么培养员工的数据感,我其实也有一个建议,平时可以搞一些小的竞猜,比如团队集体竞猜新产品或产品改版上线后的日活跃用户,或者pv数字,或者收入数据,等等;然后看谁的最准,一种是惩罚制,最不准的请最准的喝奶茶,吃冰淇淋;另一种不惩罚,最准的累计积分后公司可以发一些奖品鼓励,这样下去大家的数据感就会在日常培养起来,而且对团队的气氛培养也有帮助。
数据感之后,谈数据分析的方法,我的建议是,不炫技,不苛求技术复杂度,最简单的数据,所包含的信息往往是最有价值的,而很多人恰恰这一步都没做好,就总想着弄一堆挖掘算法;数据的价值在于正确的解读,而不是处理算法的复杂度,切不可喧宾夺主。 大公司的kpi制度,往往会产生偏差,比如技术工程师的评定,要讲究“技术复杂度”、“技术领先性”,直接导致简单的事情没人肯做,最基本的工作不认真做!所以往往是大公司的分析工程师,为了评高级工程师,非要简单问题复杂化,四则运算就搞定的事情一定要弄一套诡异的算法,最终非但浪费了资源,消耗了时间,而且往往由于工程师对业务理解的漠视,对应的产品人员又对算法的陌生,导致了严重的理解歧义,从而出现各种误读。
下面说关键,数据解读,正确的数据解读,是所有数据分析工作最关键的一步,这一步错了,前面的所有努力都是白搭,然后,往往很多人简单的以为“数据会说话”,他们认为把数据处理完一摆就ok了,所以我看到很多知名分析师拿着正确的数据信口胡诌;而更有甚者,显然是故意的行为,一个非常非常著名的、口碑极佳的跨国企业,曾经就同一份很酷的数据,在不同的场合下,为了市场公关的需求,做出不同的解读;这简直就是道德问题了。
数据解读,不能是为了迎合谁,要遵循数据的本质,要遵循科学的逻辑,要有想象力(配合求证),可能有时候也需要依赖人脉关系所获得的情报,(这个也有很多典型范例),这个具体再怎么说可能我也说不清楚,说几个反面例子也许更容易理解。
1、因果关联错误,或忽略关键因素,A和B的数据高度相关,有人就片面认为A影响了B,或者B影响了A;但是,有时候真实原因是C同时影响了A和B,有时候C被忽略掉了。
2、忽略沉默的大多数,特别是网上投票,调查,极易产生这种偏差,参与者往往有一定的共同诉求,而未参与者往往才是主流用户。
3、数据定义错误,或理解歧义,在技术与市场、产品人员沟通中产生信息歧义,直接导致所处理的数据和所需求的数据有偏差,结果显著不正确。
4、强行匹配;不同公司,不同领域的数据定义可能不一致,在同一个公司内或领域内做对比,往往没有问题,大家对此都很习惯,却有评论家不懂装懂,强行将不同定义的数据放在一起对比做结论,显著失真
电子商务数据分析经验总结
很不错的一篇总结,转来分享一下,和自己比较接近。
08年毕业,不知不觉的混进了电子商务行业,又不知不觉的做了三年数据分析,恰好又赶上了互联网电子商务行业发展最快的几年,也算是不错吧,毕竟感觉前途还是很光明的。三年来,可以说跟很多同事学到了不少东西,需要感谢的人很多,他们无私的教给了我很多东西。
就数据分析职业来说,个人感觉这对互联网公司来说是非常重要的,也是确实能够带来实际效果的东西。比如说利用数据分析做会员的细分以进行精准化营销;利用数据分析来发现现有的不足,以作改进,让顾客有更好的购物体验;利用CRM系统来管理会员的生命周期,提高会员的忠诚度,避免会员流失;利用会员的购买数据,挖掘会员的潜在需求,提供销售,扩大影响力等等。
最开始进公司的时候是在运营部,主要是负责运营报表的数据,当时的系统还很差,提取数据很困难,做报表也很难,都是东拼西凑一些数据,然后做成PPT,记得当时主要的数据就是销售额、订单量、毛利额、客单价、每单价、库存等一些特别基础的数据,然后用这些数据作出一些图表来。在这个阶段基本上就是做一些数据的提取工作,Excel的技巧倒是学到了不少,算是数据分析入门了吧。
后来公司上了数据仓库,里面就有了大量的原始数据,提取数据非常方便了,而且维度也多,可以按照自己的想法随意的组合分析,那个阶段主要就是针对会员购物行为的分析,开始接触数据建模,算法等一些比较难的东西,也是学到东西最多的时候。记得当时做了很多分析报告,每周还要给总裁办汇报这些报告,下面详细说一下当时使用的一些主要的模型及算法:
1、RFM模型
模型定义:在众多的客户关系管理的分析模式中,RFM模型是被广泛提到的。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该机械模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。在RFM模式中,R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M (Monetary)表示客户在最近一段时间内购买的金额。一般的分析型CRM着重在对于客户贡献度的分析,RFM则强调以客户的行为来区分客户。利用RFM分析,我们可以做以下几件事情:
⑴建立会员金字塔,区分各个级别的会员,如高级会员、中级会员、低级会员,然后针对不同级别的会员施行不同的营销策略,制定不同的营销活动。
⑵发现流失及休眠会员,通过对流失及休眠会员的及时发现,采取营销活动,激活这些会员。
⑶在短信、EDM促销中,可以利用模型,选取最优会员。
⑷维系老客户,提高会员的忠诚度。
使用方法:可以给三个变量不同的权重或按一定的规则进行分组,然后组合使用,即可分出很多不同级别的会员。
2、关联分析
关联分析最原始的案例来自于沃尔玛的“啤酒与尿布”。通俗意义上讲,就是只买了A商品的人,又有很多人买了B商品,那么我们就可以认为A、B两个商品的关联性比较高。很多数据挖掘工具都有关联挖掘,主要使用的算法是Apriori算法,在计算的过程中会主要考察项集、置信度、相关性这三个结果数据,以最终确定商品之间的相关性。除了Apriori算法外,还有许多其他的关联分析的算法,基本上也都是从Apriori发展而来,比如FPgrowth。本人从几年的数据分析经验感觉,关联分析在零售业中并不太实用,挖掘出来的关联度比较高的商品一般都是同类商品或者同品牌的商品,像“啤酒与尿布”这种,很少能够有。
使用方法:组套销售或者相关陈列等。
3、聚类分析
零售行业的聚类分析主要是指将具有相似购物行为的顾客进行群体的细分,以支持精细化的营销活动,带来更大的营销效果,节省成本。Spss里面的聚类分析主要有两种K-means聚类和系统聚类。也可以在数据仓库中根据顾客购买的商品属性进行会员的聚类分析,这里就不需要算法的支持,只需要根据系统的已经有的商品分类,把购买过相同商品类别的顾客划分到一起。这种方法可能与公司的业务更加贴近。聚类分析是进行会员精细化管理,精细化营销的基础,做好聚类分析,对企业将有很大的益处。
使用方法:对顾客细分,精准化营销。
4、“之”字分析法
该种方法主要是有一种很明确的会员群体,然后通过分析这些会员群体的购买行为,提取这些购物行为的相似点,然后再通过这些相似点返回到整个数据里面,从中抽取更大的会员群体,以制定精准的营销。
再后来,公司又上了SAP,又去BW组去做报表开发,做报表开发这一块能够接触到更多的业务方面的知识,虽然做数据挖掘比较少了,但是数据最终是要指导业务的,所以这对我的成长也算是非常有利的。业务方面主要了解到了几大块:
1、库存管理-库存管理这块主要有正品库存的管理,滞销库存,高库存商品等各种不同类型的库存该怎么定义以及该如何去管理。比如去管理供应商的库存的时候会根据正品库存及滞销库存和库存正常的周转天数来计算该供应商的库存是否在合理的水平,是否该进货还是要减少库存。
2、促销管理-促销管理是以提高销售额为目的,吸引、刺激消费者消费的一系列计划、组织、领导、控制和协调管理的工作。数据方面来说主要是针对不同的促销方式来计算不同的方式收益情况,不同的促销方式可以带来不同的效果,因此在使用促销的时候要审慎的选择,以达到理想的效果。
另外,还有财务报表、采购流程等很多方面的东西,这些接触的比较少就不写啦。
在BW项目组的时候,也经常会帮网站做一些分析工作,自己也自学了两本关于网站数据分析方面的书,感觉学到了一些皮毛,下面说一下吧:
1、网站流量分析
网站流量的比较重要的KPI指标有浏览量、访问量、独立访客数、跳失率、转化率、页面停留时间、访问页面数、流量来源、流量来源ROI等等。通过这些数据可以全面的反映网站的整体情况。其中跳失率可以用来衡量页面的质量,流量来源及转化率可以衡量市场及营销的工作情况。进行网站数据分析的时候,需要牢牢的把握转化率这一指标,然后由这一指标的变化来寻找其他相关数据的变化,最终找出原因,做相对应的策略,改进我们的工作。
2、网站分析细分
数据分析行业有句话-无细分,毋宁死,足矣看出细分对数据分析意义。对于网站的数据分析尤其是如此。网站的流量数据量非常大,从整体上看根本都看不出那里会出现问题,所以必须要细分。比如说营销人员需要看的转化率,必须就要细分到每个渠道里面,然后再看到这些渠道来的会员的点击情况,他们都看过那些网页,对什么感兴趣,跳失率是多少,浏览时间多长,最终转化的是多少等等,这样才能看出问题。
3、网站的短信促销及EDM
在这个电子商务普遍烧钱的时代,花出去的钱到底能有多少能够带来实际的收益呢?在抢占市场的同时,怎么才能做到ROI最大化这个问题急需要解决。公司每天几乎都要发几万条甚至几十万条的促销的短信,短信的反馈率基本上都在2%一下,怎么才能提高转化率,这就需要更精准的用户定位,把钱花到最有可能带来收益的地方。因此网站的短息促销及EDM促销,必须要依据会员的精细化细分,不但要满足客户的需求,更要挖掘出他们的需求。
写到这里基本上写的差不多,通过总结才发觉自己原来很是知道的很少,还有很多需要学习的地方,比如说数学建模方面的知识不够,统计学软件使用不够好,业务了解的不够深入,对整个电子商务行业的发展把握不清晰,这些都是需要以后加强的地方。最近在一个数据分析师的前辈的博客上看到他对数据分析师的要求只有一点,就是要热爱数据。感觉自己还不够,平时工作的时候还不够投入,总觉得是在为公司工作,不是在为自己的兴趣工作,其实一个人每天做的事,一定要都当做是为自己做才行,就算真的不是为自己做,也要从中学到一些东西来变成自己的东西,为自己服务。
网站分析职业生涯规划
明天分享读书报告《精通Web Analytics 2.0》相关资料
下面是网站分析大师Avinash的关于网站分析职业生涯规划的表格:
Web Analytics Career | 纬度 | 个人贡献者 | 团队领导者 |
业务 | 角色 | CMO – 分析师 – 业务部门 | 副总裁(CMO)-分析主管-分析师(业务部门) |
技能 | 业务策略
Web analytics2.0衡量策略 有效的沟通者 统计方法与数学技能 JS技能 |
拥有领导能力的优秀分析师
激励下属 人际交往和沟通能力 |
|
提升 | 团队管理
数据策略 |
成长空间取决于公司的规模,业务部门领导者,不封顶 | |
技术 | 角色 | 业务团队 – 个人技术 – 网站分析提供商 | 总裁 – 分析经理 – 业务部门 |
技能 | 技术加码和工具运用顺利 | 启发与激励下属
人际交往能力 |
|
提升 | 转向业务,进入IT行业商业智能 | 基于ASP的分析有瓶颈,可以延伸到CRM,ERP等职位 |
个人业务的提升,大家是不是倍感压力和动力呢
免费数据分析工具(插件)
总结推荐22个免费的数据可视化和分析工具。列表如下:
数据清理(Data cleaning)
当你分析和可视化数据前,常需要“清理”工作。比如一些输入性列表“New York City”,同时其他人会说“New York, NY”。因此你需要标准化这些工作,使看到统一的样式。下面的两个工具被用来帮助使数据处于最佳的状态。
斯坦福大学可视化组(SUVG)设计的基于web的服务,以你刚来清理和重列数据。点击一个行或列,DataWrangler会弹出建议变化。比如如果你点击了一个空行,一些建议弹出,删除或删除空行的提示。它的文本编辑很cooool。
Google Refine。用户在电脑上运行这个应用程序后就可以通过浏览器访问之。这个东西的主要功能是帮用户整理数据,接下来的演示视频效果非常好:用户下载了一 个CSV文件,但是同一个栏中的同一个属性有多种写法:全称,缩写,后面加了空格的,单数复数格式不一的。。。但是这些其实都代表了同一个属 性,Google Refine 的作用就是帮你把这些不规范的写法迅速统一起来。
统计分析(Statistical analysis)
有时,你需要你的数据的图形化的表达。
3.R项目
R语言是主要用于统计分析、绘图的语言和操作环境。虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可比美GNU Octave甚至商业软件MATLAB。
可视化应用与服务(Visualization applications and services)
这些工具提供了不同的可视化选项,针对不同的应用场景。
Google Fusion Tables被 认为是云计算数据库的雏形。还能够方便合作者在同一个服务器上分享备份,email和上传数据,快速同步不同版本数据,Fusion Tables可以上传100MB的表格文件,同时支持CSV和XLS格式,当然也可以把Google Docs里的表格导入进来使用。对于大规模的数据,可以用Google Fusion Tables创造过滤器来显示你关心的数据,处理完毕后可以导出为csv文件。
Google Fusion Tables的处理大数据量的强大能力,以及能够自由添加不同的空间视图的功能,也许会让Oracle,IBM, Microsoft传统数据库厂商感到担心,Google未来会强力介入数据库市场。
5.Impure
Impure,允许点击、拖曳来连接模块,由西班牙分析公司Bestiario创建。
8.VIDI
10.Choosel
11.Exhibit
14.Protovis
16.OpenHeatMap
17.OpenLayers
19.TimeFlow
21.Gephi
22.NodeXL
数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研、数据分析又有什么样的联系?……
一
1、数据挖掘的相关概念
2、数据挖掘的应用领域
数据挖掘的应用 |
||
以客户为中心 |
以操作为中心 |
以研究为中心 |
终身价值 购物篮分析 档案细分 保留 目标市场 采集 知识门户 交叉销售 活动管理 电子商务 |
盈利能力分析 定价 欺诈检测 风险评估 投资组合管理 员工离职 现金管理 生产效率 网络性能 制造工艺 |
组合化学 遗传研究 流行病学 |
3、数据挖掘的进行步骤及常用分析方法
4、主要数据挖掘软件
1)SPSS Clementine,SPSS公司发行,此工具结合了多种图形用户接口分析技术,包含神经网络、关联规则及规则生成技术。
2)Oracle Darwin,甲骨文公司发行,其优点是支持多重算法,可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,定位在中、大范围的执行
3)SAS Enterprise Miner,SAS公司发行,目前数据挖掘市场上的领导者,适用于企业在数据挖掘的发展及整个CRM的决策支持应用
4)IBM Intelligent Miner,IBM公司发行,是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,定位于企业数据挖掘解决方案的先锋。
二、数据挖掘与市场分析
三、从事数据挖掘工作需掌握的相关知识