邵珠庆の日记 生命只有一次,你可以用它来做很多伟大的事情–Make the world a little better and easier


161月/13

国内航空公司图谱和数据

发布在 邵珠庆

 

国内主要航空公司图谱 

IATA ICAO 中文名称 英文名称 机队 性质 集团
CZ CSN 中国南方航空 China Southern Airlines 393   中国南方航空集团
CA CCA 中国国际航空 Air China 291   中国航空集团
MU CES 中国东方航空 China Eastern Airlines 310   中国东方航空集团
HU CHH 海南航空 Hainan Airlines 112   海南航空集团
ZH CSZ 深圳航空 Shenzhen Airlines 115   中国航空集团
GS GCR 天津航空 Tianjin Airlines 103   海南航空集团
FM CSH 上海航空 Shanghai Airlines 65   中国东方航空集团
MF CXA 厦门航空 Xiamen Airlines 86   中国南方航空集团
3U CSC 四川航空 Sichuan Airlines 73    
SC CDG 山东航空 Shandong Airlines 61   中国航空集团
JD CBJ 首都航空 Beijing Capital Airlines 39   海南航空集团
9C CQH 春秋航空 Spring Airlines 32    
HO DKH 吉祥航空 Shanghai Juneyao Airlines 30    
CK CCK 中国货运航空 China Cargo Airlines 19 货运 中国东方航空集团
8Y CYZ 中国邮政航空 China Postal Airlines 17 货运  
Y8 YZR 扬子江快运 Yangtze River Express 16 货运 海南航空集团
BK OKA 奥凯航空 Okay Airways 17    
EU UEA 成都航空 Chengdu Airlines 10    
8L LKE 祥鹏航空 Lucky Air 17   海南航空集团
KN CUA 中国联合航空 China United Airlines 12   中国东方航空集团
OQ CQN 重庆航空 Chongqing Airlines 9   中国南方航空集团
JI JAE 翡翠航空 Jade Cargo International 3 货运 中国航空集团
J5 EPA 东海航空 Shenzhen Donghai Airlines 14 货运  
PN CHB 西部航空 China West Air 9   海南航空集团
JR JOY 幸福航空 Joy Air 6 支线  
KY KNA 昆明航空 Kunming Airlines 7 支线 中国航空集团
G5 HXA 华夏航空 China Express Airlines 7 支线  
VD KPA 鲲鹏航空 Kun Peng Airlines 4 支线 中国航空集团
NS DBH 河北航空 Hebei Airlines 13    
UW UTP 友和道通航空 Uni-Top Airlines 3 货运  
CN GDC 大新华航空 Grand China Air 3   海南航空集团
O3 CSS 顺丰航空 SF Airlines 9 货运  
GD GSC 银河航空 Grandstar Cargo International Airlines 1 货运  
  CAO 中国国际货运航空 Air China Cargo 11 货运 中国航空集团
  CGN 长安航空 Chang'an Airlines N/A 支线 海南航空集团
  CXH 中国新华航空 China Xinhua Airlines N/A   海南航空集团
  CXI 山西航空 Shanxi Airlines N/A   海南航空集团
    贵州航空 Guizhou Airlines 11   中国南方航空集团
    汕头航空 Shantou Airlines 12   中国南方航空集团
    珠海航空 Zhuhai Airlines 6   中国南方航空集团
    东航江苏公司 China Eastern Airlines Jiangsu Company 32   中国东方航空集团
    东航武汉公司 China Eastern Airlines Wuhan Company 19   中国东方航空集团
    东航云南公司 China Eastern Yunnan Airlines 51   中国东方航空集团
TV TBA 西藏航空 Tibet Airlines 4   中国航空集团
  CCD 大连航空 Dalian Airlines 4   中国航空集团
GJ CDC 长龙航空 CDI Cargo Airlines 2 货运  
YI AYE 英安航空(筹) Yunnan YingAn Airlines N/A 支线  
注:机队数据更新时间:2012-11-07

港澳台地区航空公司

IATA ICAO 地区 英文名称 中文名称 机队 航空联盟
KA HDA 香港 Dragonair 港龙航空 35 寰宇一家
CX CPA 香港 Cathay Pacific Airways 国泰航空 139 寰宇一家
LD AHK 香港 Air Hong Kong 华民航空 11  
HX CRK 香港 Hong Kong Airlines 香港航空 25  
UO HKE 香港 Hong Kong Express Airways 香港快运航空 5  
NX AMU 澳门 Air Macau 澳门航空 14  
BR EVA 台湾 EVA Airways 长荣航空 59  
CI CAL 台湾 China Airlines 中华航空 71 天合联盟
AE MDA 台湾 Mandarin Airlines 华信航空 8 天合联盟
GE TNA 台湾 Transasia Airways 复兴航空 17  
B7 UIA 台湾 Uni Air 立荣航空 19  
EF FEA 台湾 Far Eastern Air Transport 远东航空 10  
注:机队数据更新时间:2012-07-12
2411月/11

如何通过数据进行网站分析

发布在 邵珠庆

小米渣:非常荣幸邀请到您做客运营辅导在线访谈,听众朋友们都期待对您有更多的了解,请介绍一下自己及职业经历?
云统计高代鹏:
大家好,我是高代鹏,是数据平台产品经理。曾供职于国内一家第三方数据公司,主要负责大型媒体类网站统计产品的规划、网站的数据分析和行业数据的解读。
很荣幸能与大家一起交流网站的数据分析,这是一门新兴学科,05年起国内才崭露头角。希望通过本次访谈能让大家了解到一些常用的统计方法、分析思路、体会数据的魅力。

小米渣:首先,请代鹏介绍一下对于网站产品,日常监控范围内的常见数据种类及含义?
云统计高代鹏:
网站的监测指标有很多,一般的统计产品都包含大约20-30个指标。
这些指标可以分成以下五个类别:用户规模、用户粘性、用户来源、网站受众属性、网站内容属性;
用户规模主要是通过PVUV和独立IP三个指标衡量;
用户粘性主要通过回访率、访问频率和访问深度三个指标衡量;
用户来源主要通过直接来源和站外来源两个指标衡量,其中站外来源常被分为搜索引擎和其他网站;
网站受众属性主要通过用户的性别、年龄、收入、职业以及地域分布等指标衡量;
网站内容属性主要通过最常访问内容、入口页和出口页三个指标衡量;

小米渣:感谢代鹏精彩的讲解,以上您所谈的对于互联网产品,最基础的流量指标,也就是关键数据有哪些?请结合实例谈一下这些数据的重要性。
云统计高代鹏:
其实每个数据指标都有他的实际意义,而要说最基础、最关键的流量指标那应该是PVUVPVUV是反映站点的用户规模,在很多时候与收入直接相关。这两个指标的重要性就不在过多描述了,也经常有人问起对这两个指标的分析频率和如何分析。
频率可能不同的网站、站长习惯不同,之前在给新浪和搜狐提供分析时,是需要每周、每月、每季度都提供分析报告,在遇到重大事件时更需要专项的数据分析。
以月的数据为切入点,介绍三种常用的分析思路:
首先分析PV/UV的比值同最近三个月的比较。如果发现这个比值明显下降,而UV变化不大,说明PV的下将主要是每个用户单次访问的页面数减少,这种情况下网站的内容或结构急需调整,不然等用户大量流失时已晚。
其次查看PVUV的环比变化率,分析网站最近的运营是否稳定,是否保持持续的增长。
最后还要与行业对比,才能发现自己的状况是真的好,还是表象;如某个月你的用户规模增长了10%,但行业均值确增长15%,那我们要努力的地方还有很多。

小米渣:嗯,刚才你谈到用户单次访问页面减少时可能需要进行网站内容或结构调整,那么 网站结构是否合理,具体通过什么样的数据指标去看?如何去分析用户关注的内容?
云统计高代鹏:
      
网站结构是指网站中页面间的层次关系;按性质可分为逻辑结构及物理结构。网站结构对网站的搜索引擎友好性及用户体验有着非常重要的影响。
小站初期往往希望更快地找到自身定位,除了站长自身的资源和优势,还需要我们通过数据找到用户最感兴趣的内容,并且最大限度地引导他们浏览、回复这些内容。
这就需要我们对网站内容和网站结构进行分析:例如可从以下几个角度分析首页的结构是否合理:
1
、查看首页作为网站入口的比例;
2
、查看首页流量在全站的比例;
3
、查看首页的二跳率和弹出率;
4
、查看首页带给其他版块或频道的流量。
   
经过几次这样的调整再分析的过程,最终找到最优的解决方法。
   
通过对用户最常访问内容的分析,更能发现运营中存在的问题。如果发现TOP5版块的主题量和流量占全站比例不足50%,或者TOP20页面的回复量和流量 占全站比例不足50%,或者流量TOP20页面中有超过10个页面来自非主流版块等等,类似的数据表现都可以说明用户的关注点太过分散,网站没能有效的引 导用户,网站的定位与用户的兴趣点存在偏差。

小米渣:感谢分享,您刚才讲解的需要分析用户偏好,那么对于网站产品,一般的用户行为相关数据有哪些?怎样通过这些数据来分析用户进而分析网站产品?
云统计高代鹏:
用户在网站的每一次点击、回复乃至鼠标的每一次滑动,都是用户的访问行为;用户的访问行为是用户心理最直白的显现,更是我们网站产品设计的试金石。
从用户行为来讲,除了注册,登陆,其他数据会有访问深度、访问次数分布、访问停留时长分布、回访天数分布、每小时访问页数分布等等;通过分析网站用户各种行为的次数和人数数据,了解用户使用你的网站和产品情况,用户使用多的是哪种行为?是否符合产品原型的设计?
譬如,注册量是衡量新用户发展的一个数据;登陆是衡量用户使用网站和产品的一个主要活跃数据;评论次数反应你的网站用户互动情况,访问深度反映用户对网站内容的兴趣度等。
那 究竟这些指标数值的多少代表什么?是否有衡量的标准?因不同行业、不同类型的网站、以及网站处于不同的发展阶段衡量的标准都不同,所以对这些指标要动态的 分析;分享一下媒体型网站的相关数据,供大家参考。一个用户平均每天访问5-7次,每次访问8-10个页面,每次停留500秒左右,回访率在 33%-38%之间。

小米渣:古语有知己知彼百战百胜,网站最核心的价值是为用户提供服务,而用户属性是我们了解用户的一条渠道。那么请教代鹏一般网站产品的用户属性数据有哪些,能否结合实例数据图表等说明如何通过分析用户属性数据优化产品、协助运营?
云统计高代鹏:
用 户属性数据一般包括用户所属的地域、用户的性别、年龄、收入、职业以及学历;通过对网站注册用户属性数据的分析,可帮助网站优化产品,协助运营,提升用户 对网站的粘性;这里会用到网站数据分析的基本思想:细分;其实细分可于用户数据分析的方方面面,对发现的问题,都要层层拨开,找出事情的缘由,这就是细分 的思想。
比如通过IP定位,知道哪些省份、城市以及哪个区域的用户在访问,不同地域的用户关注的内容是否有差异,通过对这个数据的分析,可指导市场部门具体选定在哪个城市做推广或者活动效果更好。
比 如某个地方性的网站,在春节期间PV未降反而增长了20%,提供我们对这20%新用户的监测,发现IP地址都来源于本地,进而我们可以判断这20%的用户 是从外地返乡的,我们在运营时,可为这 20%的新用户有针对性的提供信息;比如提供返城火车票的信息服务,提供儿童教育类商家的信息等等。

小米渣:嗯,很赞同细分思想,数据运营要的就是针尖上跳舞的艺术,切忌烦杂,沉迷宏观的PVIP
经过对网站访问情况、用户属性等数据了解和分析,我们可以更真实了解自己的网站,帮助我们及时改进网站运营。当我们需要改版或者转型的情况,请问应该如何利用现有数据分析,以便使转型工作取得更有效的成果?
云统计高代鹏:如果一个网站决定改版或转型,那可能是发现用户对现有的网站结构不满意,而具体对哪些地方不满意,怎样的数据指标能反映用户的心理呢。一般地,我们会从以下角度进行分析:
首先分析网站的小时浏览趋势、热门板块、热点内容与网站的定位和用户特征是否一致。
1
、首先通过整站或者频道的小时浏览趋势来掌握网站用户的访问情况。
比 如我们持续跟踪某个网站流量的小时变化趋势,发现凌晨1-2点,博客频道的流量都会大幅增长,并且平均每个用户都会访问10个页面以上;根据这个分析,编 辑可针对性在这个时段,推荐些有思想博文和深度评论,同时也可考虑推荐些其他频道的、用户可能感兴趣的内容,引导用户对其他频道的访问。

2、其次分析首页的弹出率、二跳率等指标,评估首页的引导效果;
通过访问深度来衡量网站首页内容是不是符合网站主流的用户偏好。
通过对某网站最近一周的监测发现,70%以上用户的访问深度都低于3页,访问最热的内容TOP10中,仅有3个来自于网站首页,说明我们近期编辑发布的内容与当前热点有偏差或者首页导航、热点区域的推荐内容有问题。
3
、最后我们还可分析不同板块的用户重合度、不同板块的流量引导效果
如 之前我们对XX网站的监测发现,该网站新闻频道和女性频道的用户重合度达到73%,同时女性频道的流量50%是由新闻频道带来的,根据这些数据,我们会建 议广告商在新闻频道投放广告的同时,也需在女性频道投放,这样可提升目标受众对品牌的印象,同时更可节约成本(女性频道的广告相对更便宜);
特别 地,在改版的过程中,也需时刻监测用户的访问行为,评估改版的效果;升级了 8.3的站长可以关注一下用云统计提供的页面点击热图;通过对某些特殊页面(如网站首页)部署一段监测代码,站长能获得用户在这个页面的点击轨迹,再用不 同的颜色区分用户对不同区域的点击热度,这样可直观的看出用户在这个页面的点击分布。

小米渣:感谢代鹏,我相信这方面能够帮助不少站长朋友们。另外,对于公司的领导决策层,网站的哪些数据会影响制定和修改营销策略?
云统计高代鹏:网站的营销形式有很多,这里简单粗略地分为内容营销和市场营销:
1
、内容营销会更多的关注数据的时效性,如流量的小时变化趋势、帖子热门标签、意见领袖的热点话题、热点关键词等,根据这些数据指标的变化,实时调整内容营销策略:
例如通过流量的小时变化趋势发现每天在上午8-10点、下午4-6点和晚上的8-10出现三个峰值区间,可对这类用户(大部分是上班族)提供有针对性的内容;
再例如,对使用 8.3的站长可以关注云统计提供的帖子热门标签,发现当前网站的热点讨论内容,根据这个数据可让编辑对此类内容给予重点关注,如置顶、加精、首页推荐等,引导更多的用户参与到相关话题的讨论。
2
、 市场营销则需持续关注投放媒体的数据延续性和效果的可持续性。比如某些网络广告投放目的是提高产品销售,首先还是选择投放媒体,投放媒体的影响力和目标用 户的吻合度同样重要;其次需对广告每次展示、点击、二跳都需要有全面的统计和分析;最后分析销售数据,购买用户究竟从哪个网站,点击了哪个位置的广告而来 的。在购买的流程过程中,在哪个步骤用户大量流失。
此外,我们也需要分析用户对什么样的内容感兴趣,分析用户的偏好;比如我们发现某一堆用户浏览的页面都是在描述5-10万元的汽车,根据这些数据,我们可将符合这个价格区间的汽车定地的投放给这一堆用户;
比 如,近期我们选择了10个合作网站推广,那么该如何评估哪个网站效果好呢,仅看带了PV\UV数据是片面的,很有可能某个网站带来了大量的用户,但这些用 户在我们网站仅访问了一页或二页,并且之后也没有回访行为。如果是这样,我们可以说这个网站带来的用户没有价值,下次也就不会考虑与这个网站在合作。所以 我们在实际的运营过程中,在掌握PV\UV等宏观指标的同时,更要仔细研究分析平均访问页数、访问次数分数等细节指标。
希望这两个例子能起到抛砖引玉的作用,让数据更多的参与到公司的决策中。

小米渣:谢谢代鹏的两个例子,我个人认为领导层的决策应该会参考网站内部的数据以及网站外部数据,内部数据更能了解一个网站的内力,外部数据能够说明这个网站在行业内的影响达到了一个什么程度。只有明确了内力和外力现状才能更好的精准营销。
小米渣:再代表站长们请教一个数据运营中比较常见的问题,就是我们时常会发现某个长尾关键词带来了不小的流量,针对这种偶发现状,站长们应该怎样面对机遇和挑战,请代鹏给予建议?
云统计高代鹏:这是一个很好的问题,我也常听一些分析师提到,经常会发现一些用户通过搜索陌生的关键词来到网站,而这些关键词初看起来和网站并没有紧密的关系。每天通过互联网会产生大量的新词,如果能及时发现这些新词并与我们每天的运营结合起来,可能会起到意想不到的效果。
先提供2个发现新词的方式:1.通过百度和谷歌的搜索风云榜能及时发现社会热点关键词和话题;2. 通过云统计提供的行业热门帖子标签和用户站内搜索热点关键词。
该如何利用这些长尾关键词我觉得可阶段性的尝试与网站内容编辑结合起来,辅以SEO,并持续的跟踪监测,评估用户对这类内容的接受程度。

411月/11

数据分析站点导航

发布在 邵珠庆

 

中文博客站点

数据挖掘与分析

小蚊子乐园

数据挖掘与数据分析

数据挖掘者

未来趋势—车品觉

数据化管理

沈浩老师

数据文化

数据挖掘营销应用

郑来轶

ExcelPro的图表博客

数据元素

庖丁的小刀

让数据说话

Flystarhj的博客

数据小兵

SAS数据挖掘

数据&分析

统计软件学习

图说企业文化

诸葛小川

数据之路

数据分析与研究

 

 

 

 

 

>>>待补充

 

 

网站分析

网站数据分析

网站分析在中国

MAR’S 观点

上海WA官方组织

网站分析

Tenly的互联网哲学

在线广告分析

邮件营销在中国

香港网站分析

蓝鲸的网站分析笔记

搜索引擎营销

So Marketing博客

SOYAN天空

网站分析与电子商务

搜索营销智库

数据营销宝

芒果运营

Keven网站分析博客

像风一样自由

IWOM研究

CIC网络口碑

互联网营销博客

 

 

 

 

 

>>>待补充

 

用户研究

腾讯用户研究

UCD中国用户研究

淘宝用户研究

阿里用户研究

当当用户研究

支付宝用户研究

搜狐用户研究

顺网用户研究

网易用户研究

百度泛用户体验

口碑用户研究

5173用户研究

19楼用户研究

 

 

 

 

 

 

>>>待补充

中文互联网数据资料来源

 

平台机构

易观国际

互联网信息中心

淘宝数据平台

百度数据研究中心

艾瑞咨询

电子商务研究中心

IDC中国

百度数据中心

计世资讯

互联网数据中心

智库数据

梅花网

CNZZ数据中心

缔元信互联网数据

第一财经

中国经济网数据中心

投资界

赛迪顾问

 

 

 

 

 

>>>待补充

 

分析论坛

人大经济论坛

中国商业智能网

中国统计网

SAS爱好者

市场调研论坛

数据挖掘研究院

数据挖掘论坛

SAS中文论坛

沃顿知识在线

中国数据分析网

数据仓库之路

SPSS论坛

统计家园

BI Think商业智能网

统计之都

中文自然语言处理

智能中国网

 

 

>>>待补充

 

 

其他

月光博客

中国网站排名

业网内

游戏大观

36

互联网的那点事

洪波的偏见

亿邦电商

草根网

互联网的一些

游戏邦

关于营销的那点事

派代网

IT 商业新闻网

中文互联网数据资讯中心

 

 

 

>>>待补充

3110月/11

电子商务网站数据分析指标、名词定义与解析

发布在 邵珠庆

网站分析采用指标可能有各种各样,根据网站目标和网站客户不同,可以有许多不同指标来衡量。常用网站分析指标有内容指标和商业指标,内容指标指是衡量访问者活动指标,商业指标是指衡量访问者活动转化为商业利润指标。

一、网站分析内容指标

转换率 Take Rates (Conversions Rates)

计算公式:转换率=进行了相应动作访问量/总访问量

指标意义:衡量网站内容对访问者吸引程度以及网站宣传效果

指标用法:当你在不同方测试新闻订阅、下载链接或注册会员,你可以使用不同链接名称、订阅方式、广告放置、付费搜索链接、付费广告(PPC)等等,看看那种方式是能够保持转换率在上升?如何增强来访者和网站内容相关性?如果这个值上升,说明相关性增强了,反之,则是减弱。

回访者比率 Repeat Visitor Share

计算公式:回访者比率=回访者数/独立访问者数

指标意义:衡量网站内容对访问者吸引程度和网站实用性(出自 业务员网:www.yewuyuan.com),你网站是否有令人感兴趣内容使访问者再次回到你网站。

指标用法:基于访问时长设定和产生报告时间段,这个指标可能会有很大不同。绝大多数网站都希望访问者回访,因此都希望这个值在不断提高,如果这个值 在下降,说明网站内容或产品质量没有加强。需要注意是,一旦你选定了一个时长和时间段,就要使用相同参数来产生你报告,否则就失去比较意义。

积极访问者比率 Heavy User Share

计算公式:积极用户比率=访问超过11页用户/总访问数

指标意义:衡量有多少访问者是对网站内容高度兴趣

指标用法:如果你网站针对正确目标受众并且网站使用方便,你可以看到这个指标应该是不断上升。如果你网站是内容型,你可以针对不同类别内容来区分不同积极访问者,当然你也可以定义20页以上才算是积极访问者。

忠实访问者比率 Committed Visitor Share

计算公式:访问时间在19分钟以上用户数/总用户数

指标意义:和上一个指标意义相同,只是使用停留时间取代浏览页数,取决于网站目标,你可以使用两个中一个或结合使用。

指标用法:访问者时长这个指标有很大争议,这个指标应结合其它指标一起使用,例如转换率,但总体来说,较长访问时长意味着用户喜欢呆在你网站,高忠实访问率当然是较好。同样,访问时长也可以根据不同需要自行设定。

忠实访问者指数 Committed Visitor Index

计算公式:忠实访问者指数=大于19分钟访问页数/大于19分钟访问者数

指标意义:指是每个长时间访问者平均访问页数,这是一个重要指标,它结合了页数和时间。

指标用法:如果这个指数较低,那意味着有较长访问时间但是较低访问页面(也许访问者正好离开吃饭去了)。通常都希望看到这个指数有较高值,如果你修改了网站,增加了网站功能和资料,吸引更多忠实访问者留在网站并浏览内容,这个指数就会上升。

忠实访问者量 Committed Visitor Volume

计算公式:忠实访问者量=大于19分钟访问页数/总访问页数

指标意义:长时间访问者所访问页面占所有访问页面数量

指标用法:对于一个靠广告驱动网站,这个指标尤其值注意,因为它代表了总体页面访问质量。如果你有10000访问页数却仅有1%忠实访问者率,这意味着你可能吸引了错误访问者,这些访问者没有啥价值,他们仅仅看一眼你网页就离开了。这是你应该考虑是否广告词语产生了误解。

访问者参与指数 Visitor Engagement Index

计算公式:访问者参与指数=总访问数/独立访问者数

指标意义:这个指标是每个访问者平均会话(session),代表着部分访问者多次访问趋势。

指标用法:与回访者比率不同,这个指标代表着回访者强烈度,如果有一个非常正确目标受众不断回访网站,这个指数将大大高于1;如果没有回访者,指数 将趋近于1,意味着每一个访问者都有一个新会话。这个指数高低取决于网站目标,大部分内容型和商业性网站都希望每个访问者在每周/每月有多个会话 (session);客户服务尤其是投诉之类页面或网站则希望这个指数尽可能接近于1。

回弹率(所有页面)Reject Rate/Bounce Rate

计算公式:回弹率(所有页面)=单页面访问数/总访问数

指标意义:代表着访问者看到仅有一页比率

指标意义:这个指标对于最高进入页面有很重要意义,因为流量就是从这些页面产生,当你对网站导航或布局设计进行调整时尤其要注意到这个参数。总而你是希望这个比率不断下降。

回弹率(首页)Reject Rate/Bounce Rate

计算公式:回弹率(首页)=仅仅访问首页访问数/所有从首页开始访问数

指标意义:这个指标代表所有从首页开始访问者中仅仅看了首页访问者比率

指标意义:这个指标是所有内容型指标中最重要一个,通常我们认为首页是最高进入页面(当然,如果你网站有其他更高进入页面,那么也应该把它加入到追 踪目标中)。对任意一个网站,我们可以想象,如果访问者对首页或最常见进入页面都是一掠而过,说明网站在某一方面有问题。如果针对目标市场是正确,说明是 访问者不能找到他想要东西,或者是网页设计上有问题(包括页面布局、网速、链接文字等等);如果网站设计是可行易用,网站内容可以很容易找到,那么问题可 能出在访问者质量上,即市场问题。

浏览用户比率 Scanning Visitor Share

计算公式:浏览用户比率=少于1分钟访问者数/总访问数

指标意义:这个指标一定程度上衡量网页吸引程度。

指标用法:大部分网站都希望访问者停留超过一分钟,如果这个指标值太高,那么就应该考虑一下网页内容是否过于简单,网站导航菜单是否需要改进。

浏览用户指数 Scanning Visitor Index

计算公式:浏览用户指数=少于1分钟访问页面数/少于1分钟访问者数

指标意义:一分钟内访问者平均访问页数

指标用法:这个指数也接近于1,说明访问者对网站越没兴趣,他们仅仅是瞄一眼就离开了。这也许是导航问题,如果你对导航系统进行了显著改进,应该可以看到这个指数在上升;如果指数还是下降,应该是网站目标市场及使用功能有问题,应该着手解决。

将浏览用户比率和浏览用户指数结合起来使用,可以看出用户是在浏览有用信息还是厌烦而离开。

浏览用户量 Scanning Visitor Volume

计算公式:浏览用户量=少于1分钟浏览页数/所有浏览页数

指标意义:在一分钟内完成访问页面数比率

指标用法:根据网站目标不同,这个指标高低有不同要求,大部分网站希望这个指标降低。如果是搞广告驱动网站,这个指标太高对于长期目标是不利,因为这意味着尽管你通过广告吸引了许多访问者,产生很高访问页数,但是访问者质量却是不高,所能带来收益也就会受到影响。

二、网站分析商业指标

平均订货额 Average Order Amount (AOA)

计算公式:平均订货额=总销售额/总订货数

指标意义:用来衡量网站销售状况好坏

指标用法:将网站访问者转化为买家当然是很重要,同样重要是激励买家在每次访问是购买更多产品。跟踪这个指标可以找到更好改进方法。

转化率 Conversion Rate (CR)

计算公式:转化率=总订货数/总访问量

指标意义:这是一个比较重要指标,衡量网站对每个访问者销售情况

指标用法:通过这个指标你可以看到即使一些微小变化都可能给网站收入带来巨大变化。如果你还能够区分出新、旧访问者所产生订单,那么就可以细化这个指标,对新旧客户进行分别统计。

每访问者销售额 Sales Per Visit (SPV)

计算公式:每访问者销售额=总销售额/总访问数

指标意义:这个指标也是用来衡量网站市场效率

指标用法:这个指标和转化率差不多,只是表现形式不同。

单笔订单成本 Cost per Order (CPO)

计算公式:单笔订单成本=总市场营销开支/总订货数

指标意义:衡量平均订货成本

指标用法:每笔订单营销成本对于网站盈利和现金流都是非常关键。营销成本计算各人有不同标准,有些把全年网站营运费用摊入到每月成本中,有些则不这么做,关键要看那种最适合自己情况。如果能够在不增加市场营销成本情况下提高转化率,这个指标就应该会下降。

再订货率 Repeat Order Rate (ROR)

计算公式:再订货率=现有客户订单数/总订单数

指标意义:用来衡量网站对客户吸引力

指标用法:这个指标高低和客户服务有很大关系,只有满意用户产品体验和服务才能提高这个指标。

单个访问者成本 Cost Per Visit (CPV)

计算公式:单个访问者成本=市场营销费用/总访问数

指标意义:用来衡量网站流量成本

指标用法:这个指标衡量是你市场效率,目标是要降低这个指标而提高SPV,为此要将无效市场营销费用削减,增加有效市场投入。

订单获取差额 Order Acquisition Gap (OAG)

计算公式:订单获取差额=单个访问者成本(CPV)-单笔订单成本(CPO)

指标意义:这是一个衡量市场效率指标,代表着网站所带来访问者和转化访问者之间差异

指标用法:指标值应是一个负值,这是一个测量从非访问者中获客户成本。有两种方法来降低这个差额,当你增强了网站销售能力,CPO就会下降,这个差 额就会缩小,说明网站转化现有流量能力到了加强;同样,CPV可能升高而CPO保持不变或降低,这个差额也会缩小,表明网站所吸引流量都具有较高转化率, 这种情形通常发生在启用了PPC(pay per click)计划。

订单获取率 Order Acquisition Ratio (OAR)

计算公式:订单获取率=单笔订单成本(CPO)/单个访问者成本(CPV)

指标意义:用另一种形式来体现市场效率

指标用法:用比率形式往往比较容易为管理阶层所理解,尤其是财务人员。

每笔产出 Contribution per Order (CON)

计算公式:每笔产出=(平均订货数X平均边际收益)-每笔订单成本

指标意义:每笔订单给你带来现金增加净值

指标用法:公司财务总监总是对这个指标感兴趣,代表了你花了多少钱来赚多少钱。

投资回报率 Return on Investment (ROI)

计算公式: 投资回报率=每笔产出(CON) /每笔订单成本 (CPO)

指标意义: 用来衡量你广告投资回报

指标用法:比较你广告回报率,应该把钱分配给有最高回报率广告,但是这个回报率应当要有时间段限制,比如“25% RIO/每周”和“25% RIO/每年”是有很大差别。

149月/11

分享一篇文章:我的职业理想:成为数据分析师

发布在 邵珠庆

很不错的文章,建议大家都看看,特别是菜鸟们!

       我小时候的理想是将来做一名数学家,可惜长大了发现自己天赋不够,理想渐行渐远,于是开始考虑现实,开始做一些人生规划,我一直在思考将来从事何种职业,专注什么样的领域,重新定义着自己的职业理想。我现在的职业理想,比较简单,就是做一名数据分析师。

 

我的职业理想:成为数据分析师(Z)

 

为什么要做数据分析师:

在通信、互联网、金融等这些行业每天产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等),据说到2020年,全球每年产生的数据量 达到3500万亿GB;海量的历史数据是否有价值,是否可以利用为领导决策提供参考依据?随着软件工具、数据库技术、各种硬件设备的飞快发展,使得我们分 析海量数据成为可能。

 

而数据分析也越来越受到领导层的重视,借助报表告诉用户什么已经发生了,借助OLAP和可视化工具等分析工具告诉用户为什么发生了,通过 dashboard监控告诉用户现在在发生什么,通过预报告诉用户什么可能会发生。数据分析会从海量数据中提取、挖掘对业务发展有价值的、潜在的知识,找 出趋势,为决策层的提供有力依据,为产品或服务发展方向起到积极作用,有力推动企业内部的科学化、信息化管理。

 

我们举两个通过数据分析获得成功的例子:

(1) Facebook广告与微博、SNS等网络社区的用户相联系,通过先进的数据挖掘与分析技术,为广告商提供更为精准定位的服务,该精准广告模式收到广大广 告商的热捧,根据市场调研机构eMarketer的数据,Facebook年营收额超过20亿美元,成为美国最大的在线显示广告提供商。

(2) Hitwise发布会上,亚太区负责人John举例说明: 亚马逊30%的销售是来自其系统自动的产品推荐,通过客户分类,测试统计,行为建模,投放优化四步,运营客户的行为数据带来竞争优势。

 

此外,还有好多好多,数据分析,在营销、金融、互联网等方面应用是非常广泛的:比如在营销领域,有数据库营销,精准营销,RFM分析,客户分群,销量预测 等等;在金融上预测股价及其波动,套利模型等等;在互联网电子商务上面,百度的精准广告,淘宝的数据魔方等等。类似成功的案例会越来越多,以至于数据分析 师也越来越受到重视。

 

然而,现实却是另一种情况。我们来看一个来自微博上的信息:在美国目前面临14万~19万具有数据分析和管理能力的专业人员,以及150万具有理解和决策 能力(基于对海量数据的研究)的管理人员和分析人员的人才短缺。而在中国,受过专业训练并有经验的数据分析人才,未来三年,分析能力人才供需缺口将逐渐放 大,高级分析人才难寻。也就是说,数据分析的需求在不断增长,然而合格的为企业做分析决策的数据分析师却寥寥无几。好多人想做数据分析却不知道如何入手, 要么不懂得如何清洗数据,直接把数据拿来就用;要么乱套模型,分析的头头是道,其实完全不是那么回事。按俗话说就是:见过猪跑,没吃过猪肉。

 

我的职业规划:

对于数据分析,有一句话说的非常好:spss/sql之类的软件、决策树、时间序列之类的方法,这些仅仅就都是个工具而已,最重要的是对业务的把握。没有 正确的业务理解,再牛的理论,再牛的工具,都是白搭。做一名合格的数据分析师,除了对数据需要有良好的敏感性之外,对相关业务的背景的深入了解,对客户或 业务部门的需求的清晰认识。根据实际的业务发展情况识别哪些数据可用,哪些不适用,而不是孤立地在“真空环境”下进行分析。

 

为此,我对自己的规划如下:

第一步:掌握基本的数据分析知识(比如统计,概率,数据挖掘基础理论,运筹学等),掌握基本的数据分析软件(比 如,VBA,Matlab,Spss,Sql等等),掌握基本的商业经济常识(比如宏微观经济学,营销理论,投资基础知识,战略与风险管理等等)。这些基 础知识,在学校里尽量的学习,而且我来到了和君商学院,这样我可以在商业分析、经济分析上面领悟到一些东西,增强我的数据分析能力。

第二步:参与各种实习。研一开始我当时虽然有课,不过很幸运的找到一份一周只需去一两天的兼职,内容是为三星做竞争对手分析,当然分析框架是leader 给定了,我只是做整合资料和往ppt里填充的内容的工作,不过通过兼职,我接触到了咨询行业,也向正式员工学习了很多商业分析、思考逻辑之类的东西。之后 去西门子,做和VBA的事情,虽然做的事情与数据分析无关,不过在公司经常用VBA做一些自动化处理工作,为自己的数据分析工具打好了基础。再之后去了易 车,在那里兼职了一个多月,参与了大众汽车销量数据短期预测的项目,一个小项目下来,数据分析的方法流程掌握了不少,也了解了企业是如何用一些时间序列模 型去参与预测的,如何选取某个拟合曲线作为预测值。现在,我来到新的地方实习,也非常幸运的参加了一个央企的码头堆场优化系统设计,其实也算数据分析的一 种吧,通过码头的数据实施调度,通过码头的数据进行决策,最后写成一个可操作的自动化系统。而这个项目,最重要的就是业务流程的把握,我也参与项目最初的 需求调研,和制定工作任务说明书SOW,体会颇多。

第三步:第一份工作,预计3-5年。我估计会选择咨询公司或者IT公司吧,主要是做数据分析这块比较强的公司,比如Fico,埃森哲,高沃,瑞尼 尔,IBM,AC等等。通过第一份工作去把自己的知识打得扎实些,学会在实际中应用所学,学会数据分析的流程方法,让自己成长起来。

第四步:去自己喜欢的一个行业,深入了解这个行业,并讲数据分析应用到这个行业里。比如我可以去电子商务做数据分析师。我觉得我选择电子商务,是因为未来 必将是互联网的时代,电子商务必将取代传统商务,最显著的现象就是传统零售商老大沃尔玛正在受到亚马逊的挑战。此外,电子商务比传统的零售商具有更好的数 据收集和管理能力,可以更好的跟踪用户、挖掘潜在用户、挖掘潜在商品。

第五步:未知。我暂时没有想法,不过我希望我是在一直的进步。

 

有一位数据分析牛人曾经总结过数据分析师的能力和目标:

能力:一定要懂点战略、才能结合商业;一定要漂亮的presentation、才能buying;一定要有global view、才能打单;一定要懂业务、才能结合市场;一定要专几种工具、才能干活;一定要学好、才能有效率;一定要有强悍理论基础、才能入门;一定要努力、才能赚钱;最重要的:一定要务实、才有reputation;不懂的话以后慢慢就明白了。

目标:1-做过多少个项目?2-业务背景有哪些,是否跨行业?3-做过多少种类型的模型?做了多少个模型?4-基于模型做过多少次完整的marketing闭环?以上四个问题,足以秒杀95%以上的忽悠和菜鸟!

我仅以此为努力之坐标,时刻提醒自己。

路在前方,漫漫前行。

 

 

248月/11

海量数据的处理分析经验

发布在 邵珠庆

在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:

一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一 检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据 中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。
二、软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就 是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内 存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。
那么处理海量数据有哪些经验和技巧呢,我把我所知道的罗列一下,以供大家参考:
一、选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使 用Oracle或者DB2,微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要, 例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
二、编写优良的程序代码
处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
三、对海量数据进行分区操作
对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不 同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷, 而且还可以将日志,索引等放于不同的分区下。
四、建立广泛的索引
对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的 分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表 时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚 集索引都要考虑。
五、建立缓存机制
当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
六、加大虚拟内存
如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇 到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个 4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M,解决了数据处理中的内存不足问题。
七、分批处理
海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。 可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因 势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
八、使用临时表和中间表
数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完 成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果 处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
九、优化查询SQL语句
在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的, 编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或 不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
十、使用文本格式进行处理
对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作 数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的 海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
十一、       定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。
十二、       建立视图或者物化视图
视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
十三、       避免使用32位机子(极端情况)
目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
十四、       考虑操作系统问题
海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。
十五、       使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
十六、       使用采样数据,进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采 用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2 千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。
还有一些方法,需要在不同的情况和场合下运用,例如使用代理键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。
海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。