互联网/电子商务数据分析师的十大误区
对于火爆的互联网/电子商务行业,我们需要的是建立起通过数据驱动的商业模式。即我们需要的是有经验的数据分析师,对于运营数据进行解读和分析——确定网站和客户是否为正常的运行,同时发掘其中存在的问题。以下是数据分析师经常犯的错误列表:
一、 数据分析报告中呈现的是已知的结论和经验——重复别人的路
二、 数据分析报告不能够解决任何商业问题——做没有意义的分析
三、 数据分析报告中的原始数据不准确(缺失&错误)
四、 市场营销和效果评估报告的本质在于客户的细分——不懂业务和市场,不会细分!
五、 数据分析报告仅仅在于陈述事实,而非发掘原因
六、 迷信于网站统计分析系统越多越完善,殊不知不同的系统的统计标准并非一致
七、 没有明确网站的统计指标是一个整体的系统——没有建立科学和合理的评估指标体系
八、 数据分析报告超过“一百页”,但是却没有明确的建议——劳民&伤财
九、 对于 Google Analytics的基本使用和安装,还需要寻求外援——没有掌握基本的网站统计分析工具
十、 整理 Google Analytics的仪表盘报告,期待着别人解读数据意义——网站分析师的“钱”有那么容易赚的么?
商务智能的发展-未来的研究方向
一、 商务智能(BI),商业智慧(BI)的发展方向:
BI新走向之一:融合加强,演变成门户化
BI新走向之二:日趋“傻瓜”,体现人性化
BI新走向之三:移动BI将成为新战场
BI新走向之四:在云中部署BI,成为主流方向
BI新走向之五:SaaSBI日渐雄起,受中小企业青睐
BI新走向之六:可视化技术呈亮点,交互式分析助推BI
BI新走向之七:外部信息将整合到内部BI中,内外网信息并联互动
二、 智能的搜索引擎研究方向:
查询聚类(Query clustering)
查询意图识别(Query intent recognition)
查询推荐(Query suggestion)
查询改写(Query rewriting),具体包括:
查询同义变换(Query paraphrasing)
查询扩展(Query expansion)
查询缩略(Query reduction)
查询纠错(Query error correction)
学习排序(Learning to rank)
个性化搜索(Personalized search)
命名实体挖掘(Named entity mining)
本体知识库构建(Ontology construction)
三、 商务智能(BI),人工智能(AI)的研究方向:
1. 基于大规模机器学习的排序算法(Machine Learning to Rank)
排序算法是搜索技术的核心之一,基于机器学习排序算法将机器学习技术应用于排序问题。研究内容包括但不限于:
排序算法的分布式训练
排序算法的在线学习(online learning)
排序算法的在线预测速度提升
多目标优化的排序算法
2. 海量特征设计(large scale feature engineering)
特征设计在机器学习系统中扮演着至关重要的作用。但当面临海量数据时,往往特征数量也会是海量的,这时如何做好特征选择、特征组合等工作,与小规模时相比会复杂很多。研究内容包括但不限于:
海量特征自动选择
海量特征自动组合
3. 高效训练样本获取(Label Complexity Reduction)
机器学习算法要求大量的高质量的标注样本,然而标注样本耗时耗力,并且在样本到达一定量 后,对样本量的需求增幅远大于训练效果提升,如何高效地获取良好样本是一个挑战。海量互联网数据下的LTR的样本获取、多语言学习任务背景下标注样本的获 取、网页/网站/query等的分类或聚类所需样本等是高效样本获取方法的应用场景。本方向的问题包括但不限于:
通过主动学习(Active learning)加速标注流程
通过迁移学习/多任务学习(Transfer learning/multi-task learning) 利用其他领域的知识和标注样本来提升另一领域的学习效果
通过半监督学习(Semi-supervised learning),考虑如何利用少量的标注样本和大量的未标注样本进行分类和聚类,相关问题有半监督学习的算法改进、半监督学习的在线学习 (Online-learning)或者增量学习(incremental-learning)算法等
4. 规则系统与机器学习系统的整合 (Integration of rule-based system and learning-based system)
规则系统和学习系统一直是人工智能实现方法的两个分支,二者各有优劣。规则系统更擅长高频和训练数据稀疏部分,而学习系统的泛化能力更出色。如何结合两者的优势,规避各自的缺点,是我们希望探讨的地方。研究内容只要与两个系统的整合相关即可。
5.海量数据的主题模型(Topic-model on large scale data)
主题模型主要使用大规模的文档—词汇共现(co-occurrence) 矩阵,例如1亿*100万的矩阵来建模文档和词汇间的潜在联系。研究内容包括但不限于:
主题模型的建模改进
主题模型的在线学习(Online learning)或者增量学习(incremental learning)
主题模型训练过程的大规模并行优化
主题模型的应用
6.推荐系统(recommender system)
推荐系统有着广泛的应用,如搜索引擎和电子商务网站以各种方式使用着推荐系统。在百度的 应用即包括在搜索、知道、音乐、贴吧等用户产品内及产品间的推荐,也包括面向搜索请求推荐广告、面向广告商推荐关键词等。不同应用场景的应用目标和数据量 存在较大差异,对于推荐算法本身也存在不同要求。在本领域的研究包括但不限于:
推荐系统的设计
推荐算法的改进
推荐效果的评估
个性化推荐
7. 点击模型(Click Model)
百度拥有中国搜索引擎市场上最丰富的用户数据,点击模型将极大提升用户对搜索的需求满意度。研究内容包括但不限于:
用户行为数据清洗
用户行为分析和建模
用户行为用于评测
8.网页多分类学习
互联网中网页资源可以按照不同的维度划分成不同的类型,而且一个网页可能兼有多个维度的类型标记。该方向的主要目标就是:如何自动高效地为网页进行分类标记。研究内容包括但不限于:
网页分类的机器学习模型研究:二分类/多分类/多标记学习/无监督学习等
主题/资源/结构分类特征挖掘
模型的跨语言通用性研究
9.基于海量网页的结构化信息自动抽取研究
WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取转换成结构化数据。研究内容包括但不限于:
结构化信息自动抽取方法改进
抽取规则生成表示优化
10.观点挖掘、情感分析(opinion mining and sentiment analysis)
观点挖掘、情感分析主要是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。研究内容包括但不限于:
情感分析的算法改进
情感分析在大规模数据(博客、微博、新闻评论、商品评论)中的应用
情感分析在推荐中的应用
11. 基于机器学习的反作弊研究(fraud detection based on machine learning)
基于机器学习的反作弊研究内容包括但不限于:
自动训练数据标注
作弊特征分析
在线实时作弊检测
离线批量数据评估
Google Analytics基本异步跟踪代码运作原理
Google Analytics异步跟踪代码,以基本跟踪代码作为数据跟踪与传递的基础。在此基础之上,根据网站业务数据需求,您可以自定义设置跨域跟踪、添加直接流 量站点、添加搜索引擎设置、事件跟踪、虚拟跟踪等功能。异步基本跟踪代码,作为数据跟踪与传递的基础,肩负着向Google Analytics服务器传递网站访客访问数据的重大责任。
知其然,才能知其所以然。了解了GA的运作原理,才能对其更好的运用,否则心里会老是有一块茫然(在我心里,就是这样的
)。到底Google Analytics基本异步跟踪代码,是如何运作的呢,如何将我们网站访客的数据呈现在各类报告中的呢?本文将对其运作原理做详细介绍。
原理说明
异步代码加载速度快、数据更准确的功劳都应归功于_gaq对象,它采用队列“先进先出”的数据结构,先按照先后顺序收集好各类命令及函数的API调用,以便ga.js加载完成后按照同样的顺序处理这些调用请求,即“谁先申请,先被收集,而后先被处理”。
Google Analytics API的调用
API调用时采用_gaq.push方法,将API调用申请推送到_gaq对象队列中被收集。而被推送收集的API调用包括:JavaScript命令数 组、函数。其中,命令数组由被调用的跟踪器对象方法名称、传送给跟踪器对象方法的参数组成,也就是我们设置的各类定制跟踪,包括事件跟踪、跨域跟踪、添加 搜索引擎等等。

图三:_gaq对象及API调用推送命令数组(申请API调用)
_gaq.push(['setAccount', 'UA-XXXXX-X']);
推送函数(申请API调用)
_gaq.push(function() {
var pageTracker = _gat._getTrackerByName('myTracker');
var link = document.getElementByIdx_x('my-link-id');
link.href = pageTracker._getLinkerUrl('http://example.com/');
});
_gaq跟踪器对象的创建
当页面中第一个命令数组以_gap.push方法,申请API调用时会执行以下流程:
首先,调用var _gaq = _gaq || [];,创建_gaq跟踪器对象(并通过_gaq.push(['setAccount', 'UA-XXXXX-X']);绑定到指定的GA网络载体ID),同时各类跟踪器对象方法处于可调用状态,包括事件跟踪、跨域跟踪等方法;
其次,推送新建的_gaq跟踪器对象方法,传递相应参数,提交API调用申请。
最后,其余跟踪方法的API调用申请都被推送收集到_gap对象时,会调用_gaq.push(['_trackPageview']);执行最后一次推送,并由此方法提交将全部API调用申请提交给ga.js处理。
Ga.js处理各类API调用
在各类API申请被收集的同时,以下代码会判断站点的网络协议(安全 HTTP 协议或标准 HTTP 协议),并调用访客缓存中的ga.js(若有)或从GA服务器下载ga.js。ga.js加载完成后,会立即处理所有API调用申请、更新/读取访客cookie数据。
(function() {
var ga = document.createElement_x('script'); ga.type = 'text/javascript'; ga.async = true;
ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
var s = document.getElementsByTagName_r('script')[0]; s.parentNode.insertBefore(ga, s);
})();
Google Analytics数据传输日志
Ga.js将所有所得数据,包括访问者IP、网站域名、请求URI、页面名称、访客浏览器/操作系统信息、事件设置、自定义变量设置、访客ID、访问次 数、访问时间、流量来源等等,赋给对应的utm变量,并将所有utm参数值对作为__utm.gif图片调用参数,写入到GA服务器端__utm.gif 图片的调用日志中,向GA服务器发送数据。GA再对日志进行数据处理、分析,生成我们所看到的各类报告。
http://www.google-analytics.com/__utm.gif?utmwv=4&utmn=769876874&utmhn=example.com&utmcs=ISO-8859-1&utmsr=1280x1024&utmsc=32-bit&utmul=en-us&utmje=1&utmfl=9.0 r115&utmcn=1&utmdt=GATC012 setting variables&utmhid=2059107202&utmr=0&utmp=/auto/GATC012.html?utm_source=www.gatc012.org&utm_campaign=campaign+gatc012&utm_term=keywords+gatc012&utm_content=content+gatc012&utm_medium=medium+gatc012&utmac=UA-30138-1&utmcc=__utma=97315849.1774621898.1207701397.1207701397.1207701397.1;...
| 变量 | 说明 | 示例值 |
| utmac | 帐户字符串。在所有请求中显示。 | utmac=UA-2202604-2 |
| utmcc | Cookie 值。此请求参数将发送从网页中请求的所有 Cookie。 | utmcc=__utma=117243.1695285.22;+ __utmz=117945243.1202416366.21.10. utmcsr=b| utmccn=(referral)| utmcmd=referral| utmcct=%2Fissue;+ |
| utmcn | 开始一个新的广告系列会话。utmcn 或 utmcr 存在于任何给定请求中。更改广告系列跟踪数据;但不启动新会话。 | utmcn=1 |
| utmcr | 指示重复的广告系列访问。当对相同链接进行后续点击时,系统就会设置该变量。utmcn 或 utmcr 存在于任何给定请求中。 | utmcr=1 |
| utmcs | 浏览器的语言编码。有些浏览器不设置此变量,在这种情况下该变量将设置为“-”。 | utmcs=ISO-8859-1 |
| utmdt | 网页标题,是一个网址编码字符串。 | utmdt=analytics page test |
| utme | 可扩展参数 | 值已编码,用于事件和自定义变量。 |
| utmfl | Flash 版本 | utmfl=9.0 r48& |
| utmhn | 主机名,是一个网址编码字符串。 | utmhn=x343.gmodules.com |
| utmipc | 产品代码。这是给定产品的 SKU 代码。 | utmipc=989898ajssi |
| utmipn | 产品名,是一个网址编码字符串。 | utmipn=tee shirt |
| utmipr | 单价。在物品级别设置。值为数字且仅使用美国货币格式。 | utmipr=17100.32 |
| utmiqt | 数量。 | utmiqt=4 |
| utmiva | 某个物品的不同版本。例如:大、中、小、粉红色、白色、黑色、绿色。字符串为网址编码。 | utmiva=red; |
| utmje | 指示浏览器是否启用了 Java 支持。1 表示启用。 | utmje=1 |
| utmn | 为每个 GIF 请求生成的唯一 ID,用于防止 GIF 图片缓存。 | utmn=1142651215 |
| utmp | 当前网页的网页请求。 | utmp=/testDirectory/myPage.html |
| utmr | 引荐,完整的网址。 | utmr=http://www.example.com/aboutUs/index.php?var=selected |
| utmsc | 屏幕颜色深度 | utmsc=24-bit |
| utmsr | 屏幕分辨率 | utmsr=2400x1920& |
| utmt | 指示请求的类型,包括:事件、交易、物品或自定义变量。如果 GIF 请求中不存在此值,则请求的类型为网页。 | utmt=event |
| utmtci | 帐单邮寄地址所在城市 | utmtci=San Diego |
| utmtco | 帐单邮寄地址所在国家/地区 | utmtco=United Kingdom |
| utmtid | 订单 ID,为网址编码字符串。 | utmtid=a2343898 |
| utmtrg | 帐单邮寄地址所在区域,为网址编码字符串。 | utmtrg=New Brunswick |
| utmtsp | 运费,单位和价格的值。 | utmtsp=23.95 |
| utmtst | 关联企业。通常用于电子商务中的实体商户。 | utmtst=google mtv store |
| utmtto | 总计。单位和价格的值。 | utmtto=334.56 |
| utmttx | 税款。单位和价格的值。 | utmttx=29.16 |
| utmul | 浏览器语言。 | utmul=pt-br |
| utmwv | 跟踪代码版本 | utmwv=1 |
以上就是Google Analytics基本异步跟踪代码的运作原理啦,可能有点复杂,有什么疑问就给我留言吧,一定知无不言
。
业务分析师在敏捷项目中的作用
敏捷软件开发实践的文化中存在着一个断层,该断层同样体现在许多敏捷团队中。这个断层就是业务分析人员在敏捷项目中的角色——谁来担任这个角色?它 的作用 和价值是什么?它又是如何发生改变的?这种情况的潜台词(其实我曾至少听人说过一次)就是:“我们不需要什么见鬼的分析师!”。无需赘言,我当然认为这是 大错特错!在本文中,我证明如下观点:只要以正确的方式向业务看齐,业务分析师就可以帮助敏捷团队成功,而不是像大多数情况那样以开发团队为导向。
为什么要有业务分析师这个角色?
我的观点是:没有业务分析人员,就会发生真的断层。举例来说:
- 谁会注意最大的组织问题?
- 为了高效工作,用户(可怕的词汇——不过这是另外一个话题了)有自己的需求,而管理层(说到底,他们是为开发软件买单的“客户”)的要求可能与之冲突,谁去识别这种潜在的冲突?
- 假如现在有1500人以目前现有的方式工作,如果我们实施了新的软件之后,他们的工作模式会发生很大变化,谁来发现这样的事情?
- 当组织的工作流程因为新软件的实施而发生改变时,有些人要负责设计新的工作流程,以保证业务可以继续顺利运转,那么谁来帮助这些人?
- 与客户交互不当产生的潜在业务损失,谁来发现?
- 我可以继续举例,不过我想你应该有概念了。
在Agile 2008大会上,Alan Cooper做了一个很棒的演讲,他热情洋溢地提到:敏捷项目中需要包含互动设计的工作,要有人能够理解人的行为、而且可以确保相关的产品能够在现实世界中有效工作。
我的观点是:最理想、最有效的做法,是由业务分析师承担这个职责;而且我们应该一直这样做。我们接受培训,部分上也是处于这个目的:理解更广泛的业务需求,并向负责技术的团队以他们可以理解的方式解释这些需求。一直以来,业务分析师一直充当客户需求的守护神。
业务分析师可以帮助团队成功
我 坚信:对业务分析师角色的轻视,是如今众多敏捷团队的严重问题。在很多组织中,由于缺乏组织架构和管理层的支持,分析师的职能被削弱了,他们无法完全体现 自己的价值。业务分析师应被视为客户的代言人,并加入以业务为核心的解决方案提供团队,而不是技术的提供者。在面对问题时,业务分析师能够带来不同的视角 和理解,因此他们应该被授以足够的权力、信任和感谢,他们应向负责业务改进的人员和部门报告自己的工作,而不是去报告给信息技术团队。在这样的组织结构 中,业务分析师将会给予足够的权限,以提升业务价值为明确目标,推荐项目的变化向这个目标努力;而不仅仅只是作为技术团队的一部分,被看做“技术的跟屁虫 ”。
那系统分析师又该如何?
注意这里的区别:我们所说的是业务分析师,而不是系统分析师。“系统分析师”是干什么的?虽然在多数情况下,系统分析师的技能足以有效地完成业务分 析相关 的工作,我还是要区分开这两个角色,因为他们的角度不同——业务分析师的重点放在对业务需求的理解之上,并受其驱动;而系统分析师却常常从相反的角度考 虑,他们主要思考基于技术的解决方案,有时提出的方案甚至不利于真正解决业务问题(“Wow,我已经告诉你解决方案了!”)。系统分析师可以成为好的业务 分析师,但是他们一定要小心,必须压抑自己提出技术建议的冲动。
要业务分析师干什么?我们需要“客户”
业务分析师愿意花时间去接近 不同的“利益相关者”,也就是那些代表公司或组织、关心业务变更成功交付的人。业务分析师要理解多种不同维度的业务需求;与管理层讨论总体方向和目标;法 务部门一起工作,看看新的或是变更后的业务流程会产生哪些法务上的影响;跟后勤部门一起工作,识别办公空间或仓库布局的变化,理解流程变化对于物流、产品 直到发货过程的潜在影响;还要跟行政人员一起,搞清楚新的审核过程可能造成哪些潜在的瓶颈……以及诸如此类的事情。
分析调研进行到某个时间点时,我们会发现:要解决某个业务问题,就得在技术上想办法。此时,业务分析师的角色会有点变化,我们要加入到技术可行性的 讨论之 中,要决定是“构建vs购买”,或是决定内包还是外包。在这个阶段中,传统的业务分析师就会参与业务案例的制定,组织在实施敏捷时可以借助这些案例;至于 对项目的判断,要看它们能够为组织带来哪些业务上的好处。如果没有这个价值取向,为了管理敏捷待办事项列表而正在进行的优先级排定工作,可能就会缺乏对项 目愿景的全面理解,从而导致需求出现问题。
上述决策确定之后,而且组织也打算在技术上投入一定资金,此时业务分析师的角色就又变了,成为了需求的 看护者、用户故事的收集者和指导者。业务分析师也是在此时积极参与到敏捷项目中,并成为敏捷软件开发项目团队的重要成员,代表客户和最终用户,并与其他团 队成员协作,以达成明确的业务需求,使其受益于基于技术的解决方案。
业务分析师与项目团队一起工作,保证用户故事的正确实现。对于团队来说,他们是客户的代言人,推进用户故事的详细说 明。在面对更广泛的利益相关者群体时,他们充当项目的代言人,负责在正确的时间将客户正确的声音传达给项目团队。一般来说,这里的“客户”,在很多敏捷相 关的文化中都有提到,并不是一个单一的个人,而是表示很多“利益相关者”构成的群体。这群人构成多样,经常意见相左,互相角力,有时甚至彼此敌对。他们对 于业务需求和“完成”的定义经常充满分歧。
看完上面这段话,你是不是觉得我不相信“现场客户”的作用?绝 对不是!我120%地坚信:敏捷开发过程要想成功,我们必须有现场客户。我们所面对的挑战在于:有太多不同客户的声音,经常向团队发出彼此冲突的命令。在 整个项目中,业务分析师必须随时能够从这些“噪音”中过滤出有用的信号,并识别出那个时刻哪个客户适于作为代表。
那么业务分析师到底是干嘛的?
在 敏捷项目中,业务分析师也是用户故事的守护者。他们会引导发现过程,并促进团队之间的沟通,通过提出“如果……会怎么样?”之类调查性的问题帮助客户代 表;而这些问题来自于他们对项目发端因素的广泛调查, 对于利益相关者群体的印象,以及对于组织正式结构之下错综复杂的政治和人际关系的理解。他们还有能力接触出资方,争取机会访问真实的客户(这些人是真正为 系统提供的服务付钱的人),知道应该怎么做才能形成竞争优势,让客户满意,并最终让组织取得商业上的成功。
业 务分析师要广泛掌握调研和人际交往技能,掌握使用批判性思维和怀疑思考的能力,还要使用多种多样的建模技巧和其他工具,帮助客户代表发现构成系统的故事范 围。业务分析师还能帮助客户代表用清晰易懂的方式表达这些故事,从而让“完成”的含义一目了然,同时与测试人员和客户代表共同工作,帮人们看清用户故事必 须要具备的验收条件。
最好的业务分析师会参与故事各个方面的讨论,并积极加入到系统的交互设计过程中。他们深刻理解用户群体与系统交互的多种方式,知道不同需求之间的分歧,并可以平衡这些分歧,让系统在设计上满足不同利益相关者的要求。
敏 捷业务分析师也是设计师,他们对系统的理解远不仅仅是识别和记录需求文档这么简单。他们知道屏幕上的功能流程背后意味着什么,也能保证系统的流程符合人们 实际的工作流程。颜色和字体、屏幕的界面布局和响应时间,这些因素对系统使用者的工作效率会产生哪些影响,敏捷业务分析师都了如指掌。他们寻找一切机会创 建人们愿意使用的、真正实用的系统,并愿意引导开发人员构建符合人的直觉和自然使用习惯的用户界面。在理想状况下,用户界面会让人觉得似乎消失不见了,因 为它们非常易用,操作人员甚至感觉不到界面的存在。
传统的分析方法,希望在弄明白“怎么做”之前先搞清楚要“做什么”。可这不适用于敏捷项目。敏捷开发过程有一种与生俱来的工作方式,就是在一个高效的迭代开发周期之中,我们总是要通过“怎么做”的过程来知道“做什么”。
在处理系统与用户互动的界面工作时,系统的外观和感觉很重要,敏捷业务分析师能将这方面的工作清晰地展现出来,使其得到团队的重点关注。
敏捷业务分析师要确保真正的业务价值得到发掘和展现,他们要跟项目团队和客户代表一起找到这些价值,这可以使得所有人的工作都变得更加简单、高效,同时达成客户的满意度和“粘性”。我们的客户也就会一而再、再而三地跟我们反复做生意。
谁应扮演业务分析师的角色?
在 Scrum项目中,产品负责人或首席客户推广人员最适于充当敏捷业务分析师。因为他们有足够的权力,也能得到相应支持,足以代表客户。这些分析师要积极参 与管理产品待办事项列表,并识别产品功能的优先级。此外,还要构建与业务利益相关者的良好关系,同时理解技术实现的可行性;有了这些作为基础,业务分析师 就可以积极参与项目价值的交付过程。敏捷业务分析师必须要成为业务项目团队的积极成员,还得努力做出贡献;而不仅仅是试着产生一长串带有“应该”之类词汇 的句子;还要代表、放大、守护许许多多客户的声音,提出“你们有没有想过……”这样艰难的问题,从而保证我们交付的产品可以达成客户多样化、相互牵制的需 求;还要基于以往和眼下的用户故事,与整个项目团队一起讨论和互动,以理解并识别缺陷、流程和问题。
业务分析师角色对于项目的成功不可或缺
技术是为了满足人的需要而存在,而不是成为人的需要!
——Malcolm Watson, 墨尔本Pronto软件公司开发经理
业务分析师人群应该走上前台,成为敏捷协作团队的积极参与者,因为他们力图创建可以交付真正的价值和客户满意度的系统。主动承担“业务分析师”的角 色,将 问题拆分成各个组成部分,理解真正的潜在需要,然后成为项目团队的积极参与者;这样交付的解决方案,能够创建出真正的竞争优势,提升客户满意度!
谁是我指出的这些“业务分析师”?
国际业务分析师协会(IIBA)指出:业务分析师“要充当各个利益相关者之间的联系人,从而提炼、分析、构成、验证与业务流程、方针政策、信息系统的变更相关的需求”。
业务分析师要承担“万能沟通者”的角色,以清晰有力的方式理解并表述出不同利益相关者考虑问题的角度,协助业务人员发现模糊的潜在需求并使其逐渐清晰,从而识别出真正有附加值的需求。
5W2H分析法
5W2H分析法
5W2H分析法又叫七何分析法,是二战中美国陆军兵器修理部首创,简单、方便,易于理解、使用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。
5W2H分析法简介
5W2H法是第二世界大战中美国陆军兵器修理部首创。简单、方便,易于理解、使用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。
(1) WHY——为什么?为什么要这么做?理由何在?原因是什么?
(2) WHAT——是什么?目的是什么?做什么工作?
(3) WHERE——何处?在哪里做?从哪里入手?
(4) WHEN——何时?什么时间完成?什么时机最适宜?
(5) WHO——谁?由谁来承担?谁来完成?谁负责?
(6) HOW——怎么做?如何提高效率?如何实施?方法怎样?
(7) HOW MUCH——多少?做到什么程度?数量如何?质量水平如何?费用产出如何?
发明者用五个以W开头的英语单词和两个以H开头的英语单词进行设问,发现解决问题的线索,寻找发明思路,进行设计构思,从而搞出新的发明项目,这就叫做5W2H法。
提出疑问于发现问题和解决问题是极其重要的。创造力高的人,都具有善于提问题的能力,众所周知,提出一个好的问题,就意味着问题解决了 一半。提问题的技巧高,可以发挥人的想象力。相反,有些问题提出来,反而挫伤我们的想象力。发明者在设计新产品时,常常提出:为什么(Why);做什么 (What);何人做(Who);何时(When);何地(Where);如何(How);多少(How much)。这就构成了5W2H法的总框架。如果提问题中常有“假如……”、“如果……”、“是否……”这样的虚构,就是一种设问,设问需要更高的想象 力。
在发明设计中,对问题不敏感,看不出毛病是与平时不善于提问有密切关系的。对一个问题追根刨底,有可能发现新的知识和新的疑问。所以从根本上说,学会发明首 先要学会提问,善于提问。阻碍提问的因素,一是怕提问多,被别人看成什么也不懂的傻瓜,二是随着年龄和知识的增长,提问欲望渐渐淡薄。如果提问得不到答复 和鼓励,反而遭人讥讽,结果在人的潜意识中就形成了这种看法:好提问、好挑毛病的人是扰乱别人的讨厌鬼,最好紧闭嘴唇,不看、不闻、不问,但是这恰恰阻碍 了人的创造性的发挥。
(1)为什么(Why)?
为什么采用这个技术参数?为什么不能有响声?为什么停用?为什么变成红色:为什么要做成这个形状?为什么采用机器代替人力?为什么产品的制造要经过这么多环节?为什么非做不可?
(2)做什么(What)?
条件是什么?哪一部分工作要做?目的是什么?重点是什么?与什么有关系?功能是什么?规范是什么?工作对象是什么?
(3)谁(Who)?
谁来办最方便?谁会生产?谁可以办?谁是顾客?谁被忽略了?谁是决策人?谁会受益?
(4)何时(When)?
何时要完成?何时安装?何时销售?何时是最佳营业时间?何时工作人员容易疲劳?何时产量最高?何时完成最为时宜?需要几天才算合理?
(5)何地(Where)?
何地最适宜某物生长?何处生产最经济?从何处买?还有什么地方可以作销售点?安装在什么地方最合适?何地有资源?
(6)怎样(How to)?
怎样做省力?怎样做最快?怎样做效率最高?怎样改进?怎样得到?怎样避免失败?怎样求发展?怎样增加销路?怎样达到效率?怎样才能使产品更加美观大方?怎样使产品用起来方便?
(7)多少(How much)?
功能指标达到多少?销售多少?成本多少?输出功率多少?效率多高?尺寸多少?重量多少?
如果现行的做法或产品经过七个问题的审核已无懈可击,便可认为这一做法或产品可取。如果七个问题中有一个答复不能令人满意,则表示这方面有改进余地。如果哪方面的答复有独创的优点,则可以扩大产品这方面的效用。
克服原产品的缺点,扩大原产品独特优点的效用。
用户访问行为模式可视化研究–基于网站日志数据挖掘
摘要:在进行互联网用户浏览行为的定量研究中,我们采用数据挖掘的方式对网站日志进行分析,用可视化技术展现日志的有 效信息,开发了一个基于网站日志的可视化分析系统。这个分析系统通过用户产生的服务器日志数据自动还原出网站结构,按照页面流量阈值绘制站点地图,并将关 键的页面流量数据及其他商业指标进行可视化处理,标注在这张特殊的网站地图上。这个分析系统能够让用户研究员更加实时直观地了解网站用户动态,获得网站重 要页面及产品的直观图像甚至健康状态。
关键词:网站日志,数据挖掘,可视化,多维缩放,相关性分析
1. 引言
随着互联网的飞速发展,人们的工作和生活越来越依赖网络,尤其在金融、电子商务等领域里,传统的交易模式已经被快速便捷的网络交易模式所取代。网站用户数 量及其访问率随之迅猛膨胀,如何更加快速实时了解用户访问行为模式,帮助改善企业网站的用户体验,成为越来越备受关注的课题。数据挖掘技术和网络信息的可 视化为该课题提供了有效的解决途径。
2. 日志数据挖掘
2.1 概述
数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。用户在访问网站过程中,服务器会将用户的访问轨迹记录在网络日志中。对这些日志进行分析,研究者将会发现很多有价值的信息。
我们研究小组研究开发了基于网络日志的网站用户行为可视化系统G2G(the Guide to Galaxy)。在该系统中,我们采取的分析过程主要包含数据预处理,数据提取,数据可视化三个部分。本节我们将分别阐述分析过程以及实现原理。
2.2 数据预处理
数据预处理部分包括数据清理和数据补充。
对于访问量较多的大型网站,日志数据往往也会相对庞大。在提取有效信息之前,我们需要过滤掉无效信息,例如出错记录、图像文件请求记录以及公司内部员工由 于工作需要产生的访问记录等干扰记录;另外,如果研究目的不是分析研究网络爬虫行为,我们也需要过滤掉这些非人为产生的记录。
对于用户访问的URL,很多研究者更倾向于从宏观角度研究,更关心这是属于哪一种类型的URL。因此,我们需要在每个URL上补充一个类别标记,以便于我们在可视化展示的过程中,研究者很容易看到各类URL的访问情况。
2.3数据提取
每条访问记录里包含如下信息:当前访问URL、来源Refer(用户访问当前页面的前一个来源页面,例:用户从A页面的某个连接进入B页面,则B页面的 Refer是A页面;如用户直接在地址栏输入页面B的URL并转向B页面,或直接从收藏夹打开B页面,则B页面的Refer为空)、访问时间、IP地址、 CookieID(用来标识用户)、浏览器信息等。这些正是我们需要提取的信息,经过程序处理,我们将把这些信息读取到数据结构里,图1描绘了数据提取在 整个分析过程中的作用。

图1 数据提取过程
在图1中,左边柱状图为网站日志,我们截取某个时间段的日志,提取出以上信息,还原为各单独用户的访问序列,形成索引节点,最终在可视化界面上以多种维度显示有价值的信息。
2.4数据可视化
我们的系统分为三个页面,图2是时间步数序列图,图3是URL分布图,图4是行业用户群关系图。

图2 时间序列图
图2纵坐标为时间:0:00-24:00,横坐标为用户访问步长:1步-800步。每个像素代表用户在一分钟内有多少用户访问过,颜色越红表示访问用户越 多。例如,当某个用户的访问步长是100步时,则在横坐标为100处,纵坐标为用户访问时间处标注颜色。如果用户在接连不断的访问网站,则在相应位置会出 现一条纵线。

图3 URL分布图
图3上的每个圆圈代表网站的一个URL,圆圈大小代表访问量,越大代表访问量越高。颜色代表转换率,越蓝代表转换率越高。基本上,蓝色节点可以看做是起点,橘黄色节点可看做是终点。
URL的排列采取目录结构方式,内圈代表最简单的目录,越往外圈,目录越深。例如,某个URL名称为a/b/c.html,则a作为一个URL在最内 圈,a/b在次外圈,a/b/c.html在第三圈。在很多情况中,a和a/b只是纯目录结构,并非实际页面,并没有用户会访问到它们。因此以正方形表 示,以此为圆心的空心圆圈大小代表其子节点的总访问量。在上例中,a的空心圆圈的大小就是a/b,a/b/c.html,a/d,a/d.html等等形 如“a/*”的页面的访问量之和。

图4 行业用户群关系图
图4展示了不同行业用户群之间的互相发送反馈行为的情况,可以作为行业相关性分析的一个重要参考。图中不同的圆代表不同的行业,圆越大代表该行业的用户群 越活跃,圆的颜色越偏向红色说明该行业相对被关注得越多,越偏向蓝色则说明该行业相对被关注得越少。最有价值的信息是不同圆之间的距离,距离越近说明两者 之间相关度越高。圆与圆之间的连线表示两个行业之间存在足够的联系。
2.5 实现方法及原理
由于涉及到海量日志信息的处理以及大量节点图形的表现,为了在可视化显示上尽可能地做到高效,我们采用Xlib来实现图形展示。
其中,在绘制URL分布图时,由于有些情况下需要快速绘制上万甚至十几万的节点及连线,此时使用Xlib自带的绘图函数已不能满足需求,于是我们采用了内存缓冲的方式,先用高效的算法在内存缓冲区中画出图形,再缓冲区输出到屏幕上图形显示区域。
另外,由于需要表现的信息维度较多,我们从多种角度表现信息,例如视觉角度的颜色、大小、位置关系等,而用户访问路径等信息则通过交互方式来展现。
行业相关性分析的数据来源于不同行业用户之间的发送反馈的记录,我们将一段时间内(比如24小时)所有反馈记录提取出来,得到任意两个用户群之间的联系方向与次数。
提取的反馈结果虽然包含了所有用户群之间的确切联系,但其所表现的关系是一种不直观的高维关系,我们采用了多维缩放方法,在尽可能保持节点(用户群)之间相对关系的情况下将表格转化成为平面二维图形。
3. 日志分析结果
3.1 交互方式
G2G系统除了可以显示网站结构,访问量,转化率等信息之外,还被加入了丰富的交互功能,允许用户研究员选中或者搜索某个页面(节点),查看当前页面的主要用户来源和流向,并打印出URL列表。

图5 URL分布图
图5中显示了样本时间内访问网站内博客用户的下一步去向,在图的最下方显示最主要的几个来源和去向。
同时它也支持按照session或者cookie对用户的群体行为进行多步回溯,从中发现用户浏览网站或者产品使用上的群体行为。
另外,研究员可以在图1中选中某个区域,点击搜索,在图2中将会只显示选中区域时间段内的日志信息,因此我们可以对某些时间段做针对性分析。
在行业相关性分析的界面,研究员可以点击选中某个节点,此时将显示由这个节点发出的指向其它节点的箭头,这些箭头代表当前选中节点所代表的用户群与其它节点用户群之间的主动联系关系。箭头的长短与相关性强度成反比,箭头越长说明相关性越弱。
现在这个系统可以在普通笔记本上在10分钟内处理1000万访问量级别的日志样本。假设再加上实时的日志数据,或许这个系统也将改变网站产品设计和内容运营的方式,让网站运营成为一个“Real Time Game”。
3.2 用户访问模式发现与分析
在利用G2G查看数据的过程中,我们会发现很多用户访问模式。
有些信息很明显,例如从图2上,我们很容易看出一天24时内,何时是访问高峰期或低谷期,因此可以选择合适的时间做一些更换服务器等维护工作。
我们也可以轻松查看到外站的搜索引擎会把用户引导到哪些页面,从而判断哪种搜索引擎更有效。

图6 用户访问步骤对比图
图6展示了不同搜索引擎所引导的用户在我们网站上的访问路径。研究中发现,左边搜索引擎引导的用户数量偏少,后续访问行为也不强劲,而右边搜索引擎效果相对较好,不仅用户数量多,而且这些用户黏性大,能够在网站上持续访问。
对于本站页面,如果用户没有按照我们引导的路径访问,则可能说明这些页面的用户体验存在问题,我们可以及时发现并做新的尝试。
另外,我们在研究中发现一个有趣的现象,在阿里巴巴十周年时,从淘宝访问阿里巴巴的用户,大部分被引导到阿里巴巴十周年栏目。
研究者如果对数据比较敏感,或者能够从多种角度查找信息,则会发现更多有价值的模式。
3.3 行业相关性分析
不同行业的用户之间互发反馈的行为,也让我们对行业之间的相关性有了量化认识。
来自不同行业的用户群之间存在着许多联系,大部分联系与我们的常识或猜想一致,比如“纺织、皮革”行业与服装行业显示出了高度的相关性。但有时也会发现一些在我们平时的思维中不是那么显而易见的相关性。
另外,除了相关性外,无相关性也是值得关注的信息。比如冶金矿产与家居用品在图中显示出了很弱的相关性,这和我们的常识一致。但有些意外的是,服装和服饰两个行业的相关性也表现得很弱。
通过对行业相关性的分析,我们可以了解不同用户群之间的相关度如何,是否与我们预期的一致,是否有一些我们没有想到的关联,并由此进一步判断用户群的分类是否存在优化的空间,这些信息对于产品陈列相关工作有较大的价值。
3.4 前景展望
在用户研究的过程中,定量研究与定性研究应该是相辅相成的。定性研究对于访谈用户的选择经常会遇到困难,定量研究可以通过数据挖掘,寻找每个行业的活跃用 户,或者访问指定路径的用户,定性研究可以有针对性的对这些用户进行访谈分析。同时,定量研究也可以分析这些用户日常在网上的行为轨迹,从而验证访谈结 果。
对于指定URL,研究需要了解的不仅仅是上一步下一步的路径,用户是通过哪些路径到达此处,又会转往何处,这一系列的路径更有研究意义,所以需要提取经过指定URL的最健壮的几条路径,从而达到给用户分类的目的。
在网站中,特定用户群体的行为也会备受关注。例如诚信通会员,使用特定浏览器的会员,是否有过网上交易行为的会员,他们的访问行为如何?是否按照我们预期的路径访问?定量研究可以通过在预处理时增加关联数据的方法,挖掘出这些会员的访问路径。
另外,从网站设计者的角度来看,对于设计者预想的流程,有多少用户会买账,在哪个节点被卡住,是非常重要的信息。我们可以通过选定多个URL,列举访问这些URL的用户人次的方法实现。
对于每次比较重要的分析结果,我们可以保存到数据库中,并以图表的形式呈现变化趋势。尤其是改版前后,重要数据的变化趋势可以告诉我们用户对新版本的接受程度。
4. 结束语
在改善用户体验领域,国内外在定量方面的研究还相对较少,而网站用户的行为轨迹对网站来说是一笔很巨大的财富,如果能够充分利用这些信息,将对网站的发展意义重大,我们期待更多研究者参与网站用户行为的可视化研究领域。
如何通过数据进行网站分析
小米渣:非常荣幸邀请到您做客运营辅导在线访谈,听众朋友们都期待对您有更多的了解,请介绍一下自己及职业经历?
云统计高代鹏:
大家好,我是高代鹏,是数据平台产品经理。曾供职于国内一家第三方数据公司,主要负责大型媒体类网站统计产品的规划、网站的数据分析和行业数据的解读。
很荣幸能与大家一起交流网站的数据分析,这是一门新兴学科,05年起国内才崭露头角。希望通过本次访谈能让大家了解到一些常用的统计方法、分析思路、体会数据的魅力。
小米渣:首先,请代鹏介绍一下对于网站产品,日常监控范围内的常见数据种类及含义?
云统计高代鹏:
网站的监测指标有很多,一般的统计产品都包含大约20-30个指标。
这些指标可以分成以下五个类别:用户规模、用户粘性、用户来源、网站受众属性、网站内容属性;
用户规模主要是通过PV、UV和独立IP三个指标衡量;
用户粘性主要通过回访率、访问频率和访问深度三个指标衡量;
用户来源主要通过直接来源和站外来源两个指标衡量,其中站外来源常被分为搜索引擎和其他网站;
网站受众属性主要通过用户的性别、年龄、收入、职业以及地域分布等指标衡量;
网站内容属性主要通过最常访问内容、入口页和出口页三个指标衡量;
小米渣:感谢代鹏精彩的讲解,以上您所谈的对于互联网产品,最基础的流量指标,也就是关键数据有哪些?请结合实例谈一下这些数据的重要性。
云统计高代鹏:
其实每个数据指标都有他的实际意义,而要说最基础、最关键的流量指标那应该是PV和UV。PV和UV是反映站点的用户规模,在很多时候与收入直接相关。这两个指标的重要性就不在过多描述了,也经常有人问起对这两个指标的分析频率和如何分析。
频率可能不同的网站、站长习惯不同,之前在给新浪和搜狐提供分析时,是需要每周、每月、每季度都提供分析报告,在遇到重大事件时更需要专项的数据分析。
以月的数据为切入点,介绍三种常用的分析思路:
首先分析PV/UV的比值同最近三个月的比较。如果发现这个比值明显下降,而UV变化不大,说明PV的下将主要是每个用户单次访问的页面数减少,这种情况下网站的内容或结构急需调整,不然等用户大量流失时已晚。
其次查看PV、UV的环比变化率,分析网站最近的运营是否稳定,是否保持持续的增长。
最后还要与行业对比,才能发现自己的状况是真的好,还是表象;如某个月你的用户规模增长了10%,但行业均值确增长15%,那我们要努力的地方还有很多。
小米渣:嗯,刚才你谈到用户单次访问页面减少时可能需要进行网站内容或结构调整,那么 网站结构是否合理,具体通过什么样的数据指标去看?如何去分析用户关注的内容?
云统计高代鹏:
网站结构是指网站中页面间的层次关系;按性质可分为逻辑结构及物理结构。网站结构对网站的搜索引擎友好性及用户体验有着非常重要的影响。
小站初期往往希望更快地找到自身定位,除了站长自身的资源和优势,还需要我们通过数据找到用户最感兴趣的内容,并且最大限度地引导他们浏览、回复这些内容。
这就需要我们对网站内容和网站结构进行分析:例如可从以下几个角度分析首页的结构是否合理:
1、查看首页作为网站入口的比例;
2、查看首页流量在全站的比例;
3、查看首页的二跳率和弹出率;
4、查看首页带给其他版块或频道的流量。
经过几次这样的调整再分析的过程,最终找到最优的解决方法。
通过对用户最常访问内容的分析,更能发现运营中存在的问题。如果发现TOP5版块的主题量和流量占全站比例不足50%,或者TOP20页面的回复量和流量 占全站比例不足50%,或者流量TOP20页面中有超过10个页面来自非主流版块等等,类似的数据表现都可以说明用户的关注点太过分散,网站没能有效的引 导用户,网站的定位与用户的兴趣点存在偏差。
小米渣:感谢分享,您刚才讲解的需要分析用户偏好,那么对于网站产品,一般的用户行为相关数据有哪些?怎样通过这些数据来分析用户进而分析网站产品?
云统计高代鹏:
用户在网站的每一次点击、回复乃至鼠标的每一次滑动,都是用户的访问行为;用户的访问行为是用户心理最直白的显现,更是我们网站产品设计的试金石。
从用户行为来讲,除了注册,登陆,其他数据会有访问深度、访问次数分布、访问停留时长分布、回访天数分布、每小时访问页数分布等等;通过分析网站用户各种行为的次数和人数数据,了解用户使用你的网站和产品情况,用户使用多的是哪种行为?是否符合产品原型的设计?
譬如,注册量是衡量新用户发展的一个数据;登陆是衡量用户使用网站和产品的一个主要活跃数据;评论次数反应你的网站用户互动情况,访问深度反映用户对网站内容的兴趣度等。
那 究竟这些指标数值的多少代表什么?是否有衡量的标准?因不同行业、不同类型的网站、以及网站处于不同的发展阶段衡量的标准都不同,所以对这些指标要动态的 分析;分享一下媒体型网站的相关数据,供大家参考。一个用户平均每天访问5-7次,每次访问8-10个页面,每次停留500秒左右,回访率在 33%-38%之间。
小米渣:古语有知己知彼百战百胜,网站最核心的价值是为用户提供服务,而用户属性是我们了解用户的一条渠道。那么请教代鹏一般网站产品的用户属性数据有哪些,能否结合实例数据图表等说明如何通过分析用户属性数据优化产品、协助运营?
云统计高代鹏:
用 户属性数据一般包括用户所属的地域、用户的性别、年龄、收入、职业以及学历;通过对网站注册用户属性数据的分析,可帮助网站优化产品,协助运营,提升用户 对网站的粘性;这里会用到网站数据分析的基本思想:细分;其实细分可于用户数据分析的方方面面,对发现的问题,都要层层拨开,找出事情的缘由,这就是细分 的思想。
比如通过IP定位,知道哪些省份、城市以及哪个区域的用户在访问,不同地域的用户关注的内容是否有差异,通过对这个数据的分析,可指导市场部门具体选定在哪个城市做推广或者活动效果更好。
比 如某个地方性的网站,在春节期间PV未降反而增长了20%,提供我们对这20%新用户的监测,发现IP地址都来源于本地,进而我们可以判断这20%的用户 是从外地返乡的,我们在运营时,可为这 20%的新用户有针对性的提供信息;比如提供返城火车票的信息服务,提供儿童教育类商家的信息等等。
小米渣:嗯,很赞同细分思想,数据运营要的就是针尖上跳舞的艺术,切忌烦杂,沉迷宏观的PV、IP。
经过对网站访问情况、用户属性等数据了解和分析,我们可以更真实了解自己的网站,帮助我们及时改进网站运营。当我们需要改版或者转型的情况,请问应该如何利用现有数据分析,以便使转型工作取得更有效的成果?
云统计高代鹏:如果一个网站决定改版或转型,那可能是发现用户对现有的网站结构不满意,而具体对哪些地方不满意,怎样的数据指标能反映用户的心理呢。一般地,我们会从以下角度进行分析:
首先分析网站的小时浏览趋势、热门板块、热点内容与网站的定位和用户特征是否一致。
1、首先通过整站或者频道的小时浏览趋势来掌握网站用户的访问情况。
比 如我们持续跟踪某个网站流量的小时变化趋势,发现凌晨1-2点,博客频道的流量都会大幅增长,并且平均每个用户都会访问10个页面以上;根据这个分析,编 辑可针对性在这个时段,推荐些有思想博文和深度评论,同时也可考虑推荐些其他频道的、用户可能感兴趣的内容,引导用户对其他频道的访问。
2、其次分析首页的弹出率、二跳率等指标,评估首页的引导效果;
通过访问深度来衡量网站首页内容是不是符合网站主流的用户偏好。
通过对某网站最近一周的监测发现,70%以上用户的访问深度都低于3页,访问最热的内容TOP10中,仅有3个来自于网站首页,说明我们近期编辑发布的内容与当前热点有偏差或者首页导航、热点区域的推荐内容有问题。
3、最后我们还可分析不同板块的用户重合度、不同板块的流量引导效果
如 之前我们对XX网站的监测发现,该网站新闻频道和女性频道的用户重合度达到73%,同时女性频道的流量50%是由新闻频道带来的,根据这些数据,我们会建 议广告商在新闻频道投放广告的同时,也需在女性频道投放,这样可提升目标受众对品牌的印象,同时更可节约成本(女性频道的广告相对更便宜);
特别 地,在改版的过程中,也需时刻监测用户的访问行为,评估改版的效果;升级了 8.3的站长可以关注一下用云统计提供的页面点击热图;通过对某些特殊页面(如网站首页)部署一段监测代码,站长能获得用户在这个页面的点击轨迹,再用不 同的颜色区分用户对不同区域的点击热度,这样可直观的看出用户在这个页面的点击分布。
小米渣:感谢代鹏,我相信这方面能够帮助不少站长朋友们。另外,对于公司的领导决策层,网站的哪些数据会影响制定和修改营销策略?
云统计高代鹏:网站的营销形式有很多,这里简单粗略地分为内容营销和市场营销:
1、内容营销会更多的关注数据的时效性,如流量的小时变化趋势、帖子热门标签、意见领袖的热点话题、热点关键词等,根据这些数据指标的变化,实时调整内容营销策略:
例如通过流量的小时变化趋势发现每天在上午8-10点、下午4-6点和晚上的8-10出现三个峰值区间,可对这类用户(大部分是上班族)提供有针对性的内容;
再例如,对使用 8.3的站长可以关注云统计提供的帖子热门标签,发现当前网站的热点讨论内容,根据这个数据可让编辑对此类内容给予重点关注,如置顶、加精、首页推荐等,引导更多的用户参与到相关话题的讨论。
2、 市场营销则需持续关注投放媒体的数据延续性和效果的可持续性。比如某些网络广告投放目的是提高产品销售,首先还是选择投放媒体,投放媒体的影响力和目标用 户的吻合度同样重要;其次需对广告每次展示、点击、二跳都需要有全面的统计和分析;最后分析销售数据,购买用户究竟从哪个网站,点击了哪个位置的广告而来 的。在购买的流程过程中,在哪个步骤用户大量流失。
此外,我们也需要分析用户对什么样的内容感兴趣,分析用户的偏好;比如我们发现某一堆用户浏览的页面都是在描述5-10万元的汽车,根据这些数据,我们可将符合这个价格区间的汽车定地的投放给这一堆用户;
比 如,近期我们选择了10个合作网站推广,那么该如何评估哪个网站效果好呢,仅看带了PV\UV数据是片面的,很有可能某个网站带来了大量的用户,但这些用 户在我们网站仅访问了一页或二页,并且之后也没有回访行为。如果是这样,我们可以说这个网站带来的用户没有价值,下次也就不会考虑与这个网站在合作。所以 我们在实际的运营过程中,在掌握PV\UV等宏观指标的同时,更要仔细研究分析平均访问页数、访问次数分数等细节指标。
希望这两个例子能起到抛砖引玉的作用,让数据更多的参与到公司的决策中。
小米渣:谢谢代鹏的两个例子,我个人认为领导层的决策应该会参考网站内部的数据以及网站外部数据,内部数据更能了解一个网站的内力,外部数据能够说明这个网站在行业内的影响达到了一个什么程度。只有明确了内力和外力现状才能更好的精准营销。
小米渣:再代表站长们请教一个数据运营中比较常见的问题,就是我们时常会发现某个长尾关键词带来了不小的流量,针对这种偶发现状,站长们应该怎样面对机遇和挑战,请代鹏给予建议?
云统计高代鹏:这是一个很好的问题,我也常听一些分析师提到,经常会发现一些用户通过搜索陌生的关键词来到网站,而这些关键词初看起来和网站并没有紧密的关系。每天通过互联网会产生大量的新词,如果能及时发现这些新词并与我们每天的运营结合起来,可能会起到意想不到的效果。
先提供2个发现新词的方式:1.通过百度和谷歌的搜索风云榜能及时发现社会热点关键词和话题;2. 通过云统计提供的行业热门帖子标签和用户站内搜索热点关键词。
该如何利用这些长尾关键词我觉得可阶段性的尝试与网站内容编辑结合起来,辅以SEO,并持续的跟踪监测,评估用户对这类内容的接受程度。
网站运营相关的33个问题
以下问题可根据自己的实际情况排序考虑 同时也要注意边考虑边执行毕竟实践出真知!
1、你的网站提供的内容是不是网民现在需要的内容?是不是能逐渐引导网民接受的内容?这是网站的需求分析。
2、你的网站给哪一类人群看?这一类人群有哪些共同特征?这是网站的市场细分?
3、你的网站目标市场有多大规模、是否成熟、未来前景发展如何?你是否有能力满足市场需求并获得目标利润?这是网站的目标市场评估。
4、你的网站所在行业未来会有那些政策和环境变动,会有哪些竞争对手出现?这是网站的市场预测。
5、如何向你的目标用户展示你的网站和其他同行网站的区别?你准备在目标用户心目中树立什么样的形象?这是网站市场定位。
6、你准备如何如何传播和持续加强你的网站形象?这是网站品牌策略。
7、你的网站目标群体的具体需求是什么?你准备整合什么样的功能与服务来满足他们的需求?这是网站产品概念。
8、你能像了解你的恋人一样一口气说出你的网站项目概念有哪几大特色吗?这是网站的差异化策略。
9、你了解你的目标用户搜索和使用该类网站的心理和行为模式吗?这是网站用户心理和行为模式分析。
10、你的网站如何不断开发新的功能、推广不同活动?这是你的创意机制和网站开发策略。
11、如何处理网站名称、域名、网站主题三者之间的关系?如何使你的目标用户一看就明白你的网站名称、域名、网站主题的含义?这是网站的包装和商标策略。
12、你的网站有偿服务价格依据是什么、是如何制定的?这是你的网站价格策略。
13、你知道你的网站月收入多少才能达到收支平衡吗?这是盈亏平衡点分析、网站项目运营和预算管理。
14、你的网站竞争对手有哪些?他们的特色服务是什么?不要忘了所有能满足你的目标群体需求的网站都是你的竞争对手,这是竞争对手分析。
15、你的竞争网站采取是什么样的推广方式、销售政策?你都是通过什么渠道、什么方式获得的这些信息?这是网站营销调研。
16、和你的竞争对手相比,你的竞争优势是什么?这是市场竞争策略的选择。如果没有竞争优势,你就不要去竞争。
17、你的网站使命是什么?你要帮助你的目标用户达到什么层次?这是网站使命?
18、你的网站三年、五年、十年的规划是什么?这是你的网站战略规划。
19、你的网站三个月、六个月、九个月都有什么具体工作,这是网站运营管理。
20、你是如何把你的网站优势展示出来并有效传播给你的潜在用户?你能总结出来这就是你的网站独创营销模式。
21、你的网站准备用什么样的方式切入市场?这是网站推广策略。
22、你的网站都有哪几篇为网民熟知的软文介绍?这是网站新闻推广策略。有空看看妙创网的网站点评专题。
23、你如何让你的网站项目迅速为潜在用户试用、成为商业用户?这是网站促销策略。
24、你的网站业务推广具体采用的是什么方式方法?你如何监控和评价?这是网站业务推广流程管理。
25、你总共可以采取哪些方法、创造那些事件推广、宣传你的网站?这是网站推广、网站公关和网站广告。
26、你通过什么样的奖励方式调动开发和推广人员的积极性和创造性?这是网站薪酬设计。
27、你是如何调动你的网站内部人员之外的单位和个人推广你的网站?这是网站项目分销渠道的选择和管理。
28、你的网站开发和推广分成几个阶段?谁来站掌控?这是危网站项目进度管理。
29、完全实现你的网站设想,开发和推广大概需要多少时间和多少资金?你有没有做好充分的资金准备?这是网站项目预算。
30、完全实现你的网站设想,开发和推广大概需要什么专业人员?多少专业人员?你怎么样才能准时找到他们?这是网站人力资源管理。
31、你的网站有哪几条根据你们的工作经验和行业分析总结出来的大家都认可的工作方式方法?这是网站管理文化。
32、当你的网站出现突发性危机事件的时候,你将如何采取措施面对和解决?这是网站紧急预案和网站危机公关。
33、你的网站是否专门请过第三方进行点评分析?这是网站诊断机制。
关于着陆页面(Landing Page)优化分析的理论框架
一、 系统的优化框架比单个的优化建议更重要
我们经常谈论一些关于怎样降低着陆页的跳出率,提高网站整体的转化率的小窍门和经验。虽然这些小秘诀具有一定的价值,但是他们的价值仅仅局限于适用 的前提条件,即对于其他情况下的优化方案,之前积累的小窍门和经验就不一定适用咯。所以,这才是关于系统的优化框架理论的意义所在——其提供了提供转化率 的基本思考的方法论!
例如,以下是一些关于可以提高转化率的一些常识,但是不能够作为作为我们分析和优化的基本思路!
1、 放大页面动作按钮的图标
2、 简明扼要,并且突出促销活动的买点
3、 省略不必要的内容
二、 优化框架体系——影响市场活动的着陆页的六大因素
下图从浏览用户的角度,列出了影响着促销活动的陆页转化率的六大因素:
1、 Value Proposition着陆页面促销活动的买点
着陆页面呈现促销活动的买点是最为关键的因素,在图中即为飞机的主体。其他的五个因素则要么是飞机飞行(提高转换率)的动力,要么是飞机飞行(提高转换率)的阻力。
2、 Relevance 着陆页面对于客户的上一个页面的相关性
着陆页面的促销活动的买点和情景同客户访问的站前链接的相关性至关重要。我们的着陆页面必须使用与浏览客户相关的术语和图片,并且是同站前链接的内容保持一致性的,否则浏览客户将会迷失方向而离开页面——着陆页面的跳出率增高
3、 Clarity 着陆页面简明扼要,重点突出
简明扼要是市场活动最基本的因素,其实提高转化率的积极因素。简明扼要应该分为两个部分——设计和内容,设计的简介会让浏览客户的眼睛一亮,而内容的简介是保证图片和文字让客户在最短的时间内能够明白(目前,国内的市场活动都太花哨咯,偏离了主题哦~)。
4、 Urgency着陆页面对于客户进行后续操作的紧迫性提示
着陆页面有对应的提示,告知浏览客户应该尽快注册或者加入购物车么?该因素具体包括两个方面:一是客户访问到该着陆页面的内部心理紧迫感的感知;二 是市场人员给客户施加的外部促销活动紧迫感的影响。虽然当客户到达着陆页面时,其内部的心理感知是既定的,但是市场人员对于促销活动的定位,促销时间区 间,以及促销力度的调整等因素将会影响到客户的外部心理的紧迫感。
5、 Anxiety着陆页面对于客户购物安全的信息保障
站在客户的角度设想一下:如果客户完成注册,或者将商品加入购物车并完成付款,他应该担心什么呢?所以,促销活动(特别是针对新客户的促销活动)的 着陆页面应该有相关安全信息的说明,消除其疑虑。例如刚刚搭建的商城,在吸引新客户时加上支持“货到付款”的支付方式将是一个购物保证的定心丸~
6、 Distraction着陆页面的噪音信息
当着陆页面视觉的信息和操作选项越多,那么客户将会在不懂的情况下流失的越多,即最终按照设定的转化的人数将越少。减少着陆页面的一些噪音信息是必要的,例如:非必须的产品选择项,不相关的链接和信息等。
备注: 以上是市场活动着陆页面的系统化分析的框架,至于针对具体的市场活动需要结合实际情况,同时需要进行相关的测试进行验证(A/B Testing, Multivariable Testing)
附图: 关于一个着陆页面的案例分析(Rudder.com是提供个人理财服务的网站):
GOOGLE的PR值
PR值,全称PageRank(网页级别),网页的级别技术。对于个人站长来说,PR值还是一个比较重要的指标,虽然前面有一段时间似乎有人宣称谷 歌将不会再更新PR值,但是随着谷歌在今年一月份地一次大规模更新,这句话显然又成了一个泡影。看来,我们还是应该重视下PR值,尤其现在环境很不好的时 候。
PR的更新时间,没有固定的日期,什么时候更新,尤其是这一两年很是无法估计,不过这次的更新似乎是快了,真的快了,因为有谷歌的工程师在这里放言,应该错不了吧。不过究竟哪天更新,还不得而知,不过据我估计,应该在端午节前后的样子。??
既然谷歌PR值将要更新了,作为站长,应该做点什么?我想太多了,不过还是建议以下几点,相信会有帮助的。
1、可能看到这条消息,有朋友又要心潮澎湃,开始购买大堆的链接,殊不知,你这么做,可能要坏事,只要你的站平时正常更新,内容丰富健康,平时的外链建设也正常,那么此时你就等好消息吧,不用这么紧张;
2、虽然不能在这短短的时间内有什么特别异常的举动,但是对于以前已经拥有的链接资源(无论购买与否,虽然这是个灰色地带),此时就要做个细心的维护了,有意外掉了(不是黑链哦!)的,联系站长赶紧恢复了,有问题的,赶紧查找了。
3、检查自己网站的链接情况。
对于PR值,主要就是衡量网站的外链建设状况,所以,现在做链接整理(不论是外链还是内链),是很有帮助的哦!
PR更新前收集数据的时间:我们以案例中国普洱茶网来说,对于这个时间的把握不可能很准确,只是一个大概的推测,不过还是有现实根据的。从对我个人及公 司的几个网站的观察,我得到了这次显示PR更新前收集数据的截止时间,大概是在二月份中旬左右.根据(你们也可以以此来对你的网站进行推测一下):在我的 多个网站中,还有多个二级页面PR为0。而这些PR为0的页面绝大多数都是在二月中旬后才上传或者建立的;这对证明PR更新前收集数据的截止时间有一定的 帮助。既然,PR更新前收集数据的截止时间已经大概知道。那么,我们可以推测下次PR更新前收集数据的截止时间应该是在二月份中旬后,PR刷新时间可以是 在五月份中旬(因为Googleguys曾经暗示过新算法的调整后,PR的更新大概会是一个季度一次)。
(2)影响PR值的因素(当然只是其中的一部分):
A:外入链接数及外入链接的质量(链入网站的PR及链出数等),这可是众所周知的了。
B:包含链接数、收录一个网站的页面数(个人认为是关键的因素)
(3)PR更新给我们带来的思考:
由于PR值主要是同链入数与收录页面数及包含数决定,那么我们就要针对这两个因素对网站进行相应的调整。
A:在进行链接的时候我们要非常谨慎,绝不能在低质量的自助链接中(或大多数人称为链接农场)放链接,这不但对于提高PR没帮助,还很有可能你会因此而受到惩罚。
B:在面对自助链接时,你首先应该看一下该网站的质量,次之就是这些外出链接的质量是数量,是否存在着一个域名有多个外重复链接。如果是的话,那就证明 这种自助链接是没有经过任何申核的,极其危险!有很多自助链接类似于目录,这种才是首选,因为站主会对提交的网站经过申核,这对你是一个保证。
C:交换链接一些策略:
1、看被链接网站是否已经被各大搜索引擎收录及其被搜索引擎的更新频率如何(在搜索结果中可以看到最后一次被除数更新的时间,如果超过三天没有更新,就 不会显示);如果链入的网站被各大搜索引擎收录而且还经常更新的话,那么你的网站也会占了不少的光。因为搜索引擎也会对链接的站点进行相应的更新,那么你 就不需要交钱去给搜索引擎公司来帮你更新了(如“百度”) 2、是否被大的分类目录收录(如:Dmoz,Yahoo等);这样的网站PR低只是暂时的事情,过了一个月会更长的一点时间,人家的PR就会飞起来,到时你再跟人家交换,人家未必答应了,所有要有长远的眼光来对待当前的事物)
3、是否被收录了网站内大多数的页面;如果一个网站质量好、结构合理,那么就是说这样的网站很受搜索引擎青睐。网页收录数目与PR值是成正比的。当然, 有的网站被除数收录了2000多个页面,而有的只收录了80多个。后者就一定很差劲。我们看收录多少是只比例而不是数目。如果前者有几十万页才收录了 2000多页,这也不算是一个非常好的网站,而后者只有100个就收录了80多个。显然后者的质量要比前者高得多了。这样的网站也不失为一个理想的交换对 象。
4、是否与很多同类网站交换了链接或者与很多网站交换了链接(不包含自助链接);这也是PR上升的一个潜在的因素,所以在交换时可以查一下对方的链接数目有多少。特别是质量高的链接多不多。
5、网站质量如何;这关系到网站是否能长期存在的问题,如果网站质量很差,但是PR很高。这样的网站也不是理想的交换对象。网站质量差的网站的PR终有一天会降下来的,这就为你网站PR的不稳定添加了一个很大的因素。
6、网站排名如何(指热门的关键字);这样的网站不但会对你的网站带来一定的流量,而且也是一个很好的合作伙伴。因为只有质量较高的网站才能长期地放在前几位(一般一个月就已经算是好的网站了)。
7、是否是同类的网站;因为排名算法中,同类的网站对你网站排名投票的分值会越高。从而使到你的网站有可能得到较好的排名。
8、试图向大的分类目录提交,这样的做法不但得到高质量的反向链接,而且还不用付出任何的代价。
D:链接网站相关度显得特别重要,一般的话在交换链接时要考虑不但是对方网站的质量,还有就是相关度。如果不是相关的网站,对你网站排名及PR影响都不 会很大。所以,建议在交换链接时要选择相关性较高的作为首页链接的首先,而不是相关网站就算PR再高也只能作次级页面的链接。
E:外出链接数的把握:
一般一个页面保持在12个以下。这主要是对你的链接伙伴的一个承诺。高质量的网站不会对那些在一个页面就有几十个外出链接的网站感兴趣的,也为你的网站能否与高PR网站链接提供了一个前提。
F:优化网站的内部结构:
使搜索引擎能收录你网站更多的页面。如:理清网站结构,分类清楚,一目了然;建立导航条,直接与各子类别相链接;建立完整的网站地图,在你增加页面时, 别忘记了更新网站地图页;重要的页面要在网站内的多个页面都作一个对它的链接,这也是为什么首页的PR一般较其它页面高的一个因素。(我会在下一篇文章中 对此进行详细的论述)
另外还是一个疑问就是模板页面的问题,对一个业内网站的观察。它的首页为5但绝大多数的次级页面或其他页面都是为0。总结:在应对这个影响网站排名的主要因素--链接,我们要谨慎对待,不能掉以轻心。重要的是对两个主要方面的把握,即外也链接与内部链接
以下是如何提高你网站PR值的法宝:
无论是对普通网络冲浪者还是网站管理员来说,Google都是目前世界范围内最受欢迎的搜索引擎。它每天处理的搜索请求高达1.5亿次,几乎占全球所有 搜索量的1/3。网络冲浪者对Google情有独钟,是由于Google所提供的快速搜索速度及高命中率搜索结果。这些都是基于Google的复杂文本匹 配运算法则及其搜索程序所使用的PageRank?系统(网页级别技术)。下面我们将向大家介绍Google的PageRank?系统。
Google之所以受网站管理员和Internet媒体服务公司的欢迎,是由于它并非只使用关键词或代理搜索技术,而是将自身建立在高级的网页级别技术基 础之上。别的搜索引擎提供给搜索者的是多种渠道得来的一个粗略的搜索结果,而Google提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是 为什么网站管理员会千方百计去提高自己网站在Google的排名。
Google大受青睐的另一个原因就是它的网站索引速度。向Google提交你的网站直到为Google收录,一般只需两个星期。如果你的网站已经为Google收录
那么通常Google会每月一次遍历和更新(重新索引)你的网站信息。不过对于那些PR值(PageRank)较高的网站,Google索引周期会相应的短一些。
Google的索引/重新索引周期比大多数搜索引擎要短。这就允许网站管理员可以对网站的页面属性进行编辑修改,如网页标题、头几行文字内容、大字标题、关键字分布,当然了还有外部链接的数量。然后他们很快就可以发现对网页所做的这些更改是否成功。
正因为Google如此受欢迎,你有必要知道Google的搜索引擎是如何工作的。如果不知道它是怎样决定你的排名,那么那些只是稍微熟悉Google排名运算法则的站点都会比你的排名位置要靠前。现在让我们来看一下Google的排名运算法则。
Google的排名运算法则主要使用了两个部分,第一个部分是它的文字内容匹配系统。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最最重要的部分,就是Google的专利网页级别技术(PageRank?)。
我先来介绍一下如何使网站具有相关性,即文本内容匹配部分的运算法则:
在搜索网站的关键字时,Google会对其标题标签(metatitle)中出现的关键字给予较高的权值。所以你应当确保在你网站的标题标签中包含了最 重要的关键词,即应围绕你最重要的关键词来决定网页标题的内容。不过网页的标题不可过长,一般最好在35到40个字符之间。
众所周 知,Google并不使用元标签(MetaTags)如关键字或描述标签。这是由于在这些元标签中所使用的文字并不能为实际的访问者所看到。而且 Google认为,这些元标签会被某些网站管理员用于欺诈性地放置一些与其网站毫不相干的热门关键词,并以此提高其网站对该不相干关键词的排名,从而以不 正当的手段获得更多的访问者。
这种不支持MetaTags的特性,意味着Google将从一个网页的头几行文字内容来生成对一个网站的描述。 也就是说,你最好把你的关键字或关键短语放到网页的上方,这样如果Google找到它们,就会相应提高你网站的相关性。一旦Google找不到这样相关的 内容,那么你要花费很大的力气来让你页面的其它部分具有相关性。
在决定一个网站的相关性时,Google也会考虑网页中正文内容的关键字密度(KeywordDensity),所以你要确保在你的整个网页中贯穿出现了若干次关键词和关键短语。但是要记住“过犹不及”,6-10%的关键词密度为最佳。
增加页面相关性的其它策略还包括:在标题内容中放入关键词,并尽可能对内容中出现的关键词进行加粗。Google现在也索引图片的ALT属性文字并计入相关性计算。所以在你的ALT属性中应包含关键词,来增加网站的相关性得分。
增加页面相关性的最后一个技巧就是使你网站上的外部文字链接包含你的关键字。在外部文字链接中包含关键字可有效提高你的网站相关性得分(Google在其PageRank技术的描述中,亦提及在计算网页级别时会对该网站的外部链接进行分析并计入相关性)。










