竹磬网-邵珠庆の日记 生命只有一次,你可以用它来做些更多伟大的事情–Make the world a little better and easier


2411月/111

用户访问行为模式可视化研究–基于网站日志数据挖掘

发布在 邵珠庆

摘要:在进行互联网用户浏览行为的定量研究中,我们采用数据挖掘的方式对网站日志进行分析,用可视化技术展现日志的有 效信息,开发了一个基于网站日志的可视化分析系统。这个分析系统通过用户产生的服务器日志数据自动还原出网站结构,按照页面流量阈值绘制站点地图,并将关 键的页面流量数据及其他商业指标进行可视化处理,标注在这张特殊的网站地图上。这个分析系统能够让用户研究员更加实时直观地了解网站用户动态,获得网站重 要页面及产品的直观图像甚至健康状态。
关键词:网站日志,数据挖掘,可视化,多维缩放,相关性分析
1. 引言
随着互联网的飞速发展,人们的工作和生活越来越依赖网络,尤其在金融、电子商务等领域里,传统的交易模式已经被快速便捷的网络交易模式所取代。网站用户数 量及其访问率随之迅猛膨胀,如何更加快速实时了解用户访问行为模式,帮助改善企业网站的用户体验,成为越来越备受关注的课题。数据挖掘技术和网络信息的可 视化为该课题提供了有效的解决途径。
2. 日志数据挖掘
2.1 概述
数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。用户在访问网站过程中,服务器会将用户的访问轨迹记录在网络日志中。对这些日志进行分析,研究者将会发现很多有价值的信息。
我们研究小组研究开发了基于网络日志的网站用户行为可视化系统G2G(the Guide to Galaxy)。在该系统中,我们采取的分析过程主要包含数据预处理,数据提取,数据可视化三个部分。本节我们将分别阐述分析过程以及实现原理。
2.2 数据预处理
数据预处理部分包括数据清理和数据补充。
对于访问量较多的大型网站,日志数据往往也会相对庞大。在提取有效信息之前,我们需要过滤掉无效信息,例如出错记录、图像文件请求记录以及公司内部员工由 于工作需要产生的访问记录等干扰记录;另外,如果研究目的不是分析研究网络爬虫行为,我们也需要过滤掉这些非人为产生的记录。
对于用户访问的URL,很多研究者更倾向于从宏观角度研究,更关心这是属于哪一种类型的URL。因此,我们需要在每个URL上补充一个类别标记,以便于我们在可视化展示的过程中,研究者很容易看到各类URL的访问情况。
2.3数据提取
每条访问记录里包含如下信息:当前访问URL、来源Refer(用户访问当前页面的前一个来源页面,例:用户从A页面的某个连接进入B页面,则B页面的 Refer是A页面;如用户直接在地址栏输入页面B的URL并转向B页面,或直接从收藏夹打开B页面,则B页面的Refer为空)、访问时间、IP地址、 CookieID(用来标识用户)、浏览器信息等。这些正是我们需要提取的信息,经过程序处理,我们将把这些信息读取到数据结构里,图1描绘了数据提取在 整个分析过程中的作用。

1 数据提取过程

在图1中,左边柱状图为网站日志,我们截取某个时间段的日志,提取出以上信息,还原为各单独用户的访问序列,形成索引节点,最终在可视化界面上以多种维度显示有价值的信息。
2.4数据可视化
我们的系统分为三个页面,图2是时间步数序列图,图3是URL分布图,图4是行业用户群关系图。

2 时间序列图

图2纵坐标为时间:0:00-24:00,横坐标为用户访问步长:1步-800步。每个像素代表用户在一分钟内有多少用户访问过,颜色越红表示访问用户越 多。例如,当某个用户的访问步长是100步时,则在横坐标为100处,纵坐标为用户访问时间处标注颜色。如果用户在接连不断的访问网站,则在相应位置会出 现一条纵线。

3 URL分布图

图3上的每个圆圈代表网站的一个URL,圆圈大小代表访问量,越大代表访问量越高。颜色代表转换率,越蓝代表转换率越高。基本上,蓝色节点可以看做是起点,橘黄色节点可看做是终点。
URL的排列采取目录结构方式,内圈代表最简单的目录,越往外圈,目录越深。例如,某个URL名称为a/b/c.html,则a作为一个URL在最内 圈,a/b在次外圈,a/b/c.html在第三圈。在很多情况中,a和a/b只是纯目录结构,并非实际页面,并没有用户会访问到它们。因此以正方形表 示,以此为圆心的空心圆圈大小代表其子节点的总访问量。在上例中,a的空心圆圈的大小就是a/b,a/b/c.html,a/d,a/d.html等等形 如“a/*”的页面的访问量之和。

4 行业用户群关系图
图4展示了不同行业用户群之间的互相发送反馈行为的情况,可以作为行业相关性分析的一个重要参考。图中不同的圆代表不同的行业,圆越大代表该行业的用户群 越活跃,圆的颜色越偏向红色说明该行业相对被关注得越多,越偏向蓝色则说明该行业相对被关注得越少。最有价值的信息是不同圆之间的距离,距离越近说明两者 之间相关度越高。圆与圆之间的连线表示两个行业之间存在足够的联系。
2.5 实现方法及原理
由于涉及到海量日志信息的处理以及大量节点图形的表现,为了在可视化显示上尽可能地做到高效,我们采用Xlib来实现图形展示。
其中,在绘制URL分布图时,由于有些情况下需要快速绘制上万甚至十几万的节点及连线,此时使用Xlib自带的绘图函数已不能满足需求,于是我们采用了内存缓冲的方式,先用高效的算法在内存缓冲区中画出图形,再缓冲区输出到屏幕上图形显示区域。
另外,由于需要表现的信息维度较多,我们从多种角度表现信息,例如视觉角度的颜色、大小、位置关系等,而用户访问路径等信息则通过交互方式来展现。
行业相关性分析的数据来源于不同行业用户之间的发送反馈的记录,我们将一段时间内(比如24小时)所有反馈记录提取出来,得到任意两个用户群之间的联系方向与次数。
提取的反馈结果虽然包含了所有用户群之间的确切联系,但其所表现的关系是一种不直观的高维关系,我们采用了多维缩放方法,在尽可能保持节点(用户群)之间相对关系的情况下将表格转化成为平面二维图形。
3. 日志分析结果
3.1 交互方式
G2G系统除了可以显示网站结构,访问量,转化率等信息之外,还被加入了丰富的交互功能,允许用户研究员选中或者搜索某个页面(节点),查看当前页面的主要用户来源和流向,并打印出URL列表。

5 URL分布图

图5中显示了样本时间内访问网站内博客用户的下一步去向,在图的最下方显示最主要的几个来源和去向。
同时它也支持按照session或者cookie对用户的群体行为进行多步回溯,从中发现用户浏览网站或者产品使用上的群体行为。
另外,研究员可以在图1中选中某个区域,点击搜索,在图2中将会只显示选中区域时间段内的日志信息,因此我们可以对某些时间段做针对性分析。
在行业相关性分析的界面,研究员可以点击选中某个节点,此时将显示由这个节点发出的指向其它节点的箭头,这些箭头代表当前选中节点所代表的用户群与其它节点用户群之间的主动联系关系。箭头的长短与相关性强度成反比,箭头越长说明相关性越弱。
现在这个系统可以在普通笔记本上在10分钟内处理1000万访问量级别的日志样本。假设再加上实时的日志数据,或许这个系统也将改变网站产品设计和内容运营的方式,让网站运营成为一个“Real Time Game”。

3.2 用户访问模式发现与分析
在利用G2G查看数据的过程中,我们会发现很多用户访问模式。
有些信息很明显,例如从图2上,我们很容易看出一天24时内,何时是访问高峰期或低谷期,因此可以选择合适的时间做一些更换服务器等维护工作。
我们也可以轻松查看到外站的搜索引擎会把用户引导到哪些页面,从而判断哪种搜索引擎更有效。

6 用户访问步骤对比图

图6展示了不同搜索引擎所引导的用户在我们网站上的访问路径。研究中发现,左边搜索引擎引导的用户数量偏少,后续访问行为也不强劲,而右边搜索引擎效果相对较好,不仅用户数量多,而且这些用户黏性大,能够在网站上持续访问。
对于本站页面,如果用户没有按照我们引导的路径访问,则可能说明这些页面的用户体验存在问题,我们可以及时发现并做新的尝试。
另外,我们在研究中发现一个有趣的现象,在阿里巴巴十周年时,从淘宝访问阿里巴巴的用户,大部分被引导到阿里巴巴十周年栏目。
研究者如果对数据比较敏感,或者能够从多种角度查找信息,则会发现更多有价值的模式。
3.3 行业相关性分析
不同行业的用户之间互发反馈的行为,也让我们对行业之间的相关性有了量化认识。
来自不同行业的用户群之间存在着许多联系,大部分联系与我们的常识或猜想一致,比如“纺织、皮革”行业与服装行业显示出了高度的相关性。但有时也会发现一些在我们平时的思维中不是那么显而易见的相关性。
另外,除了相关性外,无相关性也是值得关注的信息。比如冶金矿产与家居用品在图中显示出了很弱的相关性,这和我们的常识一致。但有些意外的是,服装和服饰两个行业的相关性也表现得很弱。
通过对行业相关性的分析,我们可以了解不同用户群之间的相关度如何,是否与我们预期的一致,是否有一些我们没有想到的关联,并由此进一步判断用户群的分类是否存在优化的空间,这些信息对于产品陈列相关工作有较大的价值。
3.4 前景展望
在用户研究的过程中,定量研究与定性研究应该是相辅相成的。定性研究对于访谈用户的选择经常会遇到困难,定量研究可以通过数据挖掘,寻找每个行业的活跃用 户,或者访问指定路径的用户,定性研究可以有针对性的对这些用户进行访谈分析。同时,定量研究也可以分析这些用户日常在网上的行为轨迹,从而验证访谈结 果。
对于指定URL,研究需要了解的不仅仅是上一步下一步的路径,用户是通过哪些路径到达此处,又会转往何处,这一系列的路径更有研究意义,所以需要提取经过指定URL的最健壮的几条路径,从而达到给用户分类的目的。
在网站中,特定用户群体的行为也会备受关注。例如诚信通会员,使用特定浏览器的会员,是否有过网上交易行为的会员,他们的访问行为如何?是否按照我们预期的路径访问?定量研究可以通过在预处理时增加关联数据的方法,挖掘出这些会员的访问路径。
另外,从网站设计者的角度来看,对于设计者预想的流程,有多少用户会买账,在哪个节点被卡住,是非常重要的信息。我们可以通过选定多个URL,列举访问这些URL的用户人次的方法实现。
对于每次比较重要的分析结果,我们可以保存到数据库中,并以图表的形式呈现变化趋势。尤其是改版前后,重要数据的变化趋势可以告诉我们用户对新版本的接受程度。
4. 结束语
在改善用户体验领域,国内外在定量方面的研究还相对较少,而网站用户的行为轨迹对网站来说是一笔很巨大的财富,如果能够充分利用这些信息,将对网站的发展意义重大,我们期待更多研究者参与网站用户行为的可视化研究领域。

2411月/11

如何通过数据进行网站分析

发布在 邵珠庆

小米渣:非常荣幸邀请到您做客运营辅导在线访谈,听众朋友们都期待对您有更多的了解,请介绍一下自己及职业经历?
云统计高代鹏:
大家好,我是高代鹏,是数据平台产品经理。曾供职于国内一家第三方数据公司,主要负责大型媒体类网站统计产品的规划、网站的数据分析和行业数据的解读。
很荣幸能与大家一起交流网站的数据分析,这是一门新兴学科,05年起国内才崭露头角。希望通过本次访谈能让大家了解到一些常用的统计方法、分析思路、体会数据的魅力。

小米渣:首先,请代鹏介绍一下对于网站产品,日常监控范围内的常见数据种类及含义?
云统计高代鹏:
网站的监测指标有很多,一般的统计产品都包含大约20-30个指标。
这些指标可以分成以下五个类别:用户规模、用户粘性、用户来源、网站受众属性、网站内容属性;
用户规模主要是通过PVUV和独立IP三个指标衡量;
用户粘性主要通过回访率、访问频率和访问深度三个指标衡量;
用户来源主要通过直接来源和站外来源两个指标衡量,其中站外来源常被分为搜索引擎和其他网站;
网站受众属性主要通过用户的性别、年龄、收入、职业以及地域分布等指标衡量;
网站内容属性主要通过最常访问内容、入口页和出口页三个指标衡量;

小米渣:感谢代鹏精彩的讲解,以上您所谈的对于互联网产品,最基础的流量指标,也就是关键数据有哪些?请结合实例谈一下这些数据的重要性。
云统计高代鹏:
其实每个数据指标都有他的实际意义,而要说最基础、最关键的流量指标那应该是PVUVPVUV是反映站点的用户规模,在很多时候与收入直接相关。这两个指标的重要性就不在过多描述了,也经常有人问起对这两个指标的分析频率和如何分析。
频率可能不同的网站、站长习惯不同,之前在给新浪和搜狐提供分析时,是需要每周、每月、每季度都提供分析报告,在遇到重大事件时更需要专项的数据分析。
以月的数据为切入点,介绍三种常用的分析思路:
首先分析PV/UV的比值同最近三个月的比较。如果发现这个比值明显下降,而UV变化不大,说明PV的下将主要是每个用户单次访问的页面数减少,这种情况下网站的内容或结构急需调整,不然等用户大量流失时已晚。
其次查看PVUV的环比变化率,分析网站最近的运营是否稳定,是否保持持续的增长。
最后还要与行业对比,才能发现自己的状况是真的好,还是表象;如某个月你的用户规模增长了10%,但行业均值确增长15%,那我们要努力的地方还有很多。

小米渣:嗯,刚才你谈到用户单次访问页面减少时可能需要进行网站内容或结构调整,那么 网站结构是否合理,具体通过什么样的数据指标去看?如何去分析用户关注的内容?
云统计高代鹏:
      
网站结构是指网站中页面间的层次关系;按性质可分为逻辑结构及物理结构。网站结构对网站的搜索引擎友好性及用户体验有着非常重要的影响。
小站初期往往希望更快地找到自身定位,除了站长自身的资源和优势,还需要我们通过数据找到用户最感兴趣的内容,并且最大限度地引导他们浏览、回复这些内容。
这就需要我们对网站内容和网站结构进行分析:例如可从以下几个角度分析首页的结构是否合理:
1
、查看首页作为网站入口的比例;
2
、查看首页流量在全站的比例;
3
、查看首页的二跳率和弹出率;
4
、查看首页带给其他版块或频道的流量。
   
经过几次这样的调整再分析的过程,最终找到最优的解决方法。
   
通过对用户最常访问内容的分析,更能发现运营中存在的问题。如果发现TOP5版块的主题量和流量占全站比例不足50%,或者TOP20页面的回复量和流量 占全站比例不足50%,或者流量TOP20页面中有超过10个页面来自非主流版块等等,类似的数据表现都可以说明用户的关注点太过分散,网站没能有效的引 导用户,网站的定位与用户的兴趣点存在偏差。

小米渣:感谢分享,您刚才讲解的需要分析用户偏好,那么对于网站产品,一般的用户行为相关数据有哪些?怎样通过这些数据来分析用户进而分析网站产品?
云统计高代鹏:
用户在网站的每一次点击、回复乃至鼠标的每一次滑动,都是用户的访问行为;用户的访问行为是用户心理最直白的显现,更是我们网站产品设计的试金石。
从用户行为来讲,除了注册,登陆,其他数据会有访问深度、访问次数分布、访问停留时长分布、回访天数分布、每小时访问页数分布等等;通过分析网站用户各种行为的次数和人数数据,了解用户使用你的网站和产品情况,用户使用多的是哪种行为?是否符合产品原型的设计?
譬如,注册量是衡量新用户发展的一个数据;登陆是衡量用户使用网站和产品的一个主要活跃数据;评论次数反应你的网站用户互动情况,访问深度反映用户对网站内容的兴趣度等。
那 究竟这些指标数值的多少代表什么?是否有衡量的标准?因不同行业、不同类型的网站、以及网站处于不同的发展阶段衡量的标准都不同,所以对这些指标要动态的 分析;分享一下媒体型网站的相关数据,供大家参考。一个用户平均每天访问5-7次,每次访问8-10个页面,每次停留500秒左右,回访率在 33%-38%之间。

小米渣:古语有知己知彼百战百胜,网站最核心的价值是为用户提供服务,而用户属性是我们了解用户的一条渠道。那么请教代鹏一般网站产品的用户属性数据有哪些,能否结合实例数据图表等说明如何通过分析用户属性数据优化产品、协助运营?
云统计高代鹏:
用 户属性数据一般包括用户所属的地域、用户的性别、年龄、收入、职业以及学历;通过对网站注册用户属性数据的分析,可帮助网站优化产品,协助运营,提升用户 对网站的粘性;这里会用到网站数据分析的基本思想:细分;其实细分可于用户数据分析的方方面面,对发现的问题,都要层层拨开,找出事情的缘由,这就是细分 的思想。
比如通过IP定位,知道哪些省份、城市以及哪个区域的用户在访问,不同地域的用户关注的内容是否有差异,通过对这个数据的分析,可指导市场部门具体选定在哪个城市做推广或者活动效果更好。
比 如某个地方性的网站,在春节期间PV未降反而增长了20%,提供我们对这20%新用户的监测,发现IP地址都来源于本地,进而我们可以判断这20%的用户 是从外地返乡的,我们在运营时,可为这 20%的新用户有针对性的提供信息;比如提供返城火车票的信息服务,提供儿童教育类商家的信息等等。

小米渣:嗯,很赞同细分思想,数据运营要的就是针尖上跳舞的艺术,切忌烦杂,沉迷宏观的PVIP
经过对网站访问情况、用户属性等数据了解和分析,我们可以更真实了解自己的网站,帮助我们及时改进网站运营。当我们需要改版或者转型的情况,请问应该如何利用现有数据分析,以便使转型工作取得更有效的成果?
云统计高代鹏:如果一个网站决定改版或转型,那可能是发现用户对现有的网站结构不满意,而具体对哪些地方不满意,怎样的数据指标能反映用户的心理呢。一般地,我们会从以下角度进行分析:
首先分析网站的小时浏览趋势、热门板块、热点内容与网站的定位和用户特征是否一致。
1
、首先通过整站或者频道的小时浏览趋势来掌握网站用户的访问情况。
比 如我们持续跟踪某个网站流量的小时变化趋势,发现凌晨1-2点,博客频道的流量都会大幅增长,并且平均每个用户都会访问10个页面以上;根据这个分析,编 辑可针对性在这个时段,推荐些有思想博文和深度评论,同时也可考虑推荐些其他频道的、用户可能感兴趣的内容,引导用户对其他频道的访问。

2、其次分析首页的弹出率、二跳率等指标,评估首页的引导效果;
通过访问深度来衡量网站首页内容是不是符合网站主流的用户偏好。
通过对某网站最近一周的监测发现,70%以上用户的访问深度都低于3页,访问最热的内容TOP10中,仅有3个来自于网站首页,说明我们近期编辑发布的内容与当前热点有偏差或者首页导航、热点区域的推荐内容有问题。
3
、最后我们还可分析不同板块的用户重合度、不同板块的流量引导效果
如 之前我们对XX网站的监测发现,该网站新闻频道和女性频道的用户重合度达到73%,同时女性频道的流量50%是由新闻频道带来的,根据这些数据,我们会建 议广告商在新闻频道投放广告的同时,也需在女性频道投放,这样可提升目标受众对品牌的印象,同时更可节约成本(女性频道的广告相对更便宜);
特别 地,在改版的过程中,也需时刻监测用户的访问行为,评估改版的效果;升级了 8.3的站长可以关注一下用云统计提供的页面点击热图;通过对某些特殊页面(如网站首页)部署一段监测代码,站长能获得用户在这个页面的点击轨迹,再用不 同的颜色区分用户对不同区域的点击热度,这样可直观的看出用户在这个页面的点击分布。

小米渣:感谢代鹏,我相信这方面能够帮助不少站长朋友们。另外,对于公司的领导决策层,网站的哪些数据会影响制定和修改营销策略?
云统计高代鹏:网站的营销形式有很多,这里简单粗略地分为内容营销和市场营销:
1
、内容营销会更多的关注数据的时效性,如流量的小时变化趋势、帖子热门标签、意见领袖的热点话题、热点关键词等,根据这些数据指标的变化,实时调整内容营销策略:
例如通过流量的小时变化趋势发现每天在上午8-10点、下午4-6点和晚上的8-10出现三个峰值区间,可对这类用户(大部分是上班族)提供有针对性的内容;
再例如,对使用 8.3的站长可以关注云统计提供的帖子热门标签,发现当前网站的热点讨论内容,根据这个数据可让编辑对此类内容给予重点关注,如置顶、加精、首页推荐等,引导更多的用户参与到相关话题的讨论。
2
、 市场营销则需持续关注投放媒体的数据延续性和效果的可持续性。比如某些网络广告投放目的是提高产品销售,首先还是选择投放媒体,投放媒体的影响力和目标用 户的吻合度同样重要;其次需对广告每次展示、点击、二跳都需要有全面的统计和分析;最后分析销售数据,购买用户究竟从哪个网站,点击了哪个位置的广告而来 的。在购买的流程过程中,在哪个步骤用户大量流失。
此外,我们也需要分析用户对什么样的内容感兴趣,分析用户的偏好;比如我们发现某一堆用户浏览的页面都是在描述5-10万元的汽车,根据这些数据,我们可将符合这个价格区间的汽车定地的投放给这一堆用户;
比 如,近期我们选择了10个合作网站推广,那么该如何评估哪个网站效果好呢,仅看带了PV\UV数据是片面的,很有可能某个网站带来了大量的用户,但这些用 户在我们网站仅访问了一页或二页,并且之后也没有回访行为。如果是这样,我们可以说这个网站带来的用户没有价值,下次也就不会考虑与这个网站在合作。所以 我们在实际的运营过程中,在掌握PV\UV等宏观指标的同时,更要仔细研究分析平均访问页数、访问次数分数等细节指标。
希望这两个例子能起到抛砖引玉的作用,让数据更多的参与到公司的决策中。

小米渣:谢谢代鹏的两个例子,我个人认为领导层的决策应该会参考网站内部的数据以及网站外部数据,内部数据更能了解一个网站的内力,外部数据能够说明这个网站在行业内的影响达到了一个什么程度。只有明确了内力和外力现状才能更好的精准营销。
小米渣:再代表站长们请教一个数据运营中比较常见的问题,就是我们时常会发现某个长尾关键词带来了不小的流量,针对这种偶发现状,站长们应该怎样面对机遇和挑战,请代鹏给予建议?
云统计高代鹏:这是一个很好的问题,我也常听一些分析师提到,经常会发现一些用户通过搜索陌生的关键词来到网站,而这些关键词初看起来和网站并没有紧密的关系。每天通过互联网会产生大量的新词,如果能及时发现这些新词并与我们每天的运营结合起来,可能会起到意想不到的效果。
先提供2个发现新词的方式:1.通过百度和谷歌的搜索风云榜能及时发现社会热点关键词和话题;2. 通过云统计提供的行业热门帖子标签和用户站内搜索热点关键词。
该如何利用这些长尾关键词我觉得可阶段性的尝试与网站内容编辑结合起来,辅以SEO,并持续的跟踪监测,评估用户对这类内容的接受程度。