邵珠庆の日记 生命只有一次,你可以用它来做很多伟大的事情–Make the world a little better and easier


512月/11

商务智能的发展-未来的研究方向

发布在 邵珠庆

一、 商务智能(BI),商业智慧(BI)的发展方向:

BI新走向之一:融合加强,演变成门户化

BI新走向之二:日趋“傻瓜”,体现人性化

BI新走向之三:移动BI将成为新战场

BI新走向之四:在云中部署BI,成为主流方向

BI新走向之五:SaaSBI日渐雄起,受中小企业青睐

BI新走向之六:可视化技术呈亮点,交互式分析助推BI

BI新走向之七:外部信息将整合到内部BI中,内外网信息并联互动

二、  智能的搜索引擎研究方向:

查询聚类(Query clustering)

查询意图识别(Query intent recognition)

查询推荐(Query suggestion)

查询改写(Query rewriting),具体包括:

查询同义变换(Query paraphrasing)

查询扩展(Query expansion)

查询缩略(Query reduction)

查询纠错(Query error correction)

学习排序(Learning to rank)

个性化搜索(Personalized search)

命名实体挖掘(Named entity mining)

本体知识库构建(Ontology construction)

 

三、   商务智能(BI),人工智能(AI)的研究方向:

1. 基于大规模机器学习的排序算法(Machine Learning to Rank)

排序算法是搜索技术的核心之一,基于机器学习排序算法将机器学习技术应用于排序问题。研究内容包括但不限于:

排序算法的分布式训练

排序算法的在线学习(online learning)

排序算法的在线预测速度提升

多目标优化的排序算法

2. 海量特征设计(large scale feature engineering)

特征设计在机器学习系统中扮演着至关重要的作用。但当面临海量数据时,往往特征数量也会是海量的,这时如何做好特征选择、特征组合等工作,与小规模时相比会复杂很多。研究内容包括但不限于:

海量特征自动选择

海量特征自动组合

3. 高效训练样本获取(Label Complexity Reduction)

机器学习算法要求大量的高质量的标注样本,然而标注样本耗时耗力,并且在样本到达一定量 后,对样本量的需求增幅远大于训练效果提升,如何高效地获取良好样本是一个挑战。海量互联网数据下的LTR的样本获取、多语言学习任务背景下标注样本的获 取、网页/网站/query等的分类或聚类所需样本等是高效样本获取方法的应用场景。本方向的问题包括但不限于:

通过主动学习(Active learning)加速标注流程

通过迁移学习/多任务学习(Transfer learning/multi-task learning) 利用其他领域的知识和标注样本来提升另一领域的学习效果

通过半监督学习(Semi-supervised learning),考虑如何利用少量的标注样本和大量的未标注样本进行分类和聚类,相关问题有半监督学习的算法改进、半监督学习的在线学习 (Online-learning)或者增量学习(incremental-learning)算法等

4. 规则系统与机器学习系统的整合 (Integration of rule-based system and learning-based system)

规则系统和学习系统一直是人工智能实现方法的两个分支,二者各有优劣。规则系统更擅长高频和训练数据稀疏部分,而学习系统的泛化能力更出色。如何结合两者的优势,规避各自的缺点,是我们希望探讨的地方。研究内容只要与两个系统的整合相关即可。

5.海量数据的主题模型(Topic-model on large scale data)

主题模型主要使用大规模的文档—词汇共现(co-occurrence) 矩阵,例如1亿*100万的矩阵来建模文档和词汇间的潜在联系。研究内容包括但不限于:

主题模型的建模改进

主题模型的在线学习(Online learning)或者增量学习(incremental learning)

主题模型训练过程的大规模并行优化

主题模型的应用

6.推荐系统(recommender system)

推荐系统有着广泛的应用,如搜索引擎和电子商务网站以各种方式使用着推荐系统。在百度的 应用即包括在搜索、知道、音乐、贴吧等用户产品内及产品间的推荐,也包括面向搜索请求推荐广告、面向广告商推荐关键词等。不同应用场景的应用目标和数据量 存在较大差异,对于推荐算法本身也存在不同要求。在本领域的研究包括但不限于:

推荐系统的设计

推荐算法的改进

推荐效果的评估

个性化推荐

7. 点击模型(Click Model)

百度拥有中国搜索引擎市场上最丰富的用户数据,点击模型将极大提升用户对搜索的需求满意度。研究内容包括但不限于:

用户行为数据清洗

用户行为分析和建模

用户行为用于评测

8.网页多分类学习

互联网中网页资源可以按照不同的维度划分成不同的类型,而且一个网页可能兼有多个维度的类型标记。该方向的主要目标就是:如何自动高效地为网页进行分类标记。研究内容包括但不限于:

网页分类的机器学习模型研究:二分类/多分类/多标记学习/无监督学习等

主题/资源/结构分类特征挖掘

模型的跨语言通用性研究

9.基于海量网页的结构化信息自动抽取研究

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取转换成结构化数据。研究内容包括但不限于:

结构化信息自动抽取方法改进

抽取规则生成表示优化

10.观点挖掘、情感分析(opinion mining and sentiment analysis)

观点挖掘、情感分析主要是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。研究内容包括但不限于:

情感分析的算法改进

情感分析在大规模数据(博客、微博、新闻评论、商品评论)中的应用

情感分析在推荐中的应用

11. 基于机器学习的反作弊研究(fraud detection based on machine learning)

基于机器学习的反作弊研究内容包括但不限于:

自动训练数据标注

作弊特征分析

在线实时作弊检测

离线批量数据评估

512月/11

关于公司发展的思考方法

发布在 邵珠庆

Strategy:

公司的发展方向是什么,有什么规划蓝图?

公司的应该怎么才能够达到这些目标?

公司怎么解决来自竞争对手的压力?

公司的客户的需求会变化么?

 

Structure:

公司的层级制度如何?

公司的团队的协作形式?

公司和团队的组织形式?

公司的沟通的方式和种类?

公司的是中央集权还是分散决策?

 

Systems:

公司的基本制度是什么?

公司的基本流程,特别是风险控制流程是什么?

 

 

Shared Values:

公司的核心价值观是什么?

公司的团队文化是什么?

公司建立的基本准则是什么?

 

 

Style:

公司的领导和管理过程中员工的参与度如何?

公司的领导和管理的效率如何?

公司的团队成员和员工趋向于合作的呢?还是趋向于竞争的呢?

公司是否存在根据业务运营需要成立团队而未成立的(提高组织的运营效率)?

公司是否存在名存实亡的团队组织(影响组织的运营效率)?

 

 

 

Staff:

公司的团队和组织有哪些职能角色和功能职位?

公司的团队和组织有哪些需要补充的职位?

公司的团队和组织的成员搭建是否具有梯队性?

 

 

Skills:

公司的团队和组织中最重要的技能是哪些?

公司的团队和组织中现有成员有能力完成任务的么?

公司的团队和组织中成员的技能能够被评估和衡量的么?

 

 

7S Matrix Questions:

对于员工的共同价值观,其是否同公司的组织结构,战略,和体系相对应。如果不是哪些组成部分需要调整?具体应该怎么调整?

对于公司的战略,结构和制度三者之间的关系——他们之间是怎么相互支撑的,如果出现矛盾的地方,需要明确进行哪些必要的调整?

对于公司的风格,共同价值观,员工,和技能,需要明确其四者对于公司的战略,结构和制度的支撑的部分,以及矛盾的部分。同时,其四者之间是相互支撑的关系么?如果出现矛盾的部分,需要明确需要进行哪些调整?

公司的以上关于风格,共同价值观,员工,和技能等软性的方面和战略,结构和制度等硬性方面的调整和统一是一个长期的动态调整过程,核心的目的是为了一个更好的运营效率!

512月/11

Google Analytics基本异步跟踪代码运作原理

发布在 邵珠庆

图一:Google Analytics基本异步跟踪代码
图一:Google Analytics基本异步跟踪代码

Google Analytics异步跟踪代码,以基本跟踪代码作为数据跟踪与传递的基础。在此基础之上,根据网站业务数据需求,您可以自定义设置跨域跟踪、添加直接流 量站点、添加搜索引擎设置、事件跟踪、虚拟跟踪等功能。异步基本跟踪代码,作为数据跟踪与传递的基础,肩负着向Google Analytics服务器传递网站访客访问数据的重大责任。

知其然,才能知其所以然。了解了GA的运作原理,才能对其更好的运用,否则心里会老是有一块茫然(在我心里,就是这样的Google <wbr>Analytics基本异步跟踪代码运作原理)。到底Google Analytics基本异步跟踪代码,是如何运作的呢,如何将我们网站访客的数据呈现在各类报告中的呢?本文将对其运作原理做详细介绍。

图二:队列
图二:队列

原理说明

异步代码加载速度快、数据更准确的功劳都应归功于_gaq对象,它采用队列“先进先出”的数据结构,先按照先后顺序收集好各类命令及函数的API调用,以便ga.js加载完成后按照同样的顺序处理这些调用请求,即“谁先申请,先被收集,而后先被处理”。

Google Analytics API的调用

API调用时采用_gaq.push方法,将API调用申请推送到_gaq对象队列中被收集。而被推送收集的API调用包括:JavaScript命令数 组、函数。其中,命令数组由被调用的跟踪器对象方法名称、传送给跟踪器对象方法的参数组成,也就是我们设置的各类定制跟踪,包括事件跟踪、跨域跟踪、添加 搜索引擎等等。

图三:_gaq对象及API调用
图三:_gaq对象及API调用
推送命令数组(申请API调用)
_gaq.push(['setAccount', 'UA-XXXXX-X']);

推送函数(申请API调用)
_gaq.push(function() {
var pageTracker = _gat._getTrackerByName('myTracker');
var link = document.getElementByIdx_x('my-link-id');
link.href = pageTracker._getLinkerUrl('http://example.com/');
});

_gaq跟踪器对象的创建

当页面中第一个命令数组以_gap.push方法,申请API调用时会执行以下流程:
首先,调用var _gaq = _gaq || [];,创建_gaq跟踪器对象(并通过_gaq.push(['setAccount', 'UA-XXXXX-X']);绑定到指定的GA网络载体ID),同时各类跟踪器对象方法处于可调用状态,包括事件跟踪、跨域跟踪等方法;
其次,推送新建的_gaq跟踪器对象方法,传递相应参数,提交API调用申请。
最后,其余跟踪方法的API调用申请都被推送收集到_gap对象时,会调用_gaq.push(['_trackPageview']);执行最后一次推送,并由此方法提交将全部API调用申请提交给ga.js处理。

Ga.js处理各类API调用

在各类API申请被收集的同时,以下代码会判断站点的网络协议(安全 HTTP 协议或标准 HTTP 协议),并调用访客缓存中的ga.js(若有)或从GA服务器下载ga.js。ga.js加载完成后,会立即处理所有API调用申请、更新/读取访客cookie数据。

(function() {
var ga = document.createElement_x('script'); ga.type = 'text/javascript'; ga.async = true;
ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
var s = document.getElementsByTagName_r('script')[0]; s.parentNode.insertBefore(ga, s);
})();

Google Analytics数据传输日志

 


图四:Google Analytics访客Cookie参数
图四:Google Analytics访客Cookie参数

Ga.js将所有所得数据,包括访问者IP、网站域名、请求URI、页面名称、访客浏览器/操作系统信息、事件设置、自定义变量设置、访客ID、访问次 数、访问时间、流量来源等等,赋给对应的utm变量,并将所有utm参数值对作为__utm.gif图片调用参数,写入到GA服务器端__utm.gif 图片的调用日志中,向GA服务器发送数据。GA再对日志进行数据处理、分析,生成我们所看到的各类报告。

http://www.google-analytics.com/__utm.gif?utmwv=4&utmn=769876874&utmhn=example.com&utmcs=ISO-8859-1&utmsr=1280x1024&utmsc=32-bit&utmul=en-us&utmje=1&utmfl=9.0 r115&utmcn=1&utmdt=GATC012 setting variables&utmhid=2059107202&utmr=0&utmp=/auto/GATC012.html?utm_source=www.gatc012.org&utm_campaign=campaign+gatc012&utm_term=keywords+gatc012&utm_content=content+gatc012&utm_medium=medium+gatc012&utmac=UA-30138-1&utmcc=__utma=97315849.1774621898.1207701397.1207701397.1207701397.1;...

 


Google Analytics utm.gif请求参数表

变量 说明 示例值
utmac 帐户字符串。在所有请求中显示。 utmac=UA-2202604-2
utmcc Cookie 值。此请求参数将发送从网页中请求的所有 Cookie。 utmcc=__utma=117243.1695285.22;+ __utmz=117945243.1202416366.21.10. utmcsr=b| utmccn=(referral)| utmcmd=referral| utmcct=%2Fissue;+
utmcn 开始一个新的广告系列会话。utmcn 或 utmcr 存在于任何给定请求中。更改广告系列跟踪数据;但不启动新会话。 utmcn=1
utmcr 指示重复的广告系列访问。当对相同链接进行后续点击时,系统就会设置该变量。utmcn 或 utmcr 存在于任何给定请求中。 utmcr=1
utmcs 浏览器的语言编码。有些浏览器不设置此变量,在这种情况下该变量将设置为“-”。 utmcs=ISO-8859-1
utmdt 网页标题,是一个网址编码字符串。 utmdt=analytics page test
utme 可扩展参数 值已编码,用于事件和自定义变量。
utmfl Flash 版本 utmfl=9.0 r48&
utmhn 主机名,是一个网址编码字符串。 utmhn=x343.gmodules.com
utmipc 产品代码。这是给定产品的 SKU 代码。 utmipc=989898ajssi
utmipn 产品名,是一个网址编码字符串。 utmipn=tee shirt
utmipr 单价。在物品级别设置。值为数字且仅使用美国货币格式。 utmipr=17100.32
utmiqt 数量。 utmiqt=4
utmiva 某个物品的不同版本。例如:大、中、小、粉红色、白色、黑色、绿色。字符串为网址编码。 utmiva=red;
utmje 指示浏览器是否启用了 Java 支持。1 表示启用。 utmje=1
utmn 为每个 GIF 请求生成的唯一 ID,用于防止 GIF 图片缓存。 utmn=1142651215
utmp 当前网页的网页请求。 utmp=/testDirectory/myPage.html
utmr 引荐,完整的网址。 utmr=http://www.example.com/aboutUs/index.php?var=selected
utmsc 屏幕颜色深度 utmsc=24-bit
utmsr 屏幕分辨率 utmsr=2400x1920&
utmt 指示请求的类型,包括:事件、交易、物品或自定义变量。如果 GIF 请求中不存在此值,则请求的类型为网页。 utmt=event
utmtci 帐单邮寄地址所在城市 utmtci=San Diego
utmtco 帐单邮寄地址所在国家/地区 utmtco=United Kingdom
utmtid 订单 ID,为网址编码字符串。 utmtid=a2343898
utmtrg 帐单邮寄地址所在区域,为网址编码字符串。 utmtrg=New Brunswick
utmtsp 运费,单位和价格的值。 utmtsp=23.95
utmtst 关联企业。通常用于电子商务中的实体商户。 utmtst=google mtv store
utmtto 总计。单位和价格的值。 utmtto=334.56
utmttx 税款。单位和价格的值。 utmttx=29.16
utmul 浏览器语言。 utmul=pt-br
utmwv 跟踪代码版本 utmwv=1


以上就是Google Analytics基本异步跟踪代码的运作原理啦,可能有点复杂,有什么疑问就给我留言吧,一定知无不言Google <wbr>Analytics基本异步跟踪代码运作原理