竹磬网-邵珠庆の日记 生命只有一次,你可以用它来做些更多伟大的事情–Make the world a little better and easier


512月/111

商务智能的发展-未来的研究方向

发布在 邵珠庆

一、 商务智能(BI),商业智慧(BI)的发展方向:

BI新走向之一:融合加强,演变成门户化

BI新走向之二:日趋“傻瓜”,体现人性化

BI新走向之三:移动BI将成为新战场

BI新走向之四:在云中部署BI,成为主流方向

BI新走向之五:SaaSBI日渐雄起,受中小企业青睐

BI新走向之六:可视化技术呈亮点,交互式分析助推BI

BI新走向之七:外部信息将整合到内部BI中,内外网信息并联互动

二、  智能的搜索引擎研究方向:

查询聚类(Query clustering)

查询意图识别(Query intent recognition)

查询推荐(Query suggestion)

查询改写(Query rewriting),具体包括:

查询同义变换(Query paraphrasing)

查询扩展(Query expansion)

查询缩略(Query reduction)

查询纠错(Query error correction)

学习排序(Learning to rank)

个性化搜索(Personalized search)

命名实体挖掘(Named entity mining)

本体知识库构建(Ontology construction)

 

三、   商务智能(BI),人工智能(AI)的研究方向:

1. 基于大规模机器学习的排序算法(Machine Learning to Rank)

排序算法是搜索技术的核心之一,基于机器学习排序算法将机器学习技术应用于排序问题。研究内容包括但不限于:

排序算法的分布式训练

排序算法的在线学习(online learning)

排序算法的在线预测速度提升

多目标优化的排序算法

2. 海量特征设计(large scale feature engineering)

特征设计在机器学习系统中扮演着至关重要的作用。但当面临海量数据时,往往特征数量也会是海量的,这时如何做好特征选择、特征组合等工作,与小规模时相比会复杂很多。研究内容包括但不限于:

海量特征自动选择

海量特征自动组合

3. 高效训练样本获取(Label Complexity Reduction)

机器学习算法要求大量的高质量的标注样本,然而标注样本耗时耗力,并且在样本到达一定量 后,对样本量的需求增幅远大于训练效果提升,如何高效地获取良好样本是一个挑战。海量互联网数据下的LTR的样本获取、多语言学习任务背景下标注样本的获 取、网页/网站/query等的分类或聚类所需样本等是高效样本获取方法的应用场景。本方向的问题包括但不限于:

通过主动学习(Active learning)加速标注流程

通过迁移学习/多任务学习(Transfer learning/multi-task learning) 利用其他领域的知识和标注样本来提升另一领域的学习效果

通过半监督学习(Semi-supervised learning),考虑如何利用少量的标注样本和大量的未标注样本进行分类和聚类,相关问题有半监督学习的算法改进、半监督学习的在线学习 (Online-learning)或者增量学习(incremental-learning)算法等

4. 规则系统与机器学习系统的整合 (Integration of rule-based system and learning-based system)

规则系统和学习系统一直是人工智能实现方法的两个分支,二者各有优劣。规则系统更擅长高频和训练数据稀疏部分,而学习系统的泛化能力更出色。如何结合两者的优势,规避各自的缺点,是我们希望探讨的地方。研究内容只要与两个系统的整合相关即可。

5.海量数据的主题模型(Topic-model on large scale data)

主题模型主要使用大规模的文档—词汇共现(co-occurrence) 矩阵,例如1亿*100万的矩阵来建模文档和词汇间的潜在联系。研究内容包括但不限于:

主题模型的建模改进

主题模型的在线学习(Online learning)或者增量学习(incremental learning)

主题模型训练过程的大规模并行优化

主题模型的应用

6.推荐系统(recommender system)

推荐系统有着广泛的应用,如搜索引擎和电子商务网站以各种方式使用着推荐系统。在百度的 应用即包括在搜索、知道、音乐、贴吧等用户产品内及产品间的推荐,也包括面向搜索请求推荐广告、面向广告商推荐关键词等。不同应用场景的应用目标和数据量 存在较大差异,对于推荐算法本身也存在不同要求。在本领域的研究包括但不限于:

推荐系统的设计

推荐算法的改进

推荐效果的评估

个性化推荐

7. 点击模型(Click Model)

百度拥有中国搜索引擎市场上最丰富的用户数据,点击模型将极大提升用户对搜索的需求满意度。研究内容包括但不限于:

用户行为数据清洗

用户行为分析和建模

用户行为用于评测

8.网页多分类学习

互联网中网页资源可以按照不同的维度划分成不同的类型,而且一个网页可能兼有多个维度的类型标记。该方向的主要目标就是:如何自动高效地为网页进行分类标记。研究内容包括但不限于:

网页分类的机器学习模型研究:二分类/多分类/多标记学习/无监督学习等

主题/资源/结构分类特征挖掘

模型的跨语言通用性研究

9.基于海量网页的结构化信息自动抽取研究

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取转换成结构化数据。研究内容包括但不限于:

结构化信息自动抽取方法改进

抽取规则生成表示优化

10.观点挖掘、情感分析(opinion mining and sentiment analysis)

观点挖掘、情感分析主要是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。研究内容包括但不限于:

情感分析的算法改进

情感分析在大规模数据(博客、微博、新闻评论、商品评论)中的应用

情感分析在推荐中的应用

11. 基于机器学习的反作弊研究(fraud detection based on machine learning)

基于机器学习的反作弊研究内容包括但不限于:

自动训练数据标注

作弊特征分析

在线实时作弊检测

离线批量数据评估

43月/110

垂直搜索引擎发展的几个方向

发布在 邵珠庆

《电子商务世界》  文/张晓宁

互联网发展至今,其间历经浮躁、追捧、泡沫、寒冬,现在正逐步向人们的日常生活消费、工作空间延伸。人们对互联网的需求也从最初的娱乐、聊天日益转为更加实际的衣、食、住、行、求医、求职等。人们获取信息的渠道从最初的几大门户发展到习惯使用Google、Baidu、Yahoo这些通用的搜索引擎。然而这些行业通用的搜索引擎能满足用户更加个性化、细化的信息需求吗?
最近很多人在讨论搜索引擎的发展趋势,普通认为垂直搜索将是下个潜力市场。从Yahoo推出旅游搜索、Goolge的本地搜索、Baidu的地图搜索、可以看出这些通用搜索巨头所面临的竞争和搜索引擎的发展趋势。如果说搜索引擎的发展方向是垂直搜索,那么垂直搜索的发展方向又是什么?

什么是垂直搜索?

所谓垂直搜索,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。比如:用户搜索上海长宁区的可带宠物就餐的川菜馆的电话、菜单价格、交通指路等这就是一种垂直搜索。

搜索领域有句名言:就是用户无法描述知道他要找什么,除非让他看到想找的东西。微软研究院一名技术专家说:“75%的内容通用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度的提高搜索的“查全率”和“查准率”。正如一句英文所说的“Anything you can search at google you can buy on eBay”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。

垂直搜索引擎的特点

垂直搜索引擎的数据来源于哪里?其一来源于所处行业的相关站点,比如:找酒店、旅游信息的搜索引擎www.qunar.com 的数据来源于:www.ctrip.com www.elong.com、,www.24-hotel.com 等。
其二 来源于自身平台。
可能很多人认为来源于自身平台的搜索只能称为站内搜索,不应该定义成垂直搜索。我不同意这种观点。事实当某一平台上的信息达到足够量大的时候,比如eBay、taobao上的商品数量达上百万种你能说他的搜索不是垂直搜索吗?况且垂直搜索本身就是从这些行业站点提取出数据的。
比如:找餐馆的搜索引擎 www.Gudumami.cn (咕嘟妈咪) 的数据全部来源于它的加盟商户所发布的信息。
当然,eBay、taobao、Alibaba也属于垂直搜索引擎,从用户使用的行为过程来看也是先有搜索动作而后才会有交易,不过更多时候人们愿意称他们为b2b、c2c交易平台。
跟通用搜索引擎相比,垂直搜索引擎有哪些数据特性?垂直搜索引擎的数据倾向于结构化和格式化。比如在某个购物类的垂直搜索引擎上输入“mp3”就会出现,该产品的相关属性如:内存、尺寸、大小、电池型号、价格、生产厂家等相关技术属性,有的还提供比价服务。在某餐饮搜索引擎的高级搜索针对一家餐馆的搜索属性设置多达300个选项,把你想到和没想到都列出来了,这就把搜索服务专业化、细致化、个性化了。
当然,垂直搜索引擎的广告模式也不会再仅是通用搜索引擎的那些套路。除了排名和竞价之外,还很多种广告营利模式。比如,加盟收入、订单提成、会员会费收入、交易费用收入等。由于垂直搜索引擎能提供更为集中的受众群体,因此它的“单次点击有效率”相比通用搜索引擎更为有效,风险更小。

垂直搜索引擎的几个发展方向

更深化发展后,垂直搜索未来将发展到哪几个方向,是很多业内人士都在讨论的问题。笔者认为,它今后会向这几个方向发展。
首先,目录再分类。与早期的网址分类搜索引擎相似,垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。
最近Looksmart在日本推出了专门搜索饮食方面文章的垂直搜索引擎LooksmartJapanesefood,这是Looksmart第一个国外垂直搜索引擎。Looksmart甚至一口气推出了多达19个独立的垂直搜索引擎,分别涉足汽车、城市、教育、健康、家庭生活、赚钱、音乐、娱乐、运动、时尚、科技游戏、 旅行。另个五个teenja.com、gradewinner.com、21hoursholar.com、Parentsufr.com、gobelle.com分别针对青少年 、大学生、tweens、父母、女性。
其次,垂直搜索引擎的第二个发展方向是深度挖掘型搜索,其特点是“元数据模型再组织、再整合、深度数据挖掘、互动性”。
通过对元数据信息进入深度加工,该类垂直搜索引擎为用户提供网页搜索引擎无法做到的专业性、功能性、关联性、有的加入了用户信息管理以及信息发布互动功能,能很好地满足了用户对专业性、准确性、功能性、个性化的需求。 Healthline是医疗行业垂直搜索引擎它保证网上所有医疗信息都在你掌握之中。进入healthline的网站,你会发现他简直就是一个无所不知的医生。
Healthline 的医疗医疗垂直搜索平台使用使用组合语义查寻技术和全面消费健康分类学 。Healthline分类数据由超过850,000项医疗相关元数据, 和50000 条相互关连的医疗概念组成。 这些独特资源使Healthline 翻译每天用户使用语言以便精确地匹配医疗术语,使得消费者能迅速从结果中判断确切的需要信息。第三,垂直搜索可以向本地搜索拓展,其特点是借助于地图元素来发展。
到目前为止,各大搜索引擎Google、Yahoo、msn都推出了本地搜索而且都相对成熟。国内很多人把本地搜索理解等同于地图搜索,这是一种观念上错误。地图搜索只是本地搜索的一个功能元素,就像本地的天气预报一样。本地搜索的关键需求在于人们大多是在本地购物、就餐、娱乐、健身、修车、喝咖啡、工作等。简单地说,去一个什么样地方吃饭要比怎么去重要,地图只是确定和帮助你找到这个地方的工具。如果你不知道一家餐馆是否有你喜欢的菜,也不知道他的消费水平,更不知道他的服务水平及顾客评论,但你知道乘什么车能到达这家餐馆,那么你会选择这家餐馆吗?Map 不等于 local,但local一定包括map。不信你打开map.yahoo.com和Local.yahoo.com比较一下。国内的几大搜索引擎的本地搜索从2005年初开始到现在却仍停留在地图+黄页+公交指路的地图搜索水平阶段。只有中搜的“搜索北京”有点接近本地搜索,可惜没有加地图定位功能,仍停留在文本、图片展示的时代。国内做本地搜索的还有citysee等同样没提供地图定位功能。总体来说国内的本地搜索在数据挖掘、开放接口、信息共享方面和国外比存在很大差距,国外的垂直搜索已经形成了事实上的数据供应链关系。
第四种可能,垂直搜索引擎可以向搜索交易平台发展。
垂直搜索引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合提供更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台。比如美容搜索、餐饮搜索、购物搜索、机票旅游搜索。这种交易平台针对的是小型商家,比如一家川菜馆,一个只有几个人机票代理商,一家美容院。他们甚至没有自己的站点,有些电话号码都是用的是私人的,你114根本查不到,但他们确实需要通过开展电子商务来获得更多的顾客。

最近,healthline垂直搜索获得了1400万美元的融资,强力地刺激了人们对垂直搜索市场认可和期待。相信在未来几年的互联网搜索市场垂直搜索引擎一定会得到更大的发间和机会

 

微软MSN副总裁刘振宇也曾用一组数据说明了中文搜索的不足:

目前有35%的用户对搜索结果不满意并感到失望;50%的搜索结果不能满足用户的搜索需求;搜索结果中,有25%指向了毫不相关的网站。

一边是巨大的市场,一边是同质化环境下难以体现优势,二线搜索运营商们不约而同地盯上了垂直搜索领域。“相对综合搜索引擎的信息量大、查询不准确、深度不够等不可避免的缺陷,垂直搜索引擎则可以通过针对某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。相比较综合搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。”