竹磬网-邵珠庆の日记 生命只有一次,你可以用它来做些更多伟大的事情–Make the world a little better and easier


512月/111

商务智能的发展-未来的研究方向

发布在 邵珠庆

一、 商务智能(BI),商业智慧(BI)的发展方向:

BI新走向之一:融合加强,演变成门户化

BI新走向之二:日趋“傻瓜”,体现人性化

BI新走向之三:移动BI将成为新战场

BI新走向之四:在云中部署BI,成为主流方向

BI新走向之五:SaaSBI日渐雄起,受中小企业青睐

BI新走向之六:可视化技术呈亮点,交互式分析助推BI

BI新走向之七:外部信息将整合到内部BI中,内外网信息并联互动

二、  智能的搜索引擎研究方向:

查询聚类(Query clustering)

查询意图识别(Query intent recognition)

查询推荐(Query suggestion)

查询改写(Query rewriting),具体包括:

查询同义变换(Query paraphrasing)

查询扩展(Query expansion)

查询缩略(Query reduction)

查询纠错(Query error correction)

学习排序(Learning to rank)

个性化搜索(Personalized search)

命名实体挖掘(Named entity mining)

本体知识库构建(Ontology construction)

 

三、   商务智能(BI),人工智能(AI)的研究方向:

1. 基于大规模机器学习的排序算法(Machine Learning to Rank)

排序算法是搜索技术的核心之一,基于机器学习排序算法将机器学习技术应用于排序问题。研究内容包括但不限于:

排序算法的分布式训练

排序算法的在线学习(online learning)

排序算法的在线预测速度提升

多目标优化的排序算法

2. 海量特征设计(large scale feature engineering)

特征设计在机器学习系统中扮演着至关重要的作用。但当面临海量数据时,往往特征数量也会是海量的,这时如何做好特征选择、特征组合等工作,与小规模时相比会复杂很多。研究内容包括但不限于:

海量特征自动选择

海量特征自动组合

3. 高效训练样本获取(Label Complexity Reduction)

机器学习算法要求大量的高质量的标注样本,然而标注样本耗时耗力,并且在样本到达一定量 后,对样本量的需求增幅远大于训练效果提升,如何高效地获取良好样本是一个挑战。海量互联网数据下的LTR的样本获取、多语言学习任务背景下标注样本的获 取、网页/网站/query等的分类或聚类所需样本等是高效样本获取方法的应用场景。本方向的问题包括但不限于:

通过主动学习(Active learning)加速标注流程

通过迁移学习/多任务学习(Transfer learning/multi-task learning) 利用其他领域的知识和标注样本来提升另一领域的学习效果

通过半监督学习(Semi-supervised learning),考虑如何利用少量的标注样本和大量的未标注样本进行分类和聚类,相关问题有半监督学习的算法改进、半监督学习的在线学习 (Online-learning)或者增量学习(incremental-learning)算法等

4. 规则系统与机器学习系统的整合 (Integration of rule-based system and learning-based system)

规则系统和学习系统一直是人工智能实现方法的两个分支,二者各有优劣。规则系统更擅长高频和训练数据稀疏部分,而学习系统的泛化能力更出色。如何结合两者的优势,规避各自的缺点,是我们希望探讨的地方。研究内容只要与两个系统的整合相关即可。

5.海量数据的主题模型(Topic-model on large scale data)

主题模型主要使用大规模的文档—词汇共现(co-occurrence) 矩阵,例如1亿*100万的矩阵来建模文档和词汇间的潜在联系。研究内容包括但不限于:

主题模型的建模改进

主题模型的在线学习(Online learning)或者增量学习(incremental learning)

主题模型训练过程的大规模并行优化

主题模型的应用

6.推荐系统(recommender system)

推荐系统有着广泛的应用,如搜索引擎和电子商务网站以各种方式使用着推荐系统。在百度的 应用即包括在搜索、知道、音乐、贴吧等用户产品内及产品间的推荐,也包括面向搜索请求推荐广告、面向广告商推荐关键词等。不同应用场景的应用目标和数据量 存在较大差异,对于推荐算法本身也存在不同要求。在本领域的研究包括但不限于:

推荐系统的设计

推荐算法的改进

推荐效果的评估

个性化推荐

7. 点击模型(Click Model)

百度拥有中国搜索引擎市场上最丰富的用户数据,点击模型将极大提升用户对搜索的需求满意度。研究内容包括但不限于:

用户行为数据清洗

用户行为分析和建模

用户行为用于评测

8.网页多分类学习

互联网中网页资源可以按照不同的维度划分成不同的类型,而且一个网页可能兼有多个维度的类型标记。该方向的主要目标就是:如何自动高效地为网页进行分类标记。研究内容包括但不限于:

网页分类的机器学习模型研究:二分类/多分类/多标记学习/无监督学习等

主题/资源/结构分类特征挖掘

模型的跨语言通用性研究

9.基于海量网页的结构化信息自动抽取研究

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取转换成结构化数据。研究内容包括但不限于:

结构化信息自动抽取方法改进

抽取规则生成表示优化

10.观点挖掘、情感分析(opinion mining and sentiment analysis)

观点挖掘、情感分析主要是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。研究内容包括但不限于:

情感分析的算法改进

情感分析在大规模数据(博客、微博、新闻评论、商品评论)中的应用

情感分析在推荐中的应用

11. 基于机器学习的反作弊研究(fraud detection based on machine learning)

基于机器学习的反作弊研究内容包括但不限于:

自动训练数据标注

作弊特征分析

在线实时作弊检测

离线批量数据评估