方法 « 邵珠庆の日记

274月/13关

文件分类方法

发布在邵珠庆

某互联网公司技术经理，其文件第一层主要分为：个人、工作、学习、工具，在工作文件夹下面根据工作类型分为项目、日常、管理。因为该技术经理的主要工作是围绕项目展开，所以项目下面再根据项目名称进行分类；除项目工如图作外，还有日常性的工作，例如服务器维护、内容管理系统维护等内容，管理是该技术经理在公司的另一个角色，涵盖了制度、流程、考核等内容。当然在个人、学习、工具文件夹下面都有相应的再分类。

个人文件命名体系

谈到文件命名，你可能会有疑问，这谁不会啊！是的，好像谁都会，可是有几个人能做到科学地命名呢？通常是随便起个名字，就存到某个地方去了，结果造成想找到的时候变得非常困难。当有一个公司人想寻找公司ERP系统的项目总结报告时，他用“项目总结报告”去搜索，找出了数百个以“项目总结报告”命名的文件。到底哪个是ERP系统项目的总结报告呢？他需要一个个地打开这些文件夹去确定，这就是因为没有采取合适的命名造成的问题。

在这个提倡合作的年代，一个非常普遍的现象是：一份文档往往要经过多人修改，最后发送出去的应该是最终修改稿，而实际情况是，经常发送出去的是其中的某个中间稿，甚至是初稿，这样的结果，轻则会导致重复劳动、工作效率低下，严重的甚至会泄漏商业秘密，造成不应有的损失。

文件的命名工作是一项基础性的工作，简单但不容易坚持，如果能长期坚持下去就可以明显地提升工作效率。文件命名工作的前提是要确定命名的方法和规则，要根据你的工作类型和习惯确定。

下面我们来分享一下某家公司的命名规则：

公司文档命名规则：公司简称-纬度-文档名-日期-版本号，如：KMC-咨询-质量控制-20090318-1.5，意思是KMC公司咨询业务单元质量控制文件，定稿于，版本为1.5.

公司项目命名规则：年-项目号-客户号-项目名-日期-版本号，如：2009-006-上海世博会组委会-国外市场拓展项目媒体组织-20090416-1.0，意思是该公司2009年第六个项目，上海世博会组委会的海外市场拓展媒体组织，定稿于，版本号为1.0.

与公司文件命名相比，在个人文件的命名上，可以更简单一些。除了要给自己的工作文件命名，每个人都会从不同的渠道（网上下载、朋友间的共享）得到不少文件，根据文件类型不同采用不同的命名方法。对于工作需要的文件，如果公司有命名规则就按照公司的规则执行，如果公司没有命名规则就根据自己的规则执行。对于自己收集的文件，则要根据自己的文件命名规则执行。

某出版社编辑对下载的文件，按照一下的方式命名：“标题-机构（或者作者）-分类-类型”，例如他下载的德勒公司演示文稿的模板，是一个ppt文件，他的命名方式是“ppt模板-德勒-个人工具-ppt”，从分类方法上看，他是将ppt模板作为个人的工具，文件的类型为ppt.

以上的方法其实都很简单，你只需要花两个小时的时间对于自己经常接触和使用的文件进行简单的分析，就可以规划处你的文件夹层次，制定出适合自己的命名规则，而难度仅仅在于如何能坚持下来。在日常工作中对文件进行命名，这看起来比较烦琐，但如果长期上看，这是最有效率的文件管理方式。

举个例子说明，很多人从网络上下载许多mp3的歌曲，但由于互联网上的歌曲大部分是根据文件上传的时间自动命名的，所以根本看不出到底是什么歌曲和内容。例如笔者在百度上搜索罗大佑《光阴的故事》，在下载后文件名是416d44cee9bf65b4baf77b3.mp3,估计直接保存后没有人能看明白这是什么歌曲，这个时候我就将它的名字修改成“光阴的故事-罗大佑-mp3.mp,加上mp3文件后缀的目的是我要区分这是什么类型的文件，是一个mp3文件还是一个《光阴的故事》的歌词。当然你也可以用文件名的后缀去区分，但从方便使用的角度说，前者效率更高。

请一定要记住，在你下载文件或者新建文件时，不要只图方便，否则你今天的一时方便会带来明天使用时无穷无尽的麻烦，所以请勤快一些，这对于个人知识保存来说极其重要。

----------------------------------------------------------------------

一、在头脑里把文件的出处（含文件字头和编号等）、用处、保管期限等简单过一下。然后用一小本子记下来。

二、按照文件出处分类。这样找起来也方便一些。若某些文件有补充的材料也一并归入该文件之中。

三、按照文件的用处分类，这种分类方法呢不太恰当，因为你在工作中一般情况下不可能只想到某个人的工作去向之后再去找相关的文件吧，所以我建议不是特别重要的文件的话，完全不必采取这种分类方法。

四、按保管期限分类。这也是一种不太适合你现在工作的文件分类方法。这种方法一般用在涉及国家机密的文件分类方面。

---------------------------------------------------------------------------

ps：大量文件移动后会产生大量的磁盘碎片，最好碎片整理一下。

标签: 文件分类, 方法没有评论

289月/11关

十道海量数据处理面试题与十个方法总结

发布在邵珠庆

第一部分、十道海量数据处理面试题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

或者如下阐述（雪域之鹰）：
算法思想：分而治之+Hash

1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；
2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；
3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；
4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP；

2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。
假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

    典型的Top K算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash表算法。

    文中，给出的最终算法是：
    第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；
    第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。
        即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N） + N'*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

方案：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

    还是典型的TOP K算法，解决方案如下：
    方案1：
    顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。

    找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的 query_cout输出到文件中。这样得到了10个排好序的文件（记为）。

对这10个文件进行归并排序（内排序与外排序相结合）。

方案2：
一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

方案3：
与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的 url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

Bloom filter日后会在本BLOG内详细阐述。

6、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看 bitmap，把对应位是01的整数输出即可。

方案2：也可采用与第1题类似的方法，进行划分小文件的方法。然后在小文件中找出不重复的整数，并排序。然后再进行归并，注意去除重复的元素。

7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

与上第6题类似，我的第一反应时快速排序+二分查找。以下是其它更好的方法：
方案1：oo，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

dizengrong：
方案2：这个问题在《编程珠玑》里有很好的描述，大家可以参考下面的思路，探讨一下：
又因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；
这里我们把40亿个数中的每一个用32位的二进制来表示
假设这40亿个数开始放在一个文件中。

    然后将这40亿个数分成两类:
      1.最高位为0
      2.最高位为1
    并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另一个>=20亿（这相当于折半了）；
与要查找的数的最高位比较并接着进入相应的文件再查找

    再然后把这个文件为又分成两类:
      1.次最高位为0
      2.次最高位为1

    并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另一个>=10亿（这相当于折半了）；
    与要查找的数的次最高位比较并接着进入相应的文件再查找。
    .......
    以此类推，就可以找到了,而且时间复杂度为O(logn)，方案2完。

   附：这里，再简单介绍下，位图方法：
    使用位图法判断整形数组是否存在重复
    判断集合中存在重复是常见编程任务之一，当集合中数据量比较大时我们通常希望少进行几次扫描，这时双重循环法就不可取了。

位图法比较适合于这种情况，它的做法是按照集合中最大元素max创建一个长度为max+1的新数组，然后再次扫描原数组，遇到几就给新数组的第几位置上 1，如遇到5就给新数组的第六个元素置1，这样下次再遇到5想置位时发现新数组的第六个元素已经是1了，这说明这次的数据肯定和以前的数据存在着重复。这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。它的运算次数最坏的情况为2N。如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。

欢迎，有更好的思路，或方法，共同交流。

8、怎么在海量数据中找出重复次数最多的一个？

方案1：先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求（具体参考前面的题）。

9、上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。

方案1：上千万或上亿的数据，现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了，可以用第2题提到的堆机制完成。

10、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

方案1：这题是考虑时间效率。用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度）。然后是找出出现最频繁的前10 个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(n*lg10)。所以总的时间复杂度，是O(n*le)与O(n*lg10)中较大的哪一个。

附、100w个数中找出最大的100个数。

方案1：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。

方案2：采用快速排序的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。复杂度为O(100w*100)。

方案3：采用局部淘汰法。选取前100个元素，并排序，记为序列L。然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，如果比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。依次循环，知道扫描了所有的元素。复杂度为O(100w*100)。

致谢：http://www.cnblogs.com/youwang/。

第二部分、十个海量数据处理方法大总结

ok，看了上面这么多的面试题，是否有点头晕。是的，需要一个总结。接下来，本文将简单总结下一些处理海量数据问题的常见方法，而日后，本BLOG内会具体阐述这些方法。

下面的方法全部来自http://hi.baidu.com/yanxionglu/blog/博客，对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎讨论。

一、Bloom filter

　　适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集

　　基本原理及要点：
　　对于原理来说很简单，位数组+k个独立hash函数。将 hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。

　　还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。

　　举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。

　　注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。

　　扩展：
　　Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。

　　问题实例：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

　　根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340 亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些 urlip是一一对应的，就可以转换成ip，则大大简单了。

二、Hashing

　　适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存

　　基本原理及要点：
　　hash函数选择，针对字符串，整数，排列，具体相应的hash方法。
　　碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened addressing。

扩展：
　　d-left hashing中的d是多个的意思，我们先简化这个问题，看一看2-left hashing。2-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2，给T1和T2分别配备一个哈希函数，h1和h2。在存储一个新的key时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]。这时需要检查T1中的h1[key]位置和T2中的h2[key]位置，哪一个位置已经存储的（有碰撞的）key比较多，然后将新key存储在负载少的位置。如果两边一样多，比如两个位置都为空或者都存储了一个key，就把新key 存储在左边的T1子表中，2-left也由此而来。在查找一个key时，必须进行两次hash，同时查找两个位置。

　　问题实例：
　　1).海量日志数据，提取出某日访问百度次数最多的那个IP。
　　IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。

三、bit-map

　　适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下

　　基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码

　　扩展：bloom filter可以看做是对bit-map的扩展

　　问题实例：
　　1)已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。
　　8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。
　　2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

　　将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map。

四、堆

　　适用范围：海量数据前n大，并且n比较小，堆可以放入内存

　　基本原理及要点：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我们比较当前元素与最大堆里的最大元素，如果它小于最大元素，则应该替换那个最大元素。这样最后得到的n个元素就是最小的n个。适合大数据量，求前n小，n的大小比较小的情况，这样可以扫描一遍即可得到所有的前n元素，效率很高。

　　扩展：双堆，一个最大堆与一个最小堆结合，可以用来维护中位数。

　　问题实例：
　　1)100w个数中找最大的前100个数。
　　用一个100个元素大小的最小堆即可。

五、双层桶划分----其实本质上就是【分而治之】的思想，重在“分”的技巧上！

　　适用范围：第k大，中位数，不重复或重复的数字
　　基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子。

　　扩展：
　　问题实例：
　　1).2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。
　　有点像鸽巢原理，整数个数为2^32,也就是，我们可以将这2^32个数，划分为2^8个区域(比如用单个文件代表一个区域)，然后将数据分离到不同的区域，然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间，就可以很方便的解决。

　　2).5亿个int找它们的中位数。
　　这个例子比上面那个更明显。首先我们将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们根据统计结果就可以判断中位数落到那个区域，同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。

　　实际上，如果不是int是int64，我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成2^24个区域，然后确定区域的第几大数，在将该区域分成2^20个子区域，然后确定是子区域的第几大数，然后子区域里的数的个数只有2^20，就可以直接利用direct addr table进行统计了。

六、数据库索引

　　适用范围：大数据量的增删改查

　　基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。

七、倒排索引(Inverted index)

　　适用范围：搜索引擎，关键字查询

　　基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

　以英文为例，下面是要被索引的文本：
    T0 = "it is what it is"
    T1 = "what is it"
    T2 = "it is a banana"

我们就能得到下面的反向文件索引：

    "a":      {2}
    "banana": {2}
    "is":     {0, 1, 2}
    "it":     {0, 1, 2}
    "what":   {0, 1}

　检索的条件"what","is"和"it"将对应集合的交集。

　　正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。

　　扩展：
　　问题实例：文档检索系统，查询那些文件包含了某单词，比如常见的学术论文的关键字搜索。

八、外排序

　　适用范围：大数据的排序，去重

　　基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树

　　扩展：

　　问题实例：
　　1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。

　　这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1m做hash有些不够，所以可以用来排序。内存可以当输入缓冲区使用。

九、trie树

　　适用范围：数据量大，重复多，但是数据种类小可以放入内存

　　基本原理及要点：实现方式，节点孩子的表示方式

　　扩展：压缩实现。

　　问题实例：
　　1).有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。
　　2).1000万字符串，其中有些是相同的(重复),需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？
　　3).寻找热门查询：查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个，每个不超过255字节。

十、分布式处理 mapreduce

　　适用范围：数据量大，但是数据种类小可以放入内存

　　基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

　　扩展：
　　问题实例：
　　1).The canonical example application of MapReduce is a process to count the appearances of
each different word in a set of documents:
　　2).海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。
　　3).一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数并对它们操作。如何找到N^2个数的中数(median)？

经典问题分析
　　上千万or亿数据（有重复），统计其中出现次数最多的前N个数据,分两种情况：可一次读入内存，不可一次读入。

　　可用思路：trie树+堆，数据库索引，划分子集分别统计，hash，分布式计算，近似统计，外排序

　　所谓的是否能一次读入内存，实际上应该指去除重复后的数据量。如果去重后数据可以放入内存，我们可以为数据建立字典，比如通过 map，hashmap，trie，然后直接进行统计即可。当然在更新每条数据的出现次数的时候，我们可以利用一个堆来维护出现次数最多的前N个数据，当然这样导致维护次数增加，不如完全统计后在求前N大效率高。

　　如果数据无法放入内存。一方面我们可以考虑上面的字典方法能否被改进以适应这种情形，可以做的改变就是将字典存放到硬盘上，而不是内存，这可以参考数据库的存储方法。

　　当然还有更好的方法，就是可以采用分布式计算，基本上就是map-reduce过程，首先可以根据数据值或者把数据hash(md5)后的值，将数据按照范围划分到不同的机子，最好可以让数据划分后可以一次读入内存，这样不同的机子负责处理各种的数值范围，实际上就是map。得到结果后，各个机子只需拿出各自的出现次数最多的前N个数据，然后汇总，选出所有的数据中出现次数最多的前N个数据，这实际上就是reduce过程。

　　实际上可能想直接将数据均分到不同的机子上进行处理，这样是无法得到正确的解的。因为一个数据可能被均分到不同的机子上，而另一个则可能完全聚集到一个机子上，同时还可能存在具有相同数目的数据。比如我们要找出现次数最多的前100个，我们将1000万的数据分布到10台机器上，找到每台出现次数最多的前 100个，归并之后这样不能保证找到真正的第100个，因为比如出现次数最多的第100个可能有1万个，但是它被分到了10台机子，这样在每台上只有1千个，假设这些机子排名在1000个之前的那些都是单独分布在一台机子上的，比如有1001个，这样本来具有1万个的这个就会被淘汰，即使我们让每台机子选出出现次数最多的1000个再归并，仍然会出错，因为可能存在大量个数为1001个的发生聚集。因此不能将数据随便均分到不同机子上，而是要根据hash 后的值将它们映射到不同的机子上处理，让不同的机器处理一个数值范围。

　而外排序的方法会消耗大量的IO，效率不会很高。而上面的分布式方法，也可以用于单机版本，也就是将总的数据根据值的范围，划分成多个不同的子文件，然后逐个处理。处理完毕之后再对这些单词的及其出现频率进行一个归并。实际上就可以利用一个外排序的归并过程。

　另外还可以考虑近似计算，也就是我们可以通过结合自然语言属性，只将那些真正实际中出现最多的那些词作为一个字典，使得这个规模可以放入内存。

标签: 处理, 总结, 方法, 海量数据, 面试题 3 评论

2511月/10关

A/B测试：实现方法

发布在邵珠庆

上文介绍了 A/B 测试的基本概念，接下来我们继续探讨如何实现 A/B 测试。

我们先来看一个图：

A/B testing 部署概念图
（注：感谢Algo 提供本图。）

上图展示了 A/B 测试的实现原理。从左到右，四条较粗的竖线代表了 A/B 测试中的四个关键角色：客户端（Client）、服务器（Server）、数据层（Data）、数据仓库（Data Warehouse）。从上到下代表了三种访问形式：无 A/B 测试的普通访问流程（Non AB test）、基于后端的 A/B 测试访问流程（Back-end AB test）、基于前端的 A/B 测试访问流程（Front-end AB test）。

一般情况下，用户在一次浏览中，会从客户端（Client）发起一个请求，这个请求被传到了服务器（Server），服务器的后台程序根据计算，得出要给用户返回什么内容（Data），同时向数据仓库（Data Warehouse）添加一条打点信息，记录本次访问的相关信息。这个过程也就是图上横向的流程。数据仓库收集到足够的数据之后，就可以开始进行分析（Analytics）了，这也即是图中右上角的部分。

A/B 测试需要将多个不同的版本展现给不同的用户，即需要一个“分流”的环节。从上图中我们可以看到，分流可以在客户端做，也可以在服务器端做。传统的 A/B 测试一般是在服务端分流的，即基于后端的 A/B 测试（Back-end AB test），当用户的请求到达服务器时，服务器根据一定的规则，给不同的用户返回不同的版本，同时记录数据的工作也在服务端完成。

基于后端的 A/B 测试技术实现上稍微简单一些，不过缺点是需要技术部工程资源介入，另外收集到的数据通常是比较宏观的PV（Page View）信息，虽然可以进行比较复杂的宏观行为分析，但要想知道用户在某个版本的页面上的具体行为往往就无能为力了。

基于前端的 A/B 测试则可以解决上面的问题。它的特点是，利用前端 JavaScript 方法，在客户端进行分流，同时，可以用 JavaScript 记录下用户的鼠标行为（甚至键盘行为，如果需要的话），直接发送到对应的打点服务器记录。这样的好处是不需要技术部（如果你们和我们一样，前端工程师与后端工程师分属不同部门的话）参与，并且可以比较精确地记录下用户在页面上的每一个行为，甚至包括后端方法难以记录到的无效点击！

下面，我将重点介绍一下我们在基于前端的 A/B 测试上的一些实践。

一、分流

首先遇到的问题是如何分流的问题。对于大部分需求来说，我们希望各个版本的访问人数平均分配。解决办法有很多种，比较简单的一种即是前面提到过的，根据某一个 Cookie ID 来划分用户，前提是你的网站上每一位访客在第一次访问时就要有一个不重复的 Cookie ID，比如“123.180.140.*.1267882109577.3”。然后，可以根据这个 Cookie ID 的最后一位（在本例中是“3”）来划分人群，比如单数的显示 A 版本，偶数的显示 B 版本。

因为 Cookie ID 一般设定后不会轻易改变，基于 Cookie ID 的好处是我们能很好地对访客保持一致性，某个用户如果第一次看到的是 A 版本，那他刷新后看到的还是 A 版本，不会一会儿看到 A 版本一会儿看到 B 版本。但不足之处就是如果用户浏览器不支持 Cookie 的话，分流就不能正常进行了。不过，现代浏览器默认情况下都是支持 Cookie 的，如果真有用户的浏览器不支持 Cookie ，那也应该是极少数特殊情况，对结果的影响非常微小，对于这些特殊情况，我们一般可以安全地忽略掉。

还有一点需要注意的是，A/B 测试的页面必须有较高的 UV （Unique Visitor，独立访客数），因为分流带有一定的随机性，如果页面 UV 太小，分到每一个版本的人数就更少，结果很有可能被一些偶然因素影响。而 UV 较大时，根据大数定理，我们得到的结果会接近于真实数据。就像想知道一个地方的成年人的平均身高，当然是取的样本越大结论越可信。

二、展示

决定向当前访问者显示哪个版本后，怎么用前端的方法加载对应的版本呢？这需要分情况处理。

一般情况下，如果两个版本只有一个较小的区域不一样，我们可以同时将两个区域的 HTML 都加载到当前页面中，先用 CSS 把它们隐藏起来（也可以默认显示一个版本），等 JS 判断出该显示哪个版本后，再控制对应版本的 CSS 显示。

有时候，测试区域比较大，代码比较多，或者需要后台较多的计算资源，如果一开始就把两个版本的 HTML 全加载到当前页面中，就会需要比较大的开销（比如带宽、后台计算量）。这种情况下，我们可以先把测试区留空，之后再用 Ajax 的方式延迟加载。

还有的时候，测试区域非常大，几乎占了整个页面，或者完全就是不同的页面，这时，用 Ajax 方式加载也不适合了，可以将不同的版本做成不同的页面，然后再用 JS 跳转。不过这样的方式并不是很好，因为前端 JS 跳转需要一定的时间，这个过程很有可能被用户感受到，并且留下不好的体验。对这个问题，似乎没有很好的解决办法，至少在前端层面很难完美解决，所以并不是非常推荐这种跳转方式，如果真的需要跳转，最好是在服务器端由后端代码来操作。

三、数据采集

正确展示对应的版本后，就要开始采集需要的数据了。有一个可选的数据，是当前版本有多少 PV （Page Views，访问量），如果需要记录这个数据的话，在正确版本加载完成之时就要发送一个打点信息。不过很多需求中，具体版本的 PV 的精确数值可能不是很重要，而且要收集这个信息需要多一次打点操作，所以一般情况下这个数据是可选的。

必须的数据是测试区域内用户的点击信息。当用户在测试区域点击了鼠标左键（无论这个点击是点击在链接、文字、图片还是空白处），我们就需要发送一条对应的打点信息到打点服务器。一般来说，这个打点信息至少需要包含以下数据：

当前 A/B 测试以及版本标识
点击事件的位置
点击时间戳（客户端时间）
当前点中的URL（如果点在非超链接区域，此项为空）
用户标识（比如 Cookie ID）
用户浏览器信息

为了尽可能精确地还原用户的点击位置，我们的页面对前端有比较高的要求，要求页面在不同的浏览器下有基本一致的表现，至少在IE6、7、8以及 Fiefox 下，页面横向的元素要精确一致，纵向上很难做到完全一致，但也要尽可能保持统一。另外，这样的测试也不太适合自适应宽度的页面，比较适合定宽的页面，为了避免不同分辨率下页面左右空白不同导致鼠标点击位置的不同，点击位置取的应该是相对于测试区域 左上角的位置。除此之外，最好再记录一下测试区域相对于页面内容左上角的位置，在后面还原点击分布图以及绘制热区图时会用到这个数据。

这一阶段的流程大致如下图所示：

数据打点该如何发送以及如何存储呢？这要取决于你的打点服务器如何存储信息。

四、数据存储

我们使用了一台专用的服务器收集打点信息，为了能支持尽可多尽可能密集的打点请求，这台服务器的 apache 服务网站目录下只有两个静态文件，分别是 abtest.html 和 abtest.gif ，两者都是非常小的空白文件（空白图片）。访客端进行打点时，只需要以 GET 的方式带上相关的参数请求两个文件中的任意一个即可。比如：

http://abtest.xxx.com/abtest.gif ?abid=1-a&clickBlockX=244&clickBlockY=372&clickBlockW=392&clickBlockH=76&clickTime=1263264082137&clickRX=233&clickRY=47&clickURL=&clickBeaconID=123.180.140.*.1267882109577.3&browserType=FireFox

这个请求可以通过 Ajax 的方式发送，也可以通过 JS 在页面上创建 new Image() 对象的方式完成。

对打点服务器来说，这只是一条普通的 HTTP 请求，它会在日志里留下一条普通的日志记录，形如：

123.180.140.* - - [13/Jan/2010:15:21:15 +0800] "GET /abtest.gif?a=123&b=456&c=789 HTTP/1.1" 304 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/532.6 (KHTML, like Gecko) Chrome/4.0.266.0 Safari/532.6"

可以看到了，除了 JS 发送给我们的信息外，Apache 还帮我们记录了一些信息，比如访客 IP 、服务器时间、用户浏览器信息。

对于数据记录和存储来说，到这一步就足够了。Apache 静态文件 + 日志的方式足够高效，基本不用担心性能的问题。剩下的，就是另外一个问题，如何从 Apache 日志中读取打点信息并加以分析，这已经和前端无关了，并且是一个比较复杂的问题，将在后续日志中介绍。

标签: AB, 实现, 方法, 测试没有评论

208月/10关

js四舍五入(round()方法)并保留小数点后N位的函数

发布在邵珠庆

写法巨强的四舍五入的转换函数，如下：

function round(v,e){

var t=1;

for(;e>0;t*=10,e--);

for(;e<0;t/=10,e++);

return Math.round(v*t)/t;

}

在感叹JS强大的同时，也感叹一下自己的无知！

参数里的：

v表示要转换的值

e表示要保留的位数

函数里的两个for，这个是重点了，

第一个for针对小数点右边的情况，也就是保留小数点右边多少位；

第二个for针对小数点左边的情况，也就是保留小数点左边多少位。

for的作用，就是计算t的值，也就是v应该放大或者缩小多少倍的倍数（倍数=t）。

for这里利用到了for里的两个特性，条件判断和计数器累计（循环），

当e满足条件时for继续，并且e每次累加（e的每次累加，就是给for制造不满足循环的条件）的同时，也计算t的值。

最后利用了原生的round方法来计算被放大/缩小后的v的结果，然后把结果放大/缩小到正确的倍数

标签: JS, round, 函数, 四舍五入, 方法没有评论

184月/10关

ThinkPHP单字母函数(快捷方法)使用总结

发布在邵珠庆

1.U() URL组装 支持不同URL模式
U($url='',$vars='',$suffix=true,$domain=false)
  @param string $url URL表达式，格式：'[模块/控制器/操作#锚点@域名]?参数1=值1&参数2=值2...'
  @param string|array $vars 传入的参数，支持数组和字符串
  @param string $suffix 伪静态后缀，默认为true表示获取配置值
  @param boolean $domain 是否显示域名
  @return string

2.D() D函数用于实例化模型类 格式 [资源://][模块/]模型
D($name='',$layer='')
  @param string $name 资源地址
  @param string $layer 模型层名称
  @return Model

3.M() M函数用于实例化一个没有模型文件的Model
M($name='',$tablePrefix='',$connection='')
  @param string $name Model名称 支持指定基础模型 例如MongoModel:User
  @param string $tablePrefix 表前缀
  @param mixed $connection 数据库连接信息
  @return Model

4.I() 获取输入参数 支持过滤和默认值
I($name,$default='',$filter=null)
  使用方法:

I('id',0); //获取id参数 自动判断get或者post
I('post.name','','htmlspecialchars'); //获取$_POST['name']
I('get.'); //获取$_GET

5.B() 执行某个行为
B($name,$tag='',&$params=NULL)
  @param string $name 行为名称
  @param string $tag 标签名称（行为类无需传入）
  @param Mixed $params 传入的参数
  @return void

6.C() 读取及设置配置参数
C($name=null,$value=null,$default=null)
  @param string|array $name 配置变量
  @param mixed $value 配置值
  @param mixed $default 默认值
  @return mixed

7.E() 抛出异常处理
E($msg, $code=0)
  @param string $msg 异常消息
  @param integer $code 异常代码 默认为0
  @return void

8.G() 记录和统计时间（微秒）和内存使用情况
G($start,$end='',$dec=4)
  使用方法:
G('begin'); // 记录开始标记位
// ... 区间运行代码
G('end'); // 记录结束标签位
echo G('begin','end',6); //统计区间运行时间 精确到小数后6位
echo G('begin','end','m'); // 统计区间内存使用情况
  如果end标记位没有定义，则会自动以当前作为标记位
  其中统计内存使用需要 MEMORY_LIMIT_ON 常量为true才有效
  @param string $start 开始标签
  @param string $end 结束标签
  @param integer|string $dec 小数位或者m
  @return mixed

9.L()获取和设置语言定义(不区分大小写)
L($name=null,$value=null)
  @param string|array $name 语言变量
  @param mixed $value 语言值或者变量
  @return mixed

10.T()获取模版文件 格式 资源://模块@主题/控制器/操作
T($template='',$layer='')
  @param string $name 模版资源地址
  @param string $layer 视图层（目录）名称
  @return string

11.N() 设置和获取统计数据
N($key,$step=0,$save=false)
  使用方法:
N('db',1); // 记录数据库操作次数
N('read',1); // 记录读取次数
echo N('db'); // 获取当前页面数据库的所有操作次数
echo N('read'); // 获取当前页面读取次数
  @param string $key 标识位置
  @param integer $step 步进值
  @return mixed

12.A()A函数用于实例化控制器

格式：[资源://][模块/]控制器
A($name,$layer='',$level='')
  @param string $name 资源地址
  @param string $layer 控制层名称
  @param integer $level 控制器层次
  @return Controller|false

13.R() 远程调用控制器的操作方法
URL 参数格式 [资源://][模块/]控制器/操作
R($url,$vars=array(),$layer='')
  @param string $url 调用地址
  @param string|array $vars 调用参数 支持字符串和数组
  @param string $layer 要调用的控制层名称
  @return mixed

14.W()渲染输出Widget
W($name,$data=array())
  @param string $name Widget名称
  @param array $data 传入的参数
  @return void

15.S()缓存管理
S($name,$value='',$options=null)
  @param mixed $name 缓存名称，如果为数组表示进行缓存设置
  @param mixed $value 缓存值
  @param mixed $options 缓存参数
  @return mixed

16.F() 快速文件数据读取和保存 针对简单类型数据 字符串、数组
F($name, $value='',$path=DATA_PATH)
  @param string $name 缓存名称
  @param mixed $value 缓存值
  @param string $path 缓存路径
  @return mixed

标签: ThinkPHP, 使用, 函数, 单字母, 快捷, 总结, 方法没有评论

93月/09关

增加网站访问量的29个方法

发布在邵珠庆

如何增加网站访问量?以下是你可以考虑采用29个方法。其中，你或许已经采用了一些，有的方法你可能忘了采用，还有一些是你从来没有听说过的。总之，在这里你可以了结到当前各种有效的网站推广方法。首先你要了解，网站推广是一个长期而且系统的过程，需要制定明确的目标和计划，并做好相应的准备。
以网站最重要的关键词在主要搜索引擎中排名领先，这是搜索引擎推广中最重要的策略。搜索引擎的搜索机器人会自动搜索网页内容，因此搜索引擎策略从优化网页开始。
一、添加网页标题。
为每页内容写5到8个字的描述性标题。标题要简练“的”“和”这些不重要的词汇。要说明该页面，该网站最重要的内容是什么。网页标题将出现在搜索结果页面的链接上，因此可以写得稍带煽动性，以吸引搜索者点击该链接。同时在首页内容中写上你的公司名和你最重要的关键词，而不能只是写公司名。网站的每一个页面都应该有针对该页面的标题。
二、添加描述性META标签。
除了网页标题，不少搜索引擎会搜索到META标签。这是一句说明性文字。描述网页正文的内容，句中也要包含本页使用到的关键词，词组等。目前，含关键词的META标签已经对排名帮助不大，但有时META标签会用于付费登陆技术中。而且谁又知道什么时候搜索引擎又会再次重视它呢?
三、在网页粗体文字，一般为文章标题中也填上你的关键词。
搜索引擎很重视粗体文字，以为这是本页很重要的内容。因此，确保在一二个粗体文字标签中写上你的关键词。要尽量避免将重要的标题都制作成图片的形式，更不要将整个首页都做成一个图片。
四、确保在你的正文第一段就出现关键词。
搜索引擎希望在第一段文字中就找到你的关键词，但不要充斥过多关键词。google大概将全文每100个字出现1.5到2个关键词视为最佳的关键词密度，可获得好排名。其他可考虑放置关键词的地方可以在代码的ALT或者COMMEET标签里面。如果无法保证正文第一段出现关键词，可以考虑一些不救措施，比如给网页加一个批注等等。
五、导航设计要易于搜索引擎搜索。
有些人在网页制作中使用框架，但是这对于搜索引擎是一个严重的问题。即使搜索引擎找到你的内容页面，也可能错过其中关键性的导航栏目，从而不能进入到其他页面。用Java和FLASH做的导航按钮看起来是很漂亮美观，但是搜索引擎找不到它们。补救的办法是在页面底部用常规HTML链接再作一个导航条，确保可以通过这个导航条进入网站的每一页。你还可以做一个网站地图，也可以链接到每一页面。此外，有些内容管理系统和电子商务目录运用动态的网页，这些页面的网址后面一般都有一个问号带上数字，工作过度的搜索引擎往往在问号前停下，不在继续搜索。对于这种情况。可以通过更改URL，付费登陆等手段加以解决。动态站点可以通过生成静态页面的技术方便搜索引擎的抓取。网站地图要尽量可能链接到所有的主要页面，并单独把站点地图页面提交给搜索引擎。多使用HTML静态网页，虽然增加了工作量，但可以增加搜索引擎的友好度，从而为获得好的排名打下基础。
六、针对某些特别重要的关键词，专门做几个页面。
搜索引擎优化专家不推荐使用任何针对搜索引擎的欺骗性过渡页面，因为这些几乎是复制出来的网页可能搜索引擎的惩罚。但可以做几个页面，每页集中包含不同的关键词或词组。例如，无须在某一页上介绍你所有的服务内容，而是为每种服务分别作一个页面。这样，每一页都有相对应额关键词，这些页面内容因为包含针对性的关键词而不是笼统的内容，从而可以提高排名。
七、向搜索引擎提交网页。
在搜索引擎是找到【ADD YOUR URL】网站登陆的链接。搜索引擎将自动搜索你提交的网页。美国最著名的搜索引擎是：google、inktomi、alta、vista、tehoma。这些搜索引擎向其它主要搜索引擎和门户网站提供搜索内容。在欧洲和其他地区你可以发布到区域性的搜索引擎。至于花钱请人帮你提交成千上万的搜索引擎的做法是在白花钱。也不要在那些FFA(free for all pages)网站，即所谓将你的网站免费自动提交到数百搜索引擎的站点。这类提交不仅效果不好，还会给你带来大量的垃圾邮件，并可能导致搜索引擎对你的网页进行惩罚。也不要使用网站登陆软件，所谓可以一次性将你的网站提交给数以千计的搜索引擎，其实不仅是不可能的，也是没有实际价值的。最重要的是做好网站的优化设计，对于主要搜索引擎，采用逐个手工提交的方式来进行。对于付费搜索引擎，更不可能依靠软件来提交。事实上，有效的搜索引擎营销策略根本不需要将网站登陆到数以千计的搜索引擎，因为访问量最大的几个搜索引擎几乎集中了98%以上的访问量，剩下的搜索引擎没有多少实际意义。另外要注意，提交网页不应该是一次性的，随着内容的更新，应该定期重新提交网页。由于网络页面越来越多，很多搜索机器人的回访时间很长，定期提交可以让搜索引擎前来抓取最新的更新内容。
八、调整主要内容页面以提高排名。
将你认为最重要的页面，或许是首页作一些调整，以提高他们的排名。有一些软件可以让你检查当前的排名，比较跟你的关键词相同的竞争者的网页排名，还可以获得搜索引擎对你的网页的首选统计数据，从而对自己的页面进行调整。你可以使用webpositiongold自己做这个工作，但由于很花时间，也可以请专业的公司帮你做。在其他网站做链接可以带来更多访问量。自从google等主要搜索引擎将网站的链接广泛度作为排名参考的重要因素以后，越多网站链接你，你的网站排名越高。同时，链接的质量也是搜索引擎考虑的重要因素。链接在访问量高的网站比链接在访问量低的网站更有优势。
九、将网站提交到主要的检索目录。
确保你的网站登陆到免费的open directory(www.dmoz.com)，这是由人工进行登陆审查的网站。该分级目录为所有主要搜索引擎提供目录内容提供搜索。google很看重你的网站是否在这类重要的网站有链接。yahoo是另一个重要的检索目录，需要在上面登陆。提示：描述网站的字数最好比规定的最高字数少，不要刚好达到字数限制，以免太长的文字描述使得网站审核人员删除一些句段。目前商业网站登陆yahoo每年要交￥299，最好让他们在7个工作日内就将你的网站登陆上去。其他可以考虑登陆的检索目录有about.com和business.com。国内有很多网站导航站点。例如
http://www.hao123.com
http://www.VeryCD265.com
http://www.chinadir.org
http://web.ahzz.org
等等，也能带来非常大的流量。即使网络营销预算不多，但主要的搜索引擎如新浪，搜虎等也是很有必要登记的。
十、将网站登陆到行业站点和专业目录中。
有一些检索目录定位于某个行业，如教育或金融业。如果你属于某个贸易协会，该协会集中了诸多会员站点，你可向该协会网站申请加入你的站点，哪怕付费也是应该的，因为这会为你带来许多目标访问者。除了可以登陆到很多黄页类网站，到搜索引擎按照你的行业查找，一定也能找到很多相关的行业目录站点，应该尽量登陆这些站点。
十一、请求互换链接。
寻找一些与你的网站内容互补的站点向对方要求互换链接。最理想的链接对象是那些与你的网站流量相当的网站。流量太大的网站管理员要应付太多要求互换链接的请求，容易将你忽略。小的一些网站页可以考虑。互换链接页面要放在网站比较偏僻的地方，以免将你的网站访问者很快引向他人的站点。找到可以互换链接的网站之后，发一封个性化的电邮给对方网站管理，如果对方没有回复，再打电话试一试。一定要关注对方网站的质量，不要片面追求链接数量，更不要发垃圾邮件。
十二、发表免费文章，附带站点签名。
免费为其他网站的新闻邮件写一些专业性文章，文章里用简短的文字附带描述你提供的东西，并请求对方链接你的网站。这是一种有效的病毒营销方法，你的文章将作为成千上百的用户订阅信息发出去，让你的网站一次性获得几百个链接。没有自己的原创文章，转载别人的文章时一定也要加上自己的链接。
网下的传统推广方法依然奏效。多种手段并用的方法尤其有效。
十三、将你的网址印在信纸、名片、宣传册、印刷品上。这种简单的方法有时候却被忽略了。确保网址拼写正确。建议把http：//部分省略，只书写http://web.ahzz.org部分。一个易于记忆的域名有利于网站的推广，在选择域名时一定要仔细考虑。
十四、使用传统媒体广告。
传统媒体广告不应该废止。无论是报纸还是杂志广告，务必确保在其中展示你的网址。要将查看网站作为广告的辅助内容，提醒用户浏览网站将取得更多相关信息。别忽视在一些定位相对比较狭窄的杂志或者贸易期刊刊登广告，有时候这些广告定位会更加准确、有效。而且比网络广告更便宜。还有其它传统方式可增加网站访问量，如直邮、分类广告、明信片等等。电视广告恐怕更适合于那些销售大众化商品的网站。让网址出现在广告中显眼的位置，相信比电话号码更好记忆。
十五、提供免费服务。
人们都喜欢免费的东西。通过免费信息内容吸引人们访问你的网站，比单纯叫人来访问了解你的业务更有效。建立免费资源需要花费时间和精力，但是对增加访问量非常有效。你提供的免费内容要与你销售的东西非常接近，这样你吸引来得访问者才有可能时目标潜在客户，提供免费服务的同时，网站要提供多种链接方式将获取免费信息的用户注意力引导到你销售的产品部分。免费资源比如：免费邮箱、免费网站登陆、免费发布信息、能提供具有特色的免费服务那就更好了。
十六、发布新闻。
寻找具有新闻价值的事件，比如宣传你提供免费服务，并将新闻发布到你所在行业的印刷期刊和网站期刊上。你可以使用一些网络新闻发布服务。比如：www.prweb.com 新闻推广总是有效的，这就是为什么传统媒体会有那么多企业的广告看起来很像新闻的原因。
电子邮件是增加访问量的重要方法，但前提是不能大量发送未经许可的垃圾邮件。
十七、在你发出的邮件中创建一个签名，让潜在客户与你联系。
大部分的邮件系统都有创建签名的功能。签名会自动出现在你发出去的每封邮件末尾。签名要限制在6-8行之内。包括：公司名称、地址、电话、网址、电子邮件和一句你的企业的描述。签名不要为了漂亮设计为图片格式，要便于客户复制拷贝。
十八、建立邮件列表，定期向用户发送新闻邮件或其他信息。
这是与客户保持联系、建立信任、发展品牌及建立长期关系的最好方法之一。你可以请网站访问者填写他们的电子邮件地址，从而收取你的新闻邮件。发送邮件需要采用群发服务器，这些在网络上有很多。
十九、向邮件列表用户发布产品信息，如优惠券，新产品及其其他促销信息。
如果将邮件主题和正文进行个性化处理将获得更好的效果。邮件主题设计的5个基本原则是：1、体现出邮件内容的精华。2、体现出发件人信息中无法包含的内容。3、体现出品牌或者产品信息。4、邮件主题含有丰富的关键词。5、邮件主题不宜过于简单或者过于复杂。
二十、租用目标客户邮件列表。
这些邮件列表客户在邮件列表商的网站注册的时候同意接受某些类别商业邮件信息，因此向这些用户发送你的产品信息是合法的，不属于垃圾邮件。自己用邮址搜索软件收集电子邮件地址，或者购买电子邮件地址都属于垃圾邮件，不仅不会带来好处，甚至会收到惩罚。
二十一、在邮件列表和新闻组中进行促销。
许多在某一专业领域中有着共同兴趣的人在网络上进行讨论交流，形成成千上万不同领域的新闻组。找到自己领域内的新闻组，不是要在其中公开宣传你的产品或者服务，而是在交流的签名中留下你的电子邮件地址和网站。当人们逐渐了解并信任你的时候，他们会访问你的网站。
新闻组在国内应用不多，因此算不上常用的网站推广方法。论坛和聊天室曾经被用来宣传产品，但现在很多网站并不欢迎在这些网络社区发布广告信息，除非有专门的广告发布版块，否则尽量不要采用这种方式。
二十二、运用竞赛。
你可以在网站上设计一个竞赛，奖品要能够吸引那些你最希望获得的那类客户。比如将奖品设计为你的产品或一定的购买折扣等等。运用竞赛可以有效的吸引更多访问量。如果你的知名度不高，如何让客户知道你开展竞赛也是一个问题，因此对有些网站这种方式并不适用。
二十三、让用户将网站加入收藏夹。
我们的做法是在网站首页上添加一个加入收藏图标，真正对网站有兴趣的客户点击浏览器上的收藏也很方便。但一定不要强制将网站设置为客户的首页或浏览你的网站的时候，经常自动出现请将本站加入你的收藏夹、请将本站设置为你的首页。
二十四、与互补性的网站交换广告。
利用对方网站的流量，可以获得新的访问人群。许多网站都有友情链接栏目，加入广告交换网是最方便的，但有些广告交换网带有一些代码，会弹出一些插件提示，可能会给浏览者带来反感以及影响网站的浏览速度。在合作伙伴之间自行交换广告是比较理想的，花点时间也值得。
二十五、创建病毒营销方式。
病毒营销是经由各种交流传递的方式，比如口头传递、新闻发布，将信息迅速扩散开去。第12个推广方法就是病毒营销。最经典的病毒营销方式是邮箱服务商在用户发出去的每一封邮件末尾简短介绍自己的服务。该信息随着邮件发送，迅速传递给新用户，而后者又可能继续传递给其他新用户。注意，病毒营销决不是制造病毒，它实质上是一种免费服务，这种服务只要是有价值的，才会在用户之间自动传播。
付费广告将更加迅速地推广你的网站。网络广告价格一般有一下三种计算方式：传统CPM方式(每千人次印象成本)、PPC方式(按照点击数目付费)、按照实际购买数量付费，还有会员联盟计费方式等等。
二十六、在电子邮件新闻邮件中购买短小的文本广告。
选择目标定位适合自己的邮件列表，在发送给该系列用户的新闻邮件中发布简短的文字广告。与其他网络广告比较，这是非常有效而又成本不高的广告方式。
二十七、实施会员制营销。
联盟会员在自己的网站上加入盟主网站的链接，通过该链接进入实现销售后，将给予该会员一定佣金。实施会员制营销需要考虑一下因素：给会员的佣金提成比例、开发适合自己的联盟程序、推广会员联盟以获得更多会员链接你的网站。可以使用一些联盟管理软件。
二十八、搜索引擎竞价排名。
在购买点击付费广告，在搜索引擎购买关键词广告，你的广告将出现在许多搜索引擎中某些关键词下的结果页面。由于同一个关键词往往有多个客户购买，则具体排名高低根据出价高低决定。竞价排名根据广告实际点击数目付费，而且目标定位准确，是一种成本低，效果好的广告方式。国内3721、搜虎、新浪、网易、百度都提供有竞价排名服务。
二十九、将商品提交到比较购物网站和拍卖网站。
易趣网以及各大站推出的商城都可以试一试，另外，利用网上商店平台开展网络营销也是有效的方法之一。到网上搜一下，网站推广研究资料有很多，其中不乏很多有效的推广方法。实际上，虽然电子商务建设和企业网站推广的方法多，但是这些推广的方法总是万便不离其宗的。很多时候，我们不需要那么多的推广策略，需要的仅仅是，做好网站并且将选定的推广方法更深入的执行下去，这样坚持做下去网站就逐步在网上扬名了。

标签: 增加, 方法, 网站, 访问量没有评论

214月/08关

汉化软件的几种方法

发布在邵珠庆

现在的汉化软件和汉化补丁是越来越多了，你肯定也想自己汉化一些软件试试吧。肯定你又会以为这是很麻烦或者很难的事情，只有高手才会做，其实并不是这样，你也完全可以自己汉化一些软件，有些方法还是很简单的，不需要设计到编程的知识。不相信，不相信就听我下面给你介绍三种方法，保证你看完后，你也能汉化一些平常见的软件了。（哎，我把胸口都拍痛了）

第一种方法：
直接修改源二进制的代码，不要紧张，也不要被吓倒，很简单的。这里需要用到一个二进制代码查看器，如果你没有，我推荐你用一个名字为Ultra Edit的编辑器，相信你已经用过这个编辑器，（没有用过？没有用过也不要紧，往下看！）这个软件比Windows自带的记事本的功能强大许多，用法上倒没有什么复杂的地方，至于具体好在哪里，我就不说了，呵呵，可以自己看看专门介绍它的软件。比如说，我们要汉化一个英文软件，就比如汉化Turbo C吧，把菜单中的“File”汉化成中文的“文件”。用此编辑器打开TC的可执行文件tc.exe，当然啦，在做这之前，你要先备份好你要操作的文件，免得到时候没有汉化成功，倒弄坏了文件，回不来了。打开以后，就可以看到它的原二进制代码文件。这时候，你选择查找功能。从二进制中查找到“file”，找倒后，将它修改成“文件”，然后关闭，执行这个文件，看看是不是已经汉化了。当然，这次你找到的不一定就是你要汉化的菜单，不一定会成功。这就需要反复实验了。
这类方法比较累，并且也不一定准确。这种方法现在也基本没有人使用了。

第二种方法：
这种方法是比较简单的一种，但这种方法只能适用于带有语言选择的软件，这样的软件不是很多，只能是偶尔逮着一个，方法很简单，找到它的语言选择文件夹，里面会有各个语言的选择文件，比如FlashGet的language目录下面有三十几个国家的语言版本。这里面已经有中国的了，假如你想新建一个的话，则也可以用记事本按照它的格式建立一个语言版本。提供给大家的一个思路就是将它的原语言版本复制一个后，用记事本打开，然后按照它的格式修改，将它的内容换成你的内容，注意要一行一行地换，如果你把两行弄到一行去了，这就可能会产生错误了。换完后，你也就已经汉化了这个软件了。
这种方法用途不是很大，一般的多语言版本的程序都有中文的语言版本，不需要你的汉化了。

第三种方法：
好的方法当然留在最后讲，这种方法是汉化者们经常用的一种，那就是修改文件的资源文件。我们知道，用VC和DEPHI编译成的软件都有资源文件。高手呢，就是打开VC，直接修改内核，而我们嘛，就不必掌握这些复杂的方法了，这里给大家介绍一个简单的方法，用eXeScope软件修改，特别的简单。（没有听说过？那没有关系，网络学院里面有教程的）像这类的软件还有很多，不过这个历史比较长，使用也非常的简单。就给大家介绍它了。比如我们要汉化OICQ，当然这本来就是中文版了，不需要汉化，没有关系，这里只是给大家演示一下汉化的过程而已。（要详细了解eXeScope，有专门的文章介绍）
启动eXeScope，选择文件菜单，再选择打开，打开QQ的可执行文件。这时候左边的资源栏目里面就会出现该文件的全部资源，包括什么头部文件，导入的动态连接库，以及它所用到的资源文件。而资源文件，就是我们汉化时要终点修改的内容。从资源中间选择菜单（一般汉化就是汉化菜单和对话框）当菜单栏目展开以后，你可以看到右边的栏目里面有该菜单的全部内容了，这时候，只需要你自己改动就可以了，将各个菜单的名字都改成你所要的名字就可以了，比如说要是“File”，你讲它改成“文件”就可以了。注意的是“&”这个符号，编过程序的人应该知道，这个是不能动的，如果你不知道意思，只要记住，这个符号的意义是：这个符号后面紧跟的字母是这个菜单的快捷键，就像记事本的菜单“文件(F)”那么这个F就是快捷键，最好不要删除掉。比如说有个菜单为：“&Edit”，那么你换的时候，就不能把快捷键去掉，把它写成“(&E)编辑”，就可以了。这是一个要注意的地方。
汉化还包括汉化对话框，同样从左边资源树中点开对话框，从右边就可以看到各个具体的标签与空间的名称了，只需要将各控件显示的文字改过来就可以了，按下F8键，就可以可视化地进行修改了。将修改后的文件保存就可以了（在编辑菜单中有“保存修改”项）。你运行一下你刚才修改过的文件，可以看到修改后的效果了。
当然啦，eXeScope的功能远不止这一些，但汉化是非常好的一个功能。*_*

汉化软件要注意的几点是：
1. 汉化前的备份，如果失败，还可以还原回来。切记！
2. 汉化软件的时候，最好就不要做别的事情了，因为我们都是刚学汉化的人，有可能某个错误，而使软件运行后死机，如果你别的文档没有存盘，可不要说我没有预先通知你了。呵呵。
3. 习惯问题，为了软件的通用性，一般都把“File”汉化成“文件”，把“Edit”汉化成“编辑”，最好遵守一下这个规则。
4. 软件版权问题，还是尊纪守法的好，打官司了，不要说是我害了你哟。

希望上面的汉化方法会对大家有一点帮助，谢谢。

标签: 方法, 汉化, 软件没有评论

« 上一页

支持博主

关于邵珠庆博客

文章标签

记事邵珠庆博客

1、Web前端网址导航
2、邵珠庆极客筛站
3、识别移动设备访问代码

竹磬网-了解慈善捐款计划

邵珠庆の日记生命只有一次，你可以用它来做很多伟大的事情–Make the world a little better and easier

PHP中设置Session过期方法

发布在邵珠庆

文件分类方法

发布在邵珠庆

十道海量数据处理面试题与十个方法总结

发布在邵珠庆

A/B测试：实现方法

发布在邵珠庆

js四舍五入(round()方法)并保留小数点后N位的函数

发布在邵珠庆

ThinkPHP单字母函数(快捷方法)使用总结

发布在邵珠庆

增加网站访问量的29个方法

发布在邵珠庆

汉化软件的几种方法

发布在邵珠庆

支持博主

关于邵珠庆博客

文章标签

记事邵珠庆博客

最近文章

最近评论

博客日历

目录分类

文章归档

博客功能

京东好物

2026年1月
一	二	三	四	五	六	日
« 8月
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

邵珠庆の日记 生命只有一次，你可以用它来做很多伟大的事情–Make the world a little better and easier

发布在 邵珠庆

发布在 邵珠庆

发布在 邵珠庆

发布在 邵珠庆

发布在 邵珠庆

发布在 邵珠庆

发布在 邵珠庆

发布在 邵珠庆

支持博主

关于邵珠庆博客

文章标签

记事邵珠庆博客

最近文章

最近评论

博客日历

目录分类

文章归档

博客功能

京东好物

邵珠庆の日记生命只有一次，你可以用它来做很多伟大的事情–Make the world a little better and easier

发布在邵珠庆

发布在邵珠庆

发布在邵珠庆

发布在邵珠庆

发布在邵珠庆

发布在邵珠庆

发布在邵珠庆

发布在邵珠庆