相似哈希值是一种特殊的信息指纹,真正的用处是在网页爬虫中被使用,比对两个网页的相似程度,如果相似程度很高,那么哈希值就会很相似,如果相似哈希值相同,说明两个网页是相同的,这样可以节省建索引的时间。
28章搜索广告:
用户输入的关键词,根据用户的关键词展示相应的商家的链接。并不是谁出的钱多,就展示谁的链接,因为不好的广告链接可能会丧失用户,但是对于百度而言,中文搜索引擎一家独大,不是好事。输入鲜花,可以计算备选的连接中,预估各个链接被点击的概率有多大,然后再将从中选择合适的页面。
用线性的方法将影响点击率的变量组合起来,
Z = β0 +
β1 * x1 + β2 * x2 + β3* x3
通过训练得到β的各个参数,1/Z 即为点击率的预估值。
隐马尔科夫模型
隐马主要应用到语音识别以及机器翻译中。主要思想是每一个信号si都会产生一个输出oi。
例如文本信息信号源s1,s2,s3,s4...... 转换成语音信号o1,o2,......
只要计算 MAXARGS{P(s1,s2,s3....|o1,o2,o3,...)}即可得到最逼近真实的文本s1,s2,s3,s4.....
P(s1,s2,s3....|o1,o2,o3,...)=P(o1,o2,o3..|s1,s2,s3....)*P(s1,s2,s3....)/P(o1,o2,o3,.....)即可得到最后的结果。
P(s1,s2,s3....)表示的是这个文本串出现的可能性,P(o1,o2,.....)为常数。只要求得P(o1,o2,o3....|s1,s2,s3....)即可
最小二乘法
最小二乘法可以通过计算得到方差的和最小,计算出最逼近离散的数据点的参数。
某次实验得到了四个数据点 :、、、(右图中红色的点)。我们希望找出一条和这四个点最匹配的直线 ,即找出在某种“最佳情况”下能够大致符合如下超定线性方程组的 和 :
最小二乘法采用的手段是尽量使得等号两边的方差最小,也就是找出这个函数的最小值:
最小值可以通过对 分别求 和 的偏导数,然后使它们等于零得到。
如此就得到了一个只有两个未知数的方程组,很容易就可以解出:
也就是说直线 是最佳的。
阅读(1453) | 评论(0) | 转发(0) |