Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1898946
  • 博文数量: 211
  • 博客积分: 464
  • 博客等级: 下士
  • 技术积分: 3794
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-24 18:25
个人简介

阿弥陀佛

文章分类

全部博文(211)

文章存档

2020年(2)

2019年(3)

2018年(5)

2017年(6)

2016年(10)

2015年(9)

2014年(73)

2013年(90)

2012年(13)

分类: 架构设计与优化

2014-09-13 22:35:44

  相似哈希值是一种特殊的信息指纹,真正的用处是在网页爬虫中被使用,比对两个网页的相似程度,如果相似程度很高,那么哈希值就会很相似,如果相似哈希值相同,说明两个网页是相同的,这样可以节省建索引的时间。
  28章搜索广告:
  用户输入的关键词,根据用户的关键词展示相应的商家的链接。并不是谁出的钱多,就展示谁的链接,因为不好的广告链接可能会丧失用户,但是对于百度而言,中文搜索引擎一家独大,不是好事。输入鲜花,可以计算备选的连接中,预估各个链接被点击的概率有多大,然后再将从中选择合适的页面。
   用线性的方法将影响点击率的变量组合起来,
   Z = β0 + β1 * x1 + β2 * x2 + β3* x3 
 通过训练得到β的各个参数,1/Z 即为点击率的预估值。

隐马尔科夫模型
   隐马主要应用到语音识别以及机器翻译中。主要思想是每一个信号si都会产生一个输出oi。
  例如文本信息信号源s1,s2,s3,s4...... 转换成语音信号o1,o2,......
  只要计算 MAXARGS{P(s1,s2,s3....|o1,o2,o3,...)}即可得到最逼近真实的文本s1,s2,s3,s4.....
  P(s1,s2,s3....|o1,o2,o3,...)=P(o1,o2,o3..|s1,s2,s3....)*P(s1,s2,s3....)/P(o1,o2,o3,.....)即可得到最后的结果。
   P(s1,s2,s3....)表示的是这个文本串出现的可能性,P(o1,o2,.....)为常数。只要求得P(o1,o2,o3....|s1,s2,s3....)即可


最小二乘法

最小二乘法可以通过计算得到方差的和最小,计算出最逼近离散的数据点的参数。
某次实验得到了四个数据点 (x, y)(1, 6)(2, 5)(3, 7)(4, 10)(右图中红色的点)。我们希望找出一条和这四个点最匹配的直线 y=.beta_1+.beta_2 x,即找出在某种“最佳情况”下能够大致符合如下超定线性方程组的 .beta_1 和 .beta_2

.begin{alignat}{4}
.beta_1  +  1.beta_2 &&.; = .;&& 6 & ..
.beta_1  +  2.beta_2 &&.; = .;&& 5 & ..
.beta_1  +  3.beta_2 &&.; = .;&& 7 & ..
.beta_1  +  4.beta_2 &&.; = .;&& 10 & ..
.end{alignat}

最小二乘法采用的手段是尽量使得等号两边的方差最小,也就是找出这个函数的最小值:

.begin{align}
S(.beta_1, .beta_2) =
 &.left[6-(.beta_1+1.beta_2).right]^2+.left[5-(.beta_1+2.beta_2)   .right]^2 ..
&+.left[7-(.beta_1 +  3.beta_2).right]^2+.left[10-(.beta_1  +  4.beta_2).right]^2...
.end{align}

最小值可以通过对 S(.beta_1, .beta_2) 分别求 .beta_1 和 .beta_2 的偏导数,然后使它们等于零得到。

.frac{.partial S}{.partial .beta_1}=0=8.beta_1 + 20.beta_2 -56 .frac{.partial S}{.partial .beta_2}=0=20.beta_1 + 60.beta_2 -154.

如此就得到了一个只有两个未知数的方程组,很容易就可以解出:

.beta_1=3.5 .beta_2=1.4

也就是说直线 y=3.5+1.4x 是最佳的。

阅读(1453) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~