学习笔记TF038:实现估值网络_libinggen-ChinaUnix博客

利炳根

首页　| 　博文目录　| 　关于我

libinggen

博客访问： 184011
博文数量： 61
博客积分： 0
博客等级：民兵
技术积分： 725
用户组：普通用户
注册时间： 2017-05-13 22:10

文章分类

全部博文（61）

文章存档

2018年（8）

2017年（53）

我的朋友

最近访客

推荐博文

学习笔记TF038:实现估值网络

发布时间：2017-08-12 11:10:43

Q-Learning，学习Action对应期望值(Expected Utility)。1989年，Watkins提出。收敛性，1992年，Watkins和Dayan共同证明。学习期望价值，从当前一步到所有后续步骤，总期望获取最大价值(Q值、Value)。Action->Q函数，最佳策略，在每个state下，选择Q值最高的Action。不依赖环境模型。有限马尔科夫决策过程(Markov Dectision .........【阅读全文】

阅读(1498) | 评论(0) | 转发(0)

学习笔记TF037:实现强化学习策略网络

发布时间：2017-08-12 11:08:45

强化学习(Reinforcement Learing)，机器学习重要分支，解决连续决策问题。强化学习问题三概念，环境状态(Environment State)、行动(Action)、奖励(Reward)，目标获得最多累计奖励。强化学习模型根据环境状态、行动和奖励，学习出最佳策略，以最终结果为目标，不能只看某个行动当下带来的利益，还要看行动未来带来的价值。.........【阅读全文】

阅读(8673) | 评论(0) | 转发(1)

学习笔记TF036:实现Bidirectional LSTM Classifier

发布时间：2017-08-12 11:03:58

双向循环神经网络(Bidirectional Recurrent Neural Networks,Bi-RNN)，Schuster、Paliwal，1997年首次提出，和LSTM同年。Bi-RNN，增加RNN可利用信息。普通MLP，数据长度有限制。RNN，可以处理不固定长度时序数据，无法利用历史输入未来信息。Bi-RNN，同时使用时序数据输入历史及未来数据，时序相反两个循环神经网络连接同一.........【阅读全文】

阅读(1140) | 评论(0) | 转发(0)

学习笔记TF035:实现基于LSTM语言模型

发布时间：2017-08-12 10:50:28

神经结构进步、GPU深度学习训练效率突破。RNN，时间序列数据有效，每个神经元通过内部组件保存输入信息。卷积神经网络，图像分类，无法对视频每帧图像发生事情关联分析，无法利用前帧图像信息。RNN最大特点，神经元某些输出作为输入再次传输到神经元，可以利用之前信息。xt是RNN输入，A是RNN节点，ht是输出。对RNN输.........【阅读全文】

阅读(1221) | 评论(0) | 转发(0)

学习笔记TF034:实现Word2Vec

发布时间：2017-07-30 09:47:30

卷积神经网络发展趋势。Perceptron(感知机)，1957年，Frank Resenblatt提出，始祖。Neocognitron(神经认知机)，多层级神经网络，日本科学家Kunihiko fukushima，20世纪80年代提出，一定程度视觉认知功能，启发卷积神经网络。LeNet-5，CNN之父，Yann LeCun，1997年提出，首次多层级联卷积结构，手写数字有效识别。2012年，Hi.........【阅读全文】

阅读(1320) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6