SomToolBox学习笔记（SOM_DEMO1运行分析）-chaoshua-ChinaUnix博客

探索未知，挖掘未然chaoshua.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

chaoshua

博客访问： 735944
博文数量： 98
博客积分： 3257
博客等级：中校
技术积分： 966
用户组：普通用户
注册时间： 2008-07-15 17:19

文章分类

全部博文（98）

文章存档

2020年（1）

2018年（1）

2017年（1）

2016年（2）

2015年（2）

2013年（3）

2012年（24）

2011年（28）

2010年（4）

2009年（9）

2008年（23）

我的朋友

相关博文

SomToolBox学习笔记（SOM_DEMO1运行分析）

分类：大数据

2013-07-24 16:46:34

%SOM_DEMO1 Basic properties and behaviour of the Self-Organizing Map.

%SOM Toolbox 2.0 Mar_17_2005 for matlab 2012a on winxp in virtualbox4.2.16

% ==========================================================

% SOM_DEMO1 - BEHAVIOUR AND PROPERTIES OF SOM

% ==========================================================

% som_make - Create, initialize and train a SOM.

% som_randinit - Create and initialize a SOM.

% som_lininit - Create and initialize a SOM.

% som_seqtrain - Train a SOM.

% som_batchtrain - Train a SOM.

% som_bmus - Find best-matching units (BMUs).

% som_quality - Measure quality of SOM.

% SELF-ORGANIZING MAP (SOM):

% A self-organized map (SOM) is a "map" of the training data,

% dense where there is a lot of data and thin where the data

% density is low.

% The map constitutes of neurons located on a regular map grid.

% The lattice of the grid can be either hexagonal or rectangular.

% 神经网络网格形状可以是六边形或矩形，下面分别绘制了2种形状的网格

subplot(1,2,1)

som_cplane('hexa',[10 15],'none')

title('Hexagonal SOM grid')

subplot(1,2,2)

som_cplane('rect',[10 15],'none')

title('Rectangular SOM grid')

% 网格中的每个神经元都有一个原型向量（也称权重向量）

% 经过训练后，SOM相邻神经元的原型向量会比较相似（相似性一般用欧式距离度量）

% SOM可用于数据可视化、聚类、分类、估计或其他用途

clf

clc

% INITIALIZE AND TRAIN THE SELF-ORGANIZING MAP

% ============================================

D = rand(300,2); %初始化300个随机的2维数据点

msize = [10 10]; %指定神经网络输出层网格为10x10

% SOM_RANDINIT 和 SOM_LININIT都可用于初始化网络神经元的原型向量

% 神经元网格大小是个可选参数，如果不指定，它会基于数据向量数和数据集的主特征向量而自动确定

% 下面的函数采用随机数初始化

sMap = som_randinit(D, 'msize', msize);

% 实际上，SOM的每个网元有2套坐标系

% (1) in the input space: the prototype vectors 输入空间：原型向量

% (2) in the output space: the position on the map 输出空间：神经元映射位置

% 下面通过绘图展示：

subplot(1,3,1)

som_grid(sMap) %画出网格的形状位置

axis([0 11 0 11]), view(0,-90), title('Map in output space')

subplot(1,3,2)

plot(D(:,1),D(:,2),'+r'), hold on %画出数据点的位置，采用红色的‘+’表示一个数据点

som_grid(sMap,'Coord',sMap.codebook) %画出原型向量的坐标位置

title('Map in input space')

sMap = som_seqtrain(sMap,D,'radius',[5 1],'trainlen',10); %采用顺序训练的方法训练SOM

subplot(1,3,3)

som_grid(sMap,'Coord',sMap.codebook) %画出训练后的som网格，黑点为神经元位置，灰色线条为邻居链接关系

hold on, plot(D(:,1),D(:,2),'+r') %画出数据点，红色‘+’表示数据点

title('Trained map')

clf

clc

% TRAINING THE SELF-ORGANIZING MAP

% ================================

% 为了更好的展示训练过程，可以通过可视化形式演示出来

sMap = som_randinit(D,'msize',msize);

sMap.codebook = sMap.codebook + 1; %特意把som网络偏移一个位置

subplot(1,2,1)

som_grid(sMap,'Coord',sMap.codebook)

hold on, plot(D(:,1),D(:,2),'+r'), hold off

title('Data and original map')

% 网络的训练基于以下2个原则:

% Competitive learning（竞争学习）: 原型向量最接近数据向量的单元被修改得更接近于数据向量

% 这样，som网络将学习数据云的位置。This way the map learns the position of the data cloud.

% Cooperative learning（协作学习）: 不仅是最接近的单元，包括它的邻居都朝数据向量移动

% 这样实现了网络的自组织。This way the map self-organizes.

echo off

subplot(1,2,2)

o = ones(5,1);

r = (1-[1:60]/60);

for i=1:60,

sMap = som_seqtrain(sMap,D,'tracking',0,...

'trainlen',5,'samples',...

'alpha',0.1*o,'radius',(4*r(i)+1)*o);

som_grid(sMap,'Coord',sMap.codebook)

hold on, plot(D(:,1),D(:,2),'+r'), hold off

title(sprintf('%d/300 training steps',5*i))

drawnow

end

title('Sequential training after 300 steps')

clf

clc

% TRAINING DATA: THE UNIT CUBE

% ============================

% 上面的粒子,神经网络的维度和输入数据空间的维度刚好相等都是2维

% 实际情况中，一般输入数据都是高维的.这种情况下，网络无法完美的拟合数据

% 因而需要在两个目标中寻求平衡：

% - data representation accuracy，数据表示的精度

% - data set topology representation accuracy，数据集拓扑表示精度

% 如下三维立方体的粒子：

D = rand(500,3);

subplot(1,3,1), plot3(D(:,1),D(:,2),D(:,3),'+r')

view(3), axis on, rotate3d on

title('Data')

clc

% DEFAULT TRAINING PROCEDURE

% ==========================

% 上面的例子用了随机初始化和顺序训练，缺省情况下

% 采用的是线性初始化和批量训练算法（initialization is linear, and batch training algorithm）

% 训练分2个阶段进行: 首先是较大邻居半径的粗学习，然后再采用较小半径的微调。

% 函数SOM_MAKE可用于缺省状况下的网络训练:

sMap = som_make(D);

sMap0 = som_lininit(D);

subplot(1,3,2)

som_grid(sMap0,'Coord',sMap0.codebook,...

'Markersize',2,'Linecolor','k','Surf',sMap0.codebook(:,3))

axis([0 1 0 1 0 1]), view(-120,-25), title('After initialization')

subplot(1,3,3)

som_grid(sMap,'Coord',sMap.codebook,...

'Markersize',2,'Linecolor','k','Surf',sMap.codebook(:,3))

axis([0 1 0 1 0 1]), view(3), title('After training'), hold on

clc

% BEST-MATCHING UNITS (BMU)

% =========================

% 在介绍映射质量前，一个重要的概念需要介绍，那就是最佳匹配单元BMU

% the Best-Matching Unit (BMU). 一个数据向量的BMU是一个在网络中能够跟数据向量最相似的网络单元

% 实际应用中采用最小距离来确定最佳相似度，BMU可采用函数SOM_BMUS来计算.

% 该函数返回最佳单元的索引。

% Here the BMU is searched for the origin point (from the

% trained map):

bmu = som_bmus(sMap,[0 0 0]);

% Here the corresponding unit is shown in the figure. You can

% rotate the figure to see better where the BMU is.

co = sMap.codebook(bmu,:);

text(co(1),co(2),co(3),'BMU','Fontsize',20)

plot3([0 co(1)],[0 co(2)],[0 co(3)],'ro-')

clc

% SELF-ORGANIZING MAP QUALITY

% ===========================

% som网络有2个主要质量评估属性:

% - data representation accuracy 数据精度

% - data set topology representation accuracy 拓扑精度

% 前者通常使用数据向量和其对应BMU间的均方差来度量

% 后者提供了多种度量方式，例如, 地形误差度量（the topographic error

% measure）:数据向量中第一和第二BMU不是相邻单元的数据向量的百分比

% SOM_QUALITY 函数实现2中精度的度量.

% Here are the quality measures for the trained map:

[q,t] = som_quality(sMap,D)

[q0,t0] = som_quality(sMap0,D)

阅读(7291) | 评论(0) | 转发(0) |

上一篇：SomToolBox学习笔记（SOM_DEMO2运行分析）

下一篇：redhat Linux 4.7下安装oracle开始遇见的错误缺少包libXp-1.0.0-8.i386.rpm

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6