利用 .Net XML 解析 Execl XML单元格-cdutlibing-ChinaUnix博客

vc++ c++ c 程序开发（vc学习园地cdutlibing.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cdutlibing

博客访问： 9797627
博文数量： 1227
博客积分： 10026
博客等级：上将
技术积分： 20273
用户组：普通用户
注册时间： 2008-01-16 12:40

文章分类

全部博文（1227）

心得感想（0）
test（0）
COM技术（134）

MS Office中的COM（13）

IE编程（12）

ActiveX控件应用（6）

ActiveX控件开发（14）

OLE Automation（3）

WTL（10）

ATL（30）

COM技术_COM_DCO（46）
新闻（572）
工具与产品（0）

设计工具（0）

发布工具（0）

测试工具（0）

调试工具（0）

开发工具（0）
技术英语（0）
标准与规范（0）
程序员话题（0）
开发新闻与技术展（7）
软件工程（19）
硬件与嵌入开发（14）
VC环境与编译调试（21）
XML（17）
脚本语言（3）
WEB Services（1）
.NET平台（50）

应用开发（16）

系统安全（13）

公共语言运行时（21）
文件系统（21）

文件格式（2）

文件与目录对话框（4）

驱动器与磁盘信息（1）

文件操作_拷贝_查（14）
WINDOWS系统（143）

其它（24）

NT服务（7）

注册表（5）

剪贴板（2）

Shell编程（10）

驱动程序开发（11）

钩子HOOK（7）

消息系统（11）

多任务_多进程_（25）

DLL（16）

WIN32 API（25）
数据库（47）

数据库技术_SQL索（4）

Access（3）

Oracle（5）

SQL Server（8）

ODBC（27）
网络与通信（79）

网络安全（7）

通信协议（15）

RAS拨号上网（1）

MODEM通信（1）

并行通信（2）

串行通信（11）

局域网（4）

Internet与WEB服（17）

WinSock（21）
图形、图像与多媒（52）

游戏开发（4）

图形算法（8）

OpenGL（2）

DirectX（5）

视频技术（2）

音频技术（9）

图形存取（6）

图像格式（2）

字体与GDI（5）

位图与调色板（9）
WINDOWS窗口视图（28）

报表与打印（7）

高级用户界面（7）

窗口管理（6）

视图分割与停靠（3）

多文档界面（5）

单文档界面（0）

对话框（0）
WINDOWS标准界面（0）

其它控件（0）

数据表格控件（0）

进度条（0）

列表控件（0）

树型控件（0）

静态控件（0）

属性页（0）

组合框（0）

多功能编辑控件（0）

编辑控件（0）

状态条（0）

工具提示（0）

工具条（0）

菜单（0）

按钮（0）
一般性编程问题（0）

C++、MFC（0）

杂项（0）

Samples（0）

加解密（0）

常用算法与数据结（0）

日期与时间（0）

字符串处理（0）

STL（0）
未分配的博文（19）

文章存档

2010年（1）

2008年（1226）

我的朋友

相关博文

利用 .Net XML 解析 Execl XML单元格

分类： C/C++

2008-04-02 14:16:07

下载本文示例代码

阅读本文需要有 XML 规范基础及 .net XML 解析基础

本文示例代码使用 Visual Stdio 2005 、Office Execl 2007

一、首先我们来看看Execl XML的开头

下面这段是文档的开头，其中定义了一些有用的命名空间，本文要用到的是：

ss:"urn:schemas-microsoft-com:office:spreadsheet"，

它代表了工作表空间。

　　中间一些跳过不管，直接看Worksheet工作表段落。Worksheet字段的Name属性表示工作表名称 Table 字段中的保存了表格的行、列数目等属性：

      
      　　接下来是关键部分，也是最乱的地方，表的数据区。
      
      
      a
      b
      ......
      
      
      9
      10
      
      ......　　上面的数据区如下图所示： 
　　
　　数据区在下面是其他Table表格、下一个Worksheet工作区、表格样式等信息，这里不详细讨论了。

二、Execl XML数据区的格式框架

首先了解一下构架，从上面的数据区编码可以看出，有如下规律：
整个表以行为基础，标记是Row，行号最小的数据记录在最前面的Row中(但不一定是第一个！，随后会说到),其Index属性表示绝对行号 
列是Row的子结点，标记是Cell(同时也表示具体数据元素)，该行中列号最小的数据记录在该行最前面的Cell中,其Index属性表示绝对列号 
Data标记是Cell的子结点，其属性记录数据的类型等信息，其值就是数据本身 
XML中行号、列号的Index属性是该数据在表中的绝对位置；但没有此属性的行、列则用相对位置表示，需要自己解析计算出绝对位置 
无论是行还是列，如果其绝对位置是1，那么都没有Index属性；如果不是1，则有Index属性 
无论是行还是列，如果两行(列)是相邻的，那么都没有Index属性；如果不相邻，则有Index属性 
行、列位置的表示方法 同时存在相对和绝对表示，Index属性的存在不可预知，在解析时一定要注意 
Table使用的命名空间是"urn:schemas-microsoft-com:office:spreadsheet" 

　　需要注意的是，根据存盘情况不同，Row的情况会有变化，目前观察有如下几种：

用Execl第二次保存之前：不会自动出现AutoFitHeight属性；绝对行号是1则没有Index属性且是第一个Row；绝对行号是2(且是行号最小的数据)则有Index属性(=2)且是第一个Row 
用Execl第二次保存之后：所有Row均自动加上AutoFitHeight属性；绝对行号是1则没有Index属性且是第一个Row；绝对行号是2(且是行号最小的数据)则没有Index属性且是第二个Row 
　　由于Row的框架会变，我们的程序就必须覆盖所有情况。不知道MS为什么要这样设计，但是很明显我们写代码时将会比较痛苦...... 
三、部分解析代码

　　全部的Execl单元格解析比较复杂，这里只介绍基本的XML解析。
　　.net XML 解析模型
　　
　　1.读入Execl XML文件
      //有时候用户需要打开Execl的同时做解析，所以我们使用流来构造XML
      //我们的目的只是读出单元格，所以使用XPathDocument可以提高解析性能
      
      //用到的命名空间
      using namespace System::IO;
      using namespace System::Xml;
      using namespace System::Xml::XPath;
      
      //按下面的参数构造流
      FileStream^ sr = File::Open("c:\Book1.XML",FileMode::Open,FileAccess::Read,FileShare::ReadWrite);
      //用流来构造XPathDocument
      XPathDocument^ doc = gcnew XPathDocument(sr);          
　　2.构造游标、命名空间
      //用XPathDocument来构造XPathNavigator游标
      XPathNavigator^ navigator = doc->CreateNavigator();
      //navigator->NameTable是被原子化的XML文档内容
      XmlNamespaceManager^ manager = gcnew XmlNamespaceManager(navigator->NameTable);
      //添加命名空间，并起个名字叫ss
      manager->AddNamespace("ss","urn:schemas-microsoft-com:office:spreadsheet");
      
　　3.查询节点       //找到指定WorkSheet中Name属性,Select需要节点的绝对路径
      XPathNodeIterator^ node = navigator->Select("/ss:Workbook/ss:Worksheet/@ss:Name",manager);
      XPathNavigator^ child = node->Current;
      //未知原因SelectChild()查询子结点总是失败
      
　　4.操作节点游标       //移动到节点的第一个属性
      child->MoveToFirstAttribute();
      //移动到该节点的下一个属性
      child->MoveToNextAttribute();
      //如果在属性中则MoveToParent()回到节点，如果在节点上则回到上一级节点
      child->MoveToParent();
      //移动到下一个同级结点
      child->MoveToNext();
      //移动到第一个子结点
      child->MoveToFirstChild();
      //还有其他很多
      .....
      //得到当前游标位置上的名称(可能是节点名称(标记)，也可能是属性名称)
      child->Name;
      //得到当前游标位置上的值(可能是节点的值，也可能是属性值)
      chile->Value;
      
四、示例代码

　　示例代码的功能是取出Execl中指定的一列，并按照这列的值建立同名的文件夹。
　　由于Execl XML的特殊结构，程序里面的解析比较复杂，大家下载后有时间可以看看。
　　程序现在还有些小问题，需要改进。
　　解析思路为：
　　1.找到用户要求的Worksheet工作表
　　2.游标移动到Table
　　3.找到第一个带数据的Row；如果是相对行位置，则计算出其绝对行号(只有可能是1或2)
　　4.按照第一个带数据的Row所在的绝对行号，找到用户要求的起始行所在的Row位置；注意其间会混杂相对行位置和绝对行位置
　　5.在该Row内找用户要求的列(注意其间会混杂相对列位置和绝对列位置)；如果找不到，则下移一行(注意其间会混杂相对行位置和绝对行位置)，再找，直到找到该列为止
　　6.得到Data的值(取得指定数据项)，做操作
　　7.如果用户指定的结束行号大于表中的行号，则以表中的末尾行号为准
　　
运行效果：
 
数据解析工作非常辛苦、烦闷，同时也需要极大的耐心。希望我的这篇文章能给大家提供一些帮助。
下载本文示例代码



      

























 输入您的搜索字词  提交搜索表单

阅读(713) | 评论(0) | 转发(0) |

上一篇：FTP客户端库(C#)

下一篇：真正的全动态报表：RDLC+ReportViewer

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6