Chinaunix首页 | 论坛 | 博客
  • 博客访问: 94877
  • 博文数量: 47
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 515
  • 用 户 组: 普通用户
  • 注册时间: 2013-09-29 10:31
文章分类
文章存档

2014年(15)

2013年(32)

我的朋友

分类: C#/.net

2013-10-23 10:15:10

对于某些项目,开发人员需要从Word文档中提取数据并导出到数据库。最大的挑战是必须支持现有Word文档。

相同格式且带多个数据块的Word文档有成千上万。该文档格式并不是设计来被另一个系统所读取的。这意味着,没有书签、合并字段、从标准指令识别实际数据的方式等。还好,所有输入字段都在表格内,但这些表格也是不同的格式,一些是单行/单元格,另一些则变化多端。

我们可以用来创建和操作Word文档。

以C#创建一个类似的表格模型从而稍后当读取文档的时候我们可以用上它。

如下所示,你可以看到创建的名为WordDocumentTable的类,带有三个属性:TableID,RowIDColumnID,如之前所说的,我们没有支持TableID/RowIDs,这些属性仅仅暗示着Word文档的位置。开始索引假定为0。

点击(此处)折叠或打开

  1. public class WordDocumentTable
  2. {
  3.     public WordDocumentTable(int PiTableID)
  4.     {
  5.         MiTableID = PiTableID;
  6.     }

  7.     public WordDocumentTable(int PiTableID, int PiColumnID)
  8.     {
  9.         MiTableID = PiTableID;
  10.         MiColumnID = PiColumnID;
  11.     }

  12.     public WordDocumentTable(int PiTableID, int PiColumnID, int PiRowID)
  13.     {
  14.         MiTableID = PiTableID;
  15.         MiColumnID = PiColumnID;
  16.         MiRowID = PiRowID;
  17.     }

  18.     private int MiTableID = 0;

  19.     public int TableID
  20.     {
  21.         get { return MiTableID; }
  22.         set { MiTableID = value; }
  23.     }

  24.     private int MiRowID = 0;
  25.     public int RowID
  26.     {
  27.         get { return MiRowID; }
  28.         set { MiRowID = value; }
  29.     }

  30.     private int MiColumnID = 0;
  31.     public int ColumnID
  32.     {
  33.         get { return MiColumnID; }
  34.         set { MiColumnID = value; }
  35.     }
  36. }


现在来到提取环节。如下所示,你将看到我想要从文档中读取的表格单元格的集。

点击(此处)折叠或打开

  1. private List<WordDocumentTable> WordDocumentTables
  2. {
  3.     get
  4.     {
  5.         List<WordDocumentTable> wordDocTable = new List<WordDocumentTable>();
  6.         //Reads the data from the first Table of the document.
  7.         wordDocTable.Add(new WordDocumentTable(0));
  8.         //Reads the data from the second table and its second column.
  9.         //This table has only one row.
  10.         wordDocTable.Add(new WordDocumentTable(1, 1));
  11.         //Reads the data from third table, second row and second cell.
  12.         wordDocTable.Add(new WordDocumentTable(2, 1, 1));
  13.         return wordDocTable;
  14.     }
  15. }

下面是从基于表格、行和单元格的Aspose.Words文档提取数据。

点击(此处)折叠或打开

  1. public void ExtractTableData(byte[] PobjData)
  2. {
  3.     using (MemoryStream LobjStream = new MemoryStream(PobjData))
  4.     {
  5.         Document LobjAsposeDocument = new Document(LobjStream);
  6.         foreach(WordDocumentTable wordDocTable in WordDocumentTables)
  7.         {
  8.             Aspose.Words.Tables.Table table = (Aspose.Words.Tables.Table)
  9.             LobjAsposeDocument.GetChild
  10.             (NodeType.Table, wordDocTable.TableID, true);
  11.             string cellData = table.Range.Text;

  12.             if (wordDocTable.ColumnID > 0)
  13.             {
  14.                 if (wordDocTable.RowID == 0)
  15.                 {
  16.                     NodeCollection LobjCells =
  17.                     table.GetChildNodes(NodeType.Cell, true);
  18.                     cellData = LobjCells[wordDocTable.ColumnID].ToTxt();
  19.                 }
  20.                 else
  21.                 {
  22.                     NodeCollection LobjRows =
  23.                     table.GetChildNodes(NodeType.Row, true);
  24.                     cellData = ((Row)(LobjRows[wordDocTable.RowID])).
  25.                     Cells[wordDocTable.ColumnID].ToTxt();
  26.                 }
  27.             }

  28.             Console.WriteLine(String.Format("Data in Table {0},
  29.                     Row {1}, Column {2} : {3}",
  30.                                     wordDocTable.TableID,
  31.                                     wordDocTable.RowID,
  32.                                     wordDocTable.ColumnID,
  33.                                     cellData);
  34.         }
  35.     }
  36. }

阅读(1819) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~