Chinaunix首页 | 论坛 | 博客
  • 博客访问: 16497176
  • 博文数量: 5645
  • 博客积分: 9880
  • 博客等级: 中将
  • 技术积分: 68081
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-28 13:35
文章分类

全部博文(5645)

文章存档

2008年(5645)

我的朋友

分类:

2008-04-28 21:35:02

下载本文示例代码
  摘 要 本文阐述了数据挖掘在河南国税的应用,通过实施SOA加强数据综合分析利用,有效的提高了税收征管的质量和效率,促进了收入质量、为纳税人服务水平的全面提升。   关键词 SOA 数据挖掘 整合 管理 信息化   1、引言   近年来,随着信息化建设的总体思路进一步明确,应用系统建设稳步推进,信息应用水平不断提高,信息化基础建设快速发展,河南省国税局按照“统筹规划、统一标准,突出重点、分步实施,整合资源、讲求实效,加强管理、保证安全”的原则和一体化建设要求,以金税三期建设思路为指导,加快税收管理信息系统建设,强化信息应用,创新管理方式,为实施科学化、精细化管理提供有力依托,促进税收事业健康发展。   2、SOA(Service-Oriented Architecture)   SOA(面向服务的体系结构)是一种 IT 体系结构样式,支持将业务作为链接服务或可重复业务任务进行集成,可在需要时通过网络访问这些服务和任务。这个网络可能完全存在于一个地方,也可能分散于各地且采用不同的技术,通过对来自各地的服务进行组合,可让最终用户感觉似乎这些服务就安装在本地桌面上一样。需要时,这些服务可以将自己组装为按需应用程序——即相互连接的服务提供者和使用者集合,彼此结合以完成特定业务任务,使业务能够适应不断变化的情况和需求。   这些服务是自包含的,具有定义良好的接口,允许这些服务的用户(客户机或使用者)了解如何与其进行交互。从技术角度而言,SOA 带来了“松散耦合”的应用程序组件,在此类组件中,代码不一定绑定到某个特定的数据库(甚至不一定绑定到特定的基础设施)。正是得益于这个松散耦合特性,才使得能够将服务组合为各种应用程序。这样还大幅度提高了代码重用率,可以在增加功能的同时减少工作量。所有交互都是基于“服务契约”进行的;服务契约用于定义服务提供者和客户机之间的交互。通常,将通过创建“基于消息的”系统来实现此目标。   SOA对需要使用信息技术解决关键业务问题的企业(包括希望减少冗余架构、创建跨客户和员工系统的公共业务接口的企业;需要基于角色和工作流对用户提供个性化信息的业务的企业;希望通过Internet实现跨区销售、升级销售和经由移动设备的访问来提升客户服务的组织)很有价值。从业务的角度来说,面向服务的体系结构的重点在于开发能帮助完成业务任务的技术,而不是通过技术约束来规定行动。   面向服务的体系结构基于实际活动或业务服务进行组织,而不是形成不同的信息竖井。通过实现 SOA,可以带来大量好处,包括以下各个方面:   (1)更高的业务和 IT 一致性   (2)基于组件的系统   (3)松散耦合的组件和系统   (4)基于网络的基础设施,允许分散于各地且采用不同技术的资源协同工作   (5)动态构建的按需应用程序   (6)更高的代码重用率   (7)更好地标准化整个业务流程   (8)更易于集中企业控制   3、数据挖掘   数据挖掘(Data Mining)就是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势,是一种更深层次的数据分析。这个定义包括好几层含义:数据源必须是真实的、大量的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用。   数据是形成知识的源泉,原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。   数据挖掘可按以下步骤实施:   (1)定义问题   该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的最终目标。   (2)准备数据   准备数据就是合并和清除定义问题步骤中标识的数据,数据可以分散在不同的地方并以不同的格式存储,或者可能包含缺陷项或缺少项之类的不一致性。   (3)浏览数据   浏览数据是为了了解数据,以便在创建模型时作出正确的决策。浏览技术包括计算最大值和最小值,计算平均偏差和标准偏差,以及查看数据的分布。浏览完数据之后,便可确定数据集是否包含缺陷数据,然后制订纠正这些问题的策略。   (4)生成挖掘模型   在生成模型之前,必须随机将已准备的数据分离到单独的定型数据集和测试数据集。使用定型数据集生成模型并通过创建预测查询来测试数据集测试模型的准确性。您将使用从浏览数据步骤中获得的知识来帮助定义和创建挖掘模型。模型通常包含多个输入列、一个标识列以及一个可预测列。定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构。这称为“定型”模型。模式通过利用数学算法计算原始数据而得。   4、SOA与数据挖掘在税务系统应用   4.1 SOA是实施数据省局集中,推进信息资源整合,奠定数据挖掘的基础   SOA基础架构包括三层关键结构,最底层是数据层,主要是高效组织的结构化数据;中间层是集成工具,能够将底层数据的异构和分布结构屏蔽,并无逢内嵌到中间层,提供清晰明确的统一视图和接口;最上层是应用工具,以数据管理为核心,控制非结构化的内容,提供用户所需的信息和服务。      如果基层税务部门提供的数据不真实,或者不全面,税务部门就难以提供准确的数据进行分析决策。用正确的方法去分析错误的数据,显然不能得出正确的结论。另一方面分散的数据也不利于数据挖掘,而实施SOA的一个关键就是高效组织的结构化数据。   为了避免出现这一局面,从2006年起,税务系统开始实施税收数据的省级集中。这样,省局就可以直接掌握基层税收征管数据,而基层就不能修改软件或数据库中的数据,这为省局能够直接掌握基层的数据提供了条件。   截至2006年上半年,全国共有31个国税局推广应用了总局统一的综合征管信息系统,部分地税局也在全省范围内统一应用了自行开发的综合征管软件。相关数据已实现了省级集中,31个省国税局征管数据已集中到总局,目前总局已有十大类涉税数据。   4.2 数据挖掘是税务信息化的核心   数据集中使省局、总局集中了大量的涉税原始信息,较好地解决了税务机关上下级之间信息不对称的问题,对解决微观领域中税务机关与纳税人之间信息不对称的问题也有较大的帮助。数据集中后,用于开展税收管理、深化税收分析等的信息资源得以大大增加:横向上从入库数、应征数扩大到企业基本信息、纳税申报以至部分生产经营和财务指标;纵向上税收数据的颗粒度大大缩小,可以很快聚焦到最原始的微观领域数据来研究问题。同时,数据集中也使分析的效率得到空前提高。   数据集中使得海量的税款征收信息流汇集到了税收管理信息系统。通过SOA技术整合信息资源,建立标准统一、内容完整、信息真实的税收经济数据库。一是税款的应征、入库、欠税、缓税、减免税等数据;二是企业纳税申报的有关数据,包括纳税申报表及附表中的有关数据,如销售收入、利润、增值税销项税金、进项税金等;三是主要行业、企业的生产经营指标,如重要产品产销量、价格、库存数据等等;四是有关宏观经济数据,如GDP、工业增加值、投资、消费、进出口等主要经济数据。   目前河南国税自行开发的电子税源档案全面采集或抽取现有业务系统(税收征管信息系统(CTAIS)、金税工程、出口退税、纳税评估、电子申报等)中的企业涉税信息和各类财务报表数据,经过加工处理和规划存储,建成全省统一的税收业务综合数据库。与此同时,这套系统整合了已有的税务监控、查询分析、报表管理等软件,开发形成集一户式查询、业务考核、报表管理、税负查询、精细化管理和各类业务查询于一身的综合性查询分析应用软件。   5、结束语   数据挖掘加强了税源信息综合应用,夯实税收征管基础,提高了各项税收政策的执行力,全面推动税收管理的科学化、精细化。SOA适应数据集中分析应用需要,创新税务管理方式,不断完善税务管理机制。  查阅关于 SOA 的全部文档   摘 要 本文阐述了数据挖掘在河南国税的应用,通过实施SOA加强数据综合分析利用,有效的提高了税收征管的质量和效率,促进了收入质量、为纳税人服务水平的全面提升。   关键词 SOA 数据挖掘 整合 管理 信息化   1、引言   近年来,随着信息化建设的总体思路进一步明确,应用系统建设稳步推进,信息应用水平不断提高,信息化基础建设快速发展,河南省国税局按照“统筹规划、统一标准,突出重点、分步实施,整合资源、讲求实效,加强管理、保证安全”的原则和一体化建设要求,以金税三期建设思路为指导,加快税收管理信息系统建设,强化信息应用,创新管理方式,为实施科学化、精细化管理提供有力依托,促进税收事业健康发展。   2、SOA(Service-Oriented Architecture)   SOA(面向服务的体系结构)是一种 IT 体系结构样式,支持将业务作为链接服务或可重复业务任务进行集成,可在需要时通过网络访问这些服务和任务。这个网络可能完全存在于一个地方,也可能分散于各地且采用不同的技术,通过对来自各地的服务进行组合,可让最终用户感觉似乎这些服务就安装在本地桌面上一样。需要时,这些服务可以将自己组装为按需应用程序——即相互连接的服务提供者和使用者集合,彼此结合以完成特定业务任务,使业务能够适应不断变化的情况和需求。   这些服务是自包含的,具有定义良好的接口,允许这些服务的用户(客户机或使用者)了解如何与其进行交互。从技术角度而言,SOA 带来了“松散耦合”的应用程序组件,在此类组件中,代码不一定绑定到某个特定的数据库(甚至不一定绑定到特定的基础设施)。正是得益于这个松散耦合特性,才使得能够将服务组合为各种应用程序。这样还大幅度提高了代码重用率,可以在增加功能的同时减少工作量。所有交互都是基于“服务契约”进行的;服务契约用于定义服务提供者和客户机之间的交互。通常,将通过创建“基于消息的”系统来实现此目标。   SOA对需要使用信息技术解决关键业务问题的企业(包括希望减少冗余架构、创建跨客户和员工系统的公共业务接口的企业;需要基于角色和工作流对用户提供个性化信息的业务的企业;希望通过Internet实现跨区销售、升级销售和经由移动设备的访问来提升客户服务的组织)很有价值。从业务的角度来说,面向服务的体系结构的重点在于开发能帮助完成业务任务的技术,而不是通过技术约束来规定行动。   面向服务的体系结构基于实际活动或业务服务进行组织,而不是形成不同的信息竖井。通过实现 SOA,可以带来大量好处,包括以下各个方面:   (1)更高的业务和 IT 一致性   (2)基于组件的系统   (3)松散耦合的组件和系统   (4)基于网络的基础设施,允许分散于各地且采用不同技术的资源协同工作   (5)动态构建的按需应用程序   (6)更高的代码重用率   (7)更好地标准化整个业务流程   (8)更易于集中企业控制   3、数据挖掘   数据挖掘(Data Mining)就是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势,是一种更深层次的数据分析。这个定义包括好几层含义:数据源必须是真实的、大量的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用。   数据是形成知识的源泉,原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。   数据挖掘可按以下步骤实施:   (1)定义问题   该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的最终目标。   (2)准备数据   准备数据就是合并和清除定义问题步骤中标识的数据,数据可以分散在不同的地方并以不同的格式存储,或者可能包含缺陷项或缺少项之类的不一致性。   (3)浏览数据   浏览数据是为了了解数据,以便在创建模型时作出正确的决策。浏览技术包括计算最大值和最小值,计算平均偏差和标准偏差,以及查看数据的分布。浏览完数据之后,便可确定数据集是否包含缺陷数据,然后制订纠正这些问题的策略。   (4)生成挖掘模型   在生成模型之前,必须随机将已准备的数据分离到单独的定型数据集和测试数据集。使用定型数据集生成模型并通过创建预测查询来测试数据集测试模型的准确性。您将使用从浏览数据步骤中获得的知识来帮助定义和创建挖掘模型。模型通常包含多个输入列、一个标识列以及一个可预测列。定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构。这称为“定型”模型。模式通过利用数学算法计算原始数据而得。   4、SOA与数据挖掘在税务系统应用   4.1 SOA是实施数据省局集中,推进信息资源整合,奠定数据挖掘的基础   SOA基础架构包括三层关键结构,最底层是数据层,主要是高效组织的结构化数据;中间层是集成工具,能够将底层数据的异构和分布结构屏蔽,并无逢内嵌到中间层,提供清晰明确的统一视图和接口;最上层是应用工具,以数据管理为核心,控制非结构化的内容,提供用户所需的信息和服务。      如果基层税务部门提供的数据不真实,或者不全面,税务部门就难以提供准确的数据进行分析决策。用正确的方法去分析错误的数据,显然不能得出正确的结论。另一方面分散的数据也不利于数据挖掘,而实施SOA的一个关键就是高效组织的结构化数据。   为了避免出现这一局面,从2006年起,税务系统开始实施税收数据的省级集中。这样,省局就可以直接掌握基层税收征管数据,而基层就不能修改软件或数据库中的数据,这为省局能够直接掌握基层的数据提供了条件。   截至2006年上半年,全国共有31个国税局推广应用了总局统一的综合征管信息系统,部分地税局也在全省范围内统一应用了自行开发的综合征管软件。相关数据已实现了省级集中,31个省国税局征管数据已集中到总局,目前总局已有十大类涉税数据。   4.2 数据挖掘是税务信息化的核心   数据集中使省局、总局集中了大量的涉税原始信息,较好地解决了税务机关上下级之间信息不对称的问题,对解决微观领域中税务机关与纳税人之间信息不对称的问题也有较大的帮助。数据集中后,用于开展税收管理、深化税收分析等的信息资源得以大大增加:横向上从入库数、应征数扩大到企业基本信息、纳税申报以至部分生产经营和财务指标;纵向上税收数据的颗粒度大大缩小,可以很快聚焦到最原始的微观领域数据来研究问题。同时,数据集中也使分析的效率得到空前提高。   数据集中使得海量的税款征收信息流汇集到了税收管理信息系统。通过SOA技术整合信息资源,建立标准统一、内容完整、信息真实的税收经济数据库。一是税款的应征、入库、欠税、缓税、减免税等数据;二是企业纳税申报的有关数据,包括纳税申报表及附表中的有关数据,如销售收入、利润、增值税销项税金、进项税金等;三是主要行业、企业的生产经营指标,如重要产品产销量、价格、库存数据等等;四是有关宏观经济数据,如GDP、工业增加值、投资、消费、进出口等主要经济数据。   目前河南国税自行开发的电子税源档案全面采集或抽取现有业务系统(税收征管信息系统(CTAIS)、金税工程、出口退税、纳税评估、电子申报等)中的企业涉税信息和各类财务报表数据,经过加工处理和规划存储,建成全省统一的税收业务综合数据库。与此同时,这套系统整合了已有的税务监控、查询分析、报表管理等软件,开发形成集一户式查询、业务考核、报表管理、税负查询、精细化管理和各类业务查询于一身的综合性查询分析应用软件。   5、结束语   数据挖掘加强了税源信息综合应用,夯实税收征管基础,提高了各项税收政策的执行力,全面推动税收管理的科学化、精细化。SOA适应数据集中分析应用需要,创新税务管理方式,不断完善税务管理机制。  查阅关于 SOA 的全部文档 下载本文示例代码


SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用SOA与数据挖掘在税收系统的应用
阅读(46) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~