近几年来,仪器仪表行业按照市场经济规模的要求,加大企业结构调整力度,企业间通过联合、兼并等方式,从而使决策树生成算法在仪器仪表行业有了一定的影响力。
一、决策树生成算法在仪器仪表行业中渊源:
在当今的市场经济社会, 纳税人在偷税前要权衡得失, 只有当偷税成本低于偷税收益时, 偷税才可能成为现实。本文通过应用数据挖掘决策树生成算法, 从庞大的税收数据中挖掘建立偷税决策树, 可以帮助税务管理人员提高对纳税人偷税行为的判断准确性, 提高对偷税行为的查处概率( 目前我国的查处概率大约在40%) , 提高纳税人的偷税成本, 使纳税人意识到偷税会“得不偿失”, 来减少纳税人偷税行为的发生。基本决策树算法是一个贪心算法, C5.0 是有名的决策树算法, 它通过选择信息增益( 熵减少的程度) 的属性作为测试属性并产生分支节点, 并根据这一属性的取值产生相应的( 决策树) 分支, 对产生的( 决策树) 分支递归处理, 又获得一个决策( 子) 树, 直至满足停止条件, 产生一棵完整的决策树。本文通过运用基于贪心算法的数据挖掘工具, 对税收征收管理数据和企业财务数据进行处理, 生成纳税人偷税决策树,并应用于税务稽查选案工作中, 收到了良好效果。
二、决策树生成算法在仪器仪表行业中基本概念:
数据挖掘, 又称为数据库知识发现( Knowledge Discovery fromDatabase, 简称KDD) , 它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。决策树是数据挖掘分类与预测的一种。它是一个类似流程图的树型结构, 其中树的每个节点代表对一个属性的测试, 其分支就代表测试的每个结果; 而每个叶节点就代表一个类别。图1 是根据来自加拿大的劳动合同谈判数据集合所挖掘出的决策树。
决策树生成算法在仪器仪表行业中,具有一定的意义,仪器仪表产品结构基本合理,各类产品的发展比较协调。
http://www.dgzhenghang.cn