胡 帆:关于统计数据资源建设
“2010国际电子政务理论与实践交流会暨第五届中国电子政务论坛”电子政务专刊稿件,转载请注明。
一、统计信息化的历程
1、短暂的主机时期
1978-1984年期间,国家信息中心前身—国家计委、国家统计局计算中心,开始以主机形式进行报表数据处理,只涉及较少核心业务,IT 资源垄断性地集中在IT 部门。
2、微机起步时期
1984-1995年期间,IT 资源开始走出IT 部门宝塔,集中地完成普查数据处理任务,分散地完成常规报表数据处理任务,使用微机和电话线进行点对点数据传输。
这个时期的特点是:统计工作的数据处理环节,如超级汇总,工作效率和工作质量大幅提高。是典型的非均衡发展模式。以分散的个性化应用为中心,封闭自足,SIT 要素、资源配置和应用发展不均衡、不协调。
3、网络初建时期
1996-2001年期间,微机和Internet 打破了主机模式的垄断地位。“九五”国家统计信息工程项目建设了国家、省和部分中心城市的统计信息主干网络,开始尝试网络化应用,如电子邮件、网上直报等。但是,“烟囱”、“孤岛”式应用日趋严重,软件多乱,亟待治理。
这个时期的特点是:开始从微机点对点通讯、FTP 、网上直报发展到不同网域、不同密级的局域网、城域网、广域网的建设与管理。调查数据报送、信息传递与发布的效率和质量得到显著提高。
4、基础设施资源整合时期
2002年至今,信息化建设开始强调顶层设计。通过统计信息工程扩建项目和地方配套工程进行网络延伸。同时,补充小型机服务器,进行基础设施资源整合;应用软件逐步大型化,开始探索应用软件规范化的道路。
这个时期的特点是:服务器的应用开始从大硬盘数据的容器,发展到应用与技术规则的载体、资源的载体,统计信息化基础设施枢纽职能的载体。
另外,数据安全从微机系统安全发展到环境-网络-主机安全的重点防范,开始构筑等级保护、分级保护、访问控制、安全审计及数据安全的内外兼顾的“大安全”体系。信息安全一票否决的威严与“三员分立、互相制约”安全管理模式势在必行,信息安全意识亟待加强、信息安全管理体系亟待完善。
5、数据资源建设起步时期
2007年至今,统计信息化建设开始强调数据资源建设和业务协同。从数据库、核心业务、服务门户几个方面促进行业信息化融合发展,如国家统计数据库建设运行过程中,以数据为中心,数据库应用软件、数据组织制度、岗位职责三种流程的协调统一。
综上所述,统计信息系统从1984年的“微机起步,人机结合”开始,到技术-业务复合型人才的涌现,SIT 的典型模式在各个时代都推动了一些地方和专业的应用工作,甚至是跨越式的发展。统计信息化建设,就是要探索统计业务建设与信息系统建设之间一条融合的发展道路,其交集就是信息数据资源建设。同时,信息系统的服务支撑功能也是不可或缺的。
二、统计数据资源建设
1、数据资源建设的基本概念
现状:丰富的统计数据还没有形成资源,在内涵、形制、质量、存储、安全管理等方面缺乏统一规范的工作过程。
统计元数据理论及实践如图所示,包括概念层、设计层、执行层三个方面。
2、统计元数据
元数据标准参照ISO/IEEE11179相关标准和国标GB 相关标准。实践中,当前主要包括了四个主要构成要素:名录元数据、制度元数据、数据元数据、操作元数据;根据统计工作流程,又可拆分成7个或更多的过程要素,即:设计、数据采集、编辑审核、汇总处理、整理管理、评估、发布等。
这些标准和构成要素要与本部门、本行业的实践相结合,根据工作的成熟度而具体划分。结合统计数据来讲,就是要描述数据的来源、数据的去处、数据的含义、数据的内容、数据的格式、数据的处理等。
3、统计调查数据处理与全面质量管理
统计调查数据的质量管理贯穿统计工作的整个流程,即 TQC(Total Quality Control )是全面质量管理体系的概念,不是某个层面,也不是个别环节,更不是末端治理。
统计调查数据质量管理涉及统计工作的方方面面,是所有参与或涉及统计工作人员的共同责任和使命。中国实行统一领导、分级负责的统计管理体制。国家统计局没有集中的、庞大的调查与数据处理实施部门。任何统一的制度设计、名录完善和实施方案,都需要逐级的再设计、再落实。这种再设计,不是简单的类比雷同,而是本地化的工作经验、经验数据的积累和综合运用。工作条件也需要层层加以落实。任何一个环节出现问题,都可能影响全局。
现行工作中存在两个严重影响TQC 的问题。一是现行调查制度、工作流程和工作习惯,在数据结构、编辑规则、工作规范上,与发达国家统计机构通行惯例基本不接轨。二是现行统计工作流程尚不兼容发达国家统计机构通行的全面数据质量管理体系。
解决这个问题,从技术的层面看,要从统计工作工业化、信息化的角度,从统计数据生命周期的全过程思考,来找到解决统计数据质量问题的方法。从政策制度的层面看,要从流程、规范、制度法规和体制机制建设等方面协同配套。
4、统计数据安全管理体系建设
统计数据涉及国民经济和社会发展等多个行业和领域,所以,统计信息系统的安全事关国家经济安全和信息安全大局。
统计数据资源建设实施全过程的数据安全规划、安全算法及审计系统监督措施。
在数据环境体系的安全管理方面,开展物理环境、网络系统、主机系统和应用软件的安全管理体系建设。
5、统计数据库体系建设
国家统计数据库体系以国家统计总体数据规划为核心,由统计数据库软件体系、综合-主题化统计指标目录体系、统计数据组织制度体系、统计数据质量管理体系及统计数据安全保障体系基本构成,由中央和地方统计数据库系统共同组成。
国家统计数据库软件体系由专业原始数据库、专业工作数据库、综合应用数据库和基础支撑数据库等功能子系统初步构成。国家统计数据库指标目录体系包括专业调查指标目录、主题化统计指标目录和综合发布统计指标目录。
三、国家统计数据库的建设
1、国家统计数据库的建设背景
近年来,党和国家对信息化高度重视,全社会对信息化的认识普遍提高,信息化成为深入贯彻落实科学发展观、建设创新型国家的战略选择。
针对统计工作而言,国家统计数据库建设不是对现有工作流程个别环节的一次性建设,而是全面对健全统计工作流程、完善统计工作职能,促进统计事业可持续发展的体制机制建设。
国家统计数据库建设使统计信息化从数据处理阶段发展到数据资源规划与建设阶段,在拓展公共服务,形成社会监督,提高数据质量方面起到重要作用。同时,带动并促进统计行业的协调和发展,为实现“一个统计”的提供了战略机遇。
2、国家统计数据库的建设难点
从1986年到2006年的20年间,统计系统上下为建设统计数据库进行了不懈的努力,进行了几轮的数据库建设。一个客观现实是,由于种种原因,坚持下来的甚少,总体效果不佳,没有建成一个可持续的综合类统计数据库。
2002年10月28日,朱镕基、温家宝两位总理到国家统计局考察工作。原本计划在统计信息化建设汇报中安排数据库的演示。但由于当时该数据库内已加载的数据缺乏统一规划和规范整理,检索查询结果无法保证与已发布数据的一致性,也无法保证跨专业查询结果的可查性、可比性,因而作罢。
近年来,有关方面谈统计信息化必谈统计数据库。一个带有悖论意味的问题是,国家统计局既拥有丰富的数据、熟悉统计数据的业务骨干,又具有数据库开发建设的传统,拥有功能比较完整的数据库技术系统,即:既有“数”、又有“库”,为什么就始终没有建立起一个可持续、好用的统计数据库?中间缺少了什么?
总结过去20年统计数据库建设工作的经验与教训,现在我们清楚地认识到,在“数”与“库”之间缺少了统一规划设计前提下的数据资源规划设计、数据组织整理,缺少了一个统计工作工业化的桥梁,结构设计和整合机制,缺少了一种
可持续的发展机制,现行统计工作流程中存在着某种缺位,丰富的统计数据尚未形成资源。
对照发达国家政府统计工作流程,我们的统计数据的生命周期明显缺了一段。普查调查和常规报表数据处理后公报的发布,统计工作流程就基本结束,缺少数据整理及其深入的综合应用、评估反馈。这是数据资源建设与共享应用的重要环节。
3、国家统计数据库的建设重点
(1)建立一套集中统一的数据组织、整理、提交的工作制度和工作规范。把制度建设当作统计数据库建设的重要抓手并作出统筹安排,从根本上解决统计数据库建设的制度依托问题,为当前公共数据库建设和今后统计数据库建设提供科学、稳定的制度保证。
(2)研究确定统计数据库体系构成,率先进行公共数据库的建设。2007年,国家统计局总结历史经验、研究应用需求、对照同类数据库成功建设案例,提出了统计数据库体系的基本构成,并确定率先完成对原“宏观数据库系统”的改造,尽快提出适应公共服务的过渡版公共数据库系统。对内简化数据加载操作,对外简化查询浏览操作。
(3)以临时但有效的组织形式开展数据组织整理工作。由于国家统计局内部职能机构设置尚未包含数据整理及数据库运行维护的岗位职责,这次公共数据库建设,以一种临时的项目机制,即临时抽调人员、统一安排工作的“战时机制”进行,保证了工作的进行。
4、国家统计数据库的建设取得的共识
与以往统计数据库建设比较,本次公共数据库建设与试运行之后,形成了以下普遍共识:
第一、以数据库形式支撑的统计数据公开,要持续地进行下去,不要再被逆转,也不再可能逆转。
第二、统计数据库开发建设的核心是整理数据、组织数据的过程。统计数据库可持续运行的关键是把建设阶段工作制度化、常态化。统计数据库是统计业务工作不可分割的组成部分,而不是通用的、予取予求的平台软件。
第三、2008年12月,国家统计局计算中心更名为国家统计局数据管理中心,确定新的工作流程和职责分工。
第四、2009年9月10日正式割接到升级发布库,新系统全面上线。
5、统计数据资源建设的体制机制
(1)数据资源属性。统计数据经传统的处理主要服务于为宏观调控,共享应用与公共服务较为薄弱,尚未形成资源。统计数据只有经过统一的规划设计、规范的整理校正、集中的管理维护,即有规划、成体系、具规模、又准确,才能形成资源。统计数据资源是一种带有政府公共财产属性的战略资源,是政府信息资源的重要组成部分,是统计事业可持续发展的基石。
(2)统计数据资源建设。在业务方面,要根据共享应用与公共服务的社会需求梳理指标体系,工程化地规范分组分类、设计数据制度、整理历史数据(包括口径调整,缺报、错报数据记录的插补校正)、制定工作规章。在技术和业务方面,要统一名录元数据,统一进行制度元数据、数据元数据整理描述,迁移加载整理好的历史数据。在技术方面,设计建设有效的数据库管理系统、分析挖掘工具、网络传播与安全管理系统,使统计数据资源的重要属性得到彰显和保证。
(3)动力机制。以统计数据库体系支撑的统计数据公开与共享服务,是以统计数据资源建设为基础,电子政务建设项目为保证,并通过逐步形成的稳定的社会需求和有效的社会监督,提供综合的可持续发展动力。
(4)一份耕耘一份收获。综合发布数据库,特别是公共数据库的率先建设,可以较快见到成效,获得领导方面的支持,统一关于统计数据资源建设和统计数据库体系的思想认识,进而带动专业原始数据资源建设,支撑专业原始数据库的建设应用。实践表明,平台软件可以奉行拿来主义,但是,统计数据库建设能够“拿”来的只是软件本身,无论是指标体系、还是数据内容都要经历数据库建设单位全组织艰苦的整理工作过程,没有捷径可循。因此,有条件做的尽量做,能早做的不要晚做,能主动做的不要被动地做。
(5)融合发展的体制机制建设。国家统计数据库的初步建成表明,相关工作制度的建立、流程的整合还只是统计工作的局部,还存在着制约因素,统计改革与统计信息化的融合发展,特别是关于体制机制建设,还需要宏观层面的大智慧、大设计、大工程。
(胡 帆 国家行政学院电子政务专家委员会 专家委员 国家统计局数据管理中心 副主任)