发布时间:2023-09-27 16:14:40
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的大数据在社会治理中的应用样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。

>> 大数据时代政府治理面临的挑战及应对 大数据时代政府治理的机遇、挑战与对策 智慧城市与大数据时代的政府治理 论大数据时代背景下国家文化安全面临的挑战及其应对 大数据时代政府统计面临的机遇和挑战 大数据与政府治理 大数据时代企业所面临的挑战与应对 大数据时代电子商务征纳税面临的挑战与应对 浅谈大数据时代管理会计面临的挑战与应对措施 浅谈统计学在大数据时代面临的机遇、挑战及其发展趋势 大数据与政府治理能力现代化 运用大数据思维推动政府治理创新 利用大数据提升政府治理效能 浅析大数据技术在政府治理中的应用 运用大数据推进政府治理现代化的路径选择分析 大数据在政府治理能力现代化中的应用研究 大数据时代医学研究面临的机遇与挑战 大数据时代会计面临的挑战与出路分析 大数据时代面临的信息安全机遇与挑战 大数据时代企业面临的机遇与挑战 常见问题解答 当前所在位置:,2015年2月17日。②张康之、张桐:《大数据中的思维与社会变革要求》,《理论探索》2015年第5期。③《联合国全球脉动:分析实时数据增进人类福祉》,联合国新闻网,,2013年7月23日。冯伟:《大数据时代面临的信息安全机遇和挑战》,《中国科技投资》2012年第4期。
Social Governance Reform Under the Condition of Big Data
Geng Yadong
Abstract:The big data is associated with globalization and industrial processes. In addition to its high complexity and high degree of uncertainty characteristics, it also has its own new features. As a double-edged sword, large data brings convenience for the production and living of human life. But at the same time, it also makes the government face kinds of challenges, such as data security management, massive data and information problems, data decision blindly and so on. Cooperative governance which is based on value, not only takes full account of the inherent characteristics of the era of large data, but also takes full advantage of the resources and opportunities brought about by the era. So it is the inevitable path of choice that the government responds to the impact of large data era.
Key words:big data; social governance; cooperative governance; value; guide
如何应用大数据,开展气象大数据工作的前提条件是什么,气象大数据如何建设数据中心,如何稳步推进气象大数据战略是气象部门决策和执行机构必须面对、厘清的问题。
开展气象大数据工作的前提条件
气象部门是一个整体,其有效运转除需要观测数据外,财务、人事、绩效、资产甚至设备状态信息等数据,都是不可或缺的,应无一遗漏地纳入气象数据的范畴。
现有气象数据的梳理
气象部门内对数据的关注点长期聚焦在气象观测数据,相应的规范标准也多以观测数据为对象,其他类别的数据则所涉甚少,甚至没有涉及。这种不平衡导致了这些其他类别数据在管理上的各自为政、规格上的无章可循、信息间的彼此隔离、质量上的参差不齐,以及使用上的困难无序和低效。
不少技术人士将所有气象数据纳入统一管理平台(如:Cimiss)视为气象数据治理的完成,这无疑也是片面的。事实上,如果上述诸如数据定义、数据分类/分级、数据分布、数据操作等诸多问题没有解决,气象数据没有经过科学的梳理和配置,所有气象数据在形式上的汇聚便起不到高效管理、有效应用和长期支持业务发展(包括业务变更)的作用。
气象数据的规划和治理
对气象数据的全面规划和治理是无法跨越的基础工作。气象数据规划,实质上就是气象部门的信息资源规划,是对气象部门日常运转所需要的各种信息,从采集、处理、传输到使用等生命周期各个环节的全面规划。
通过气象数据规划,可以梳理业务流程和管理流程,厘清信息需求、建立部门行业的信息标准和信息系统模型,并据此来继承、整合、优化、改进乃至再造业务流程及业务系统,从而稳步地推进气象大数据战略。
气象数据规划是整体梳理、谋划和设计,气象数据治理则是具体实施执行。所谓数据治理,就是使气象数据自产生的那一刻开始,经历的采集、传输、处理、存储、操作以及质量和安全保障等生命周期诸多环节中的每一个环节,都处在一个统一、自洽、协同的规则之中,以使得气象数据这一部门和全社会宝贵资产始终处于正确有效的管理之下。
贯彻气象数据治理,除先进的理念外,还需要有配套的组织架构、原则、过程和规则,以确保数据管理的各项职能得到正确的履行。
数据意识的逐步培育
提高全部门的数据意识,是开展气象大数据的基础。
对创新而言,所有的成功都是小概率事件,唯有每一步都追求精确方才可能达到。数据是精准文化的核心,精准靠数据来表述。没有数据意识就没有现代科技,在全气象部门培养数据与精准意识已是当务之急,科学与精确应当成为气象部门的工作信条和文化素养,是实现气象现代化最根本的基础条件。
必要的人才基础条件
气象大数据应用的开展,人才条件是决定其成败的要素之一。
具体地说,实施气象大数据应用,除上述几项基础工作外,在人才队伍方面还需具备以下两个基础条件:(1)建立起对应于大数据管理运营的数据管理中心的组织架构。没有一个相对完整和专业的数据管理团队,是难以发挥出大数据分析的功效的。(2)建立起一支精干的数据分析团队,并拥有一个灵活适用的数据分析技术平台。
此外,开展气象大数据工作,可能会遇到许多意想不到的困难,如算法和数据来源问题。所有大数据应用的数据来源都是来自于互联网的替代数据,而由于数据源非针对该应用所采集,该应用所需要的内容可能同时存在于不同的数据源之中,且存在的形态和格式各异:同样是分析舆情,腾讯微信大数据和百度大数据的分析方法可能完全不同。面对不同的数据源,需要不同的信息提取算法。合适的数据源和分析算法,是开展气象大数据应用首先需要解决的问题。气象部门缺乏相应的专业人才和团队。
对于气象部门而言,利用他人的数据开展大数据应用,对可能面临的困难,需要做好一定的心理准备。
气象大数据中心建设问题
开展气象大数据工作,基础设施环境(即气象大数据中心)的建设问题,是必须直面的另一个问题,因为海量数据的处理需要相当规模的存储和计算资源予以支持。
应是气象行业大数据中心
气象大数据由“行业”和“互联网”两部分来源构成。笔者认为,气象大数据中心应当是以存储管理行业大数据为主要目标,即气象大数据中心应当是气象行业大数据中心。
气象大数据中心在建设和使用初期,应以气象行业大数据为主要管理对象,并在气象互联网大数据的应用中尽可能避免海量数据的搬迁。与此同时,大数据中心在设计和实际操作过程中可以预留一定规模的基础资源,为在极端情况下互联网大数据的载入和处理预留一定的管理空间和能力。总地来说,管理气象行业大数据是气象大数据中心的职责。对于互联网大数据而言,大数据中心既没有义务、也应尽可能避免对其进行长时间管理。所以,气象大数据中心应当是气象行业大数据中心。
气象大数据中心形态与分布
气象行业大数据中心同时应当是气象云中心。就应用效果而言,在资源充沛且数据处于规范管理的前提下,数据的集约化程度越高,应用的效果越理想。因此,气象大数据中心应当是气象数据汇聚、规范化管理且资源十分充沛的数据中心。云计算中心是大数据中心最好的物理形态,大数据中心应以云计算中心为基础平台,这在业界已形成共识,气象大数据中心也不例外。所以,气象大数据中心应当是一个组织机构概念,逻辑上相对独立,而其实际的物理基础设施应当是气象云中心,是气象云中心上的一个具体业务应用。
需要进一步说明的是,对气象大数据中心的规模而言,其中的行业数据的增长规模处在气象部门掌控之中,基本上可以预估。但如果将互联网大数据的应用场景也考虑在内,预留可充分应对极端情况下互联网数据源大举载入时的支撑资源,由于数据源对象的未知性,其相应的规模是难以预先测算的,偏大则可能导致资源的长时间闲置,偏小则可能届时无法发挥支撑作用。较为可行的解决方案之一是采用专有云形式,即:选择资源规模大、公共安全措施完备、专业水平高、服务信誉好且价格相对合理的云计算中心,在其上长期租赁相应规模的基础设施资源作为气象云的基础设施,其中气象大数据中心的资源需求规模可基本参照气象行业大数据的存储管理规模来进行预估。与此同时,与该云计算中心签订相应的服务合同,承诺在气象大数据中心遇到特殊情况(如极端情况下海量互联网数据的大批载入)时,该云中心可及时扩充气象大数据中心的基础资源租赁规模,并在应用结束后收回这些临时租赁的基础资源。
未来的气象云中心最终将以1+2或1+3等数量有限、地理分布相对合理的形式长期存在。且专有云较之私有云而言,是更为合理的气象行业云形态。
尽早开展应用研究工作
应及早开展针对互联网大数据在气象部门各领域创新应用的研究工作。目前这项工作在气象部门除个别先行单位(如公共气象服务中心)外,基本处于空白状态。尽早进行大数据基础知识和技能的储备,对工作的顺利开展有益无损。同时,应积极筹备组建相关的专业化团队,以期尽早具备如下能力:
数据资源发现能力:熟悉互联网上各种数据资源以及数据交易市场的业务动态,熟悉数据资产的价值评估,可在部门用户提出数据资源需求时,及时提供互联网数据资源的咨询服务,推荐合适的数据资源,以及资源的基本情况。
数据获取能力:具备在正常情况下,通过正规途径,以技术手段及时获取指定数据源中所有数据的能力。
数据分析能力:具备在收集互联网数据的基础上,针对应用目标以及数据源的特点,提出相应的分析模型,指导并最终完成对互联网数据的整理和分析,以完成应用目标中各项研究、评估和预测的能力。
数据算法实现:根据分析模型及数据源特点,形成数据分析处理软件,并完成数据处理。
分析平台:拥有分析模型建立、处理软件生成以及分析结果可视化展现的技术平台。
应适时成立相应机构(如气象互联网大数据应用研究中心等),专门从事这方面的研究和应用工作。
稳步推进气象大数据战略
在积极探索创新应用的同时,应冷静分析气象大数据的特点和可能的适用范围,基本明了其能力边界,做到心中有数。既不被外界过度宣传所裹挟,也不被内部守旧力量所羁绊。积极而稳妥,慎重而不裹足不前。
全面认识气象大数据
目前国家所倡导的大数据战略,与其说是为了推行充分挖掘数据资源价值的工作方法,不如说是一种工作思维和工作方式的改进和补充,是一场全社会文化素养的改良和变革。通过对大数据不断深入的应用,持续改进全社会的生产质量、产品质量、服务质量和生活质量。
因此,不必过度介意气象大数据在某些特定领域内(如提高预报准确率等)作用的有限。大数据不是万能的,正如信息化不是万能的一样,不可能指望单凭推行大数据就能解决所有问题。充分利用一切可以利用的数据资源,不断创新、不断改进气象部门各项工作,倡导和发扬工匠精神,使各项工作更加科学化和精细化,就已达到了气象大数据战略的基本目标。
此外,气象大数据应当以应用为主导,以业务为主导,以改善各项工作为主导,更应该以技术、业务、服务和管理创新为主导。应当使全部门明了:开展气象大数据工作不等于在各地开展数据中心基础建设,更不等于在各地开展数据库建设。此外,开展气象大数据工作,应力求基础工作先行、专业团队建设先行和应用研究先行。
【关键词】大数据 互联网 社会研究方法 社会治理模式
【中图分类号】D035 【文献标识码】A
互联网革命引发的社会研究方法革命和社会治理思维变革
社会解释与社会治理实践是社会治理的两个密不可分的重要方面。正确的社会解释是有效社会治理的必要条件和理论基础,而社会治理则是社会解释所产生的现实成果。社会解释的任务需要通过社会研究来完成,它的使命是发现和认识社会运行的本质与规律,并在此基础上总结以往社会治理的经验与教训,为当下的社会治理提供有效的理论指导与最佳的方法及路径选择。
然而,我们不得不承认,与对自然界和物质世界的研究相比,我们人类对自身行为与社会运行规律的研究,总体上说还处于比较低的水平。这是因为,人类社会是一个复杂的巨型系统,它比世界上任何其他系统都更加复杂和迷离,其规律也难以完全为社会所知晓和掌握。
同时,社会科学研究方法带有明显的时代特征,它受到一定社会主导性思维方式和科学技术水平的影响。从前工业社会、工业社会、后工业社会,再到当代的所谓信息社会或大数据社会,社会科学研究方法在不断更新和发展,研究范式不断更新,研究技术手段不断进步。但是,我们不难发现,大数据时代与以往最大区别在于,人类社会被计算机和互联网纳入到了一个具有无限空间和行为可能性的体系之中,任何人离开这个体系都将无法生存。处于这个体系中的人与组织,最重要的生存和发展技能是信息处理能力。对此,人类社会已经形成了高度一致的共识,这就是“社会的信息处理范式”(information processing paradigm of society)。在已经形成“信息处理社会范式”的大数据时代,社会科学研究最有效、最符合时代要求的范式只能是“社会科学的计算范式”(computational paradigm of social science)。于是,计算社会科学(computional socail science)与计算社会学(computional sociology)应运而生。
2014年8月,美国社会学界举办了“新计算社会学研讨会(New computational sociology conference)”,与会者来自哈佛、MIT、斯坦福等名校。这次学术会议的一个显著特点是跨学科的学术研讨,既有社会学、经济学、政治学、心理学等社会科学的专家,也有来自计算机科学、生命科学、信息科学等学科的学者,谷歌(Google)和脸书(Facebook)的技术专家也参加了这次会议。
“新计算社会学”在社会学研究的各个方面、各个环节进行了全面创新,除了大数据的获取与分析之外,还在质性研究与定量研究的融合、互联网社会实验、计算机社会模拟、新型社会计算工具的研发等方面展开探索。
“新计算社会学”试图创造性地运用互联网和大数据所提供的新方法、新技术、新工具,克服既有社会学研究的局限,以达到对人类行为与社会运行规律的真实认知与科学解释。
大数据带来的不仅仅是研究方法的革命,更是对社会治理思维的冲击,就如我们不能把数学仅仅看成一个计算工具,而应认识到它是一种思维方式―通过把握事物的量的关系来认识事物的本质和联系;同样,我们不能仅仅把互联网和大数据看作是一个新工具,仅仅是对传统研究方法和测量方法的突破,而更应该意识到它将带给我们的是一种新的思维方法。
让数据成为知识
尽管互联网与大数据的作用如此之大,但使其真正发挥效力却绝非易事。大数据真正“落地”必须具备三个条件,一是数据准备;二是“硬实力”,即计算能力强大的服务器集群;三是“软实力”,即先进、高效的大数据处理技术。
互联网、移动互联网、物联网已经生成了海量数据,并且还在加速增长之中,数据准备已经不是问题。我国政府正积极推动云计算平台的建设,许多企业正在就此展开战略布局,云计算技术可以充分调动互联网上的计算机资源,使普通用户能够以相对低廉的价格获得强大的计算能力,对于用户来说,分析、处理大数据的计算机资源已经初步具备,并且将越来越强大和完善,就目前情况而言,硬件资源的能力也已经不是问题。
大数据运用的短板是“软实力”,我们首先遇到的难题是数据的挖掘(Data mining)。互联网上生成的大数据是“自然数据”,它不会按照研究者的意愿而有序、有条理、有逻辑地排列。它是海量的、模糊的、随机的、有噪声的。要运用大数据,必须先使数据成为知识,否则这些数据就与一堆垃圾无异;对海量数据的处理自然不是人能够完成的,必须借助计算机高速、强大的运算能力,也就是借助于计算机数据挖掘。
数据挖掘是通过分析,从海量数据中寻找其规律,设计适合的计算机算法,从而自动搜索隐藏于其中的有价值的、潜在有用的信息和知识的过程,是数据库知识发现(Knowledge-Discovery in Databases)中的一个步骤。在大数据时代,数据挖掘是最关键的工作。
由于问题不同,所需数据也就不同,而不同的数据有不同的种类和结构,必须根据具体的情况来设计计算机算法。例如:互联网舆情挖掘,以微博、博客、论坛等为挖掘对象,主要是通过文本分析、自然语言理解等技术来搜集、分析数据;而在电子商务中,则以电商交易平台中的浏览、交易等行为踪迹为主要挖掘对象。前者是对某一政策的社会反应进行调查,后者是对人们的购物行为进行分析。
当前数据挖掘应用主要集中在电信、零售、银行、电力、医药等方面,虽然看似广泛,但实际上还远远没有普及。在社会研究和治理方面,需要挖掘的大多数都是非结构性数据,其难度很大,以美国为代表的西方国家一直在大力开发这类挖掘工具,我国的这项工作起步不久,亟待深入和提高。
政府机构、一般企业、社会团体和个人用户大多不具备从大数据中发现知识的专业技能,要使大数据真正服务于社会,这是必须解决的难题。我们对此必须高度重视,否则很可能会出现这样一种情况―各种数据已经可以有偿或无偿地获取,大大小小的云计算平台已经星罗棋布,但是用户却不知道如何利用这些条件获取自己想要的东西。目前的情况是:数据量在高速增长之中,云计算平台正在紧锣密鼓地建设,而另外一个条件的准备却行动缓慢,即将成为发展的瓶颈。三者的发展已经不平衡,很可能造成资源的闲置和浪费。
互联网对社会生态的改变和对社会治理模式的冲击
互联网使信息的传递彻底突破了空间限制,不仅传播信息的速度快,并且可传播信息量越来越大,传递的成本还越来越低廉,此外,互联网的信息传播模式越来越表现出实时互动性的优势:传统的公众信息传播媒体(如报纸、广播、电视等)很多是单向的,只能是一方向另一方传递信息,另一方被动接受,而互联网具有信息交互性。
由于互联网的这些特点和优势,它正在改变社会生态,这主要表现在以下几个方面:一是人类社会从信息匮乏转变为信息爆炸;二是信息垄断正在被打破,互联网的存在使人为的信息封闭越来越困难,甚至在很多情况下成为不可能,三是人类社会的整体性正在加强,互联网把世界连成了一体,对任何一个局部来说,它与整体和其他局部的联系越来越密切,已经无法排除其他局部对自身的影响;四是“蚁聚效应”,互联网使普通人获得了更多的参与公共事务的机会,个人力量因“网民聚合”而增强。以往,单个普通人的言论和行为对社会的影响一般是微不足道的,现在却可能通过“网民聚合”发挥出过去不敢想象的力量;五是“蝶翅效应”,在互联网上,一件局部的微不足道的小事可能成为公众事件,一则利用公众心理精心编造的谣言可能引发一轮汹涌的舆情;六是“众筹效应”,通过互联网,政府、社会组织甚至一个普通人都可能调动社会力量,获得社会的某种支持和帮助。
互联网对社会生态的改变,在很多方面给我们带来了发展的机遇。在政治领域,互联网和大数据正在改变传统的政治生态,“网络政治”已经显出雏形;互联网带来了公众监督力的提升,这对社会治理有不可低估的积极意义,公众监督能力如果得到充分发挥,可以在很大程度上分担政府自身监督的任务,克服自身监督的不足之处。同时,大数据可以使政府变得更有智慧,通过数据的分析,能够使政府有一双“慧眼”,准确地认识社会问题;利用互联网这一高速信息传播平台,可以使公共管理信息的、传播更为及时、高效;互联网的交互性也使政府能够快速获悉民众对政策的反应,民意、民情调查的准确性可以大大提高。政府利用互联网的“众筹效应”,可以集思广益,择善而从。
在经济领域,互联网和大数据已经成为一种强大的经济资源,并且催生出新的经济形态。从经济学的观点看:降低交易成本的行为将提升竞争力,亦即高交易成本的营销模式将被低交易成本的营销模式所取代,在过去的10年中,电子商务的出现和发展印证了这一原理。互联网和大数据帮助企业更为科学、更为高效的分析市场、汇集资源、制定计划,改变原有的营销模式,其中尤为受到企业的重视的是预测市场需求和降低交易成本。
在教育领域,人们对“云课堂”已经不再陌生,“云上课题”更为充分地发挥了有限的教育资源的作用,并使适配式教育成为可能。
在医疗领域,从疾病预防、疫情监测到药品管理、医务监督,从医疗专家系统到线上预诊服务,互联网和大数据已经取得了丰硕成果,并且其应用面还在持续扩大。互联网和大数据技术不仅帮助我们降低医疗成本,提高医疗效率;并且还有望在治理医疗腐败、缓解医患纠纷这些棘手而又迫切需要解决的问题上大有作为。
当然,任何新生事物的到来,在带给人类美好的馈赠的同时,也会不同程度地带来麻烦。互联网和大数据一方面为我们提供了以前不可能具有的条件和能力,另一方面也给我们带来了前所未有的问题。传统的社会治理思维已经难以适应互联网带来的迅速而剧烈的变化,因此必须在很多方面及时作出调整。当前最迫在眉睫的主要有数据安全问题和网络污染问题。
一是数据安全。与互联网和大数据如影随形而至的是数据安全问题,一些数据(个人隐私数据、关系国家安全的数据等)如果被恶意利用,将会对社会产生不同程度的危害,严重的甚至会危及国家安全,这是必须予以高度重视的问题。涂子沛在《大数据》一书中曾提及美国警察滥用个人隐私数据的真实事例:
密歇根州的一些警察,利用警务数据库“猎艳”:他们在街上邂逅漂亮的女性之后,就跟踪她们,记下她们的车牌号码,然后通过查询数据库,获得该女性的住址等个人信息,再人为制造进一步接触的机会。此外,还有警察利用数据库查询政治对手和上司的信息,对相关人员实施威胁。在2001年前后的5年间,涉嫌滥用警务数据库的警察共有90名之多。特拉华州还有政府官员将公民的个人信息泄露、出卖给赌博公司,帮助他们追债、开发新的顾客。
1995年,欧盟颁布《关于涉及个人数据处理的个人保护以及此类数据自由流动的指令》,2014年,欧洲法院裁定普通用户的个人隐私拥有“被遗忘权”,要求谷歌公司按照当事人的要求删除涉及个人隐私的数据。
据刚刚出现的数据交易业称,我国数据的获取在一定程度上还处于“法无禁止皆可为”的状态。虽然这有助于推动互联网和大数据的发展,但其中潜藏着巨大的隐患。我们应该意识到问题的严重性和紧迫性,对数据获取和使用的权限应进行全面深入地研究,制定、完善相关的法律法规,尽早将数据获取和使用纳入正常、良性的运行轨道。
数据安全不仅关系到个人隐私、企业商业机密,还可能直接影响国家安全。一些看似寻常的数据,如果由专业人员进行汇集分析,可以获得一些极为重要的情报。因此,一些公司的“过度追踪行为”引起了各界高度关注。
2014年,我国成立“中央网络安全和信息化领导小组”,这表明我国政府深刻意识到互联网发展对国家、安全、发展利益提出的挑战,深刻意识到数据安全对于国家安全的重要性,已经把数据安全提升至了国家安全的战略高度。
二是网络污染。由于互联网强大的传播能力,不可避免地出现了信息污染,大量虚假信息泛滥成灾,治理、控制网络污染成为信息管理的新难题。
互联网上的言论是复杂多样的,既有民意的期盼,也有不负责任的流言;既有真知灼见,也有无稽之谈;既有对现实问题理性冷静的思考,也有非理性的情绪发泄。这些言论会不同程度地对公众产生积极或消极的影响。此外,某些境外势力把互联网作为谋求其文化霸权的工具,有组织、有策划地“引导舆论”,欺骗公众,以达到某种政治目的,试图破坏我国的社会稳定。因此,互联网也是意识形态、价值观念交锋的战场,我们对此必须有高度的警觉,要充分认识、研究互联网舆论战场的规律,沉着应战。
面对互联网带来的这一挑战,政府方面应先准确辨别言论的性质和动机,然后根据具体的情况积极应对。各级官员应不断从互联网上倾听公众的声音,推动社会治理的进步,凡事先行一步,临变快速反应,避免在“倒逼”下被动应付。近些年来的一些网络事件表明,大多数严重后果是因反应不及时和应对失误所造成。
【关键词】大数据;国家审计;国家治理
引言
国家审计是各级审计机关开展的工作,依法对各级政府机关、企事业单位履行公共责任情况进行监督、评判并出具书面报告的监督活动,是国家治理的重要手段之一。随着大数据时代的来临,数据规模空前强大,国家审计传统的的思维方式、组织模式、技术方法均难于应对呈几何倍数增长的财务数据、业务数据。因此,在新的挑战下,国家审计要与时俱进,利用大数据、云计算等技术推动改革创新,推动审计信息化建设,从而更好的履行其参与国家治理的监督、评价、防御的功能。
一、大数据的内涵及特征
大数据(bigdata),最早于1980年由著名未来学家托夫勒在其所著的《第三次浪潮》中提出。2012年美国宣布了其“大数据研究和开发计划”之后,“大数据”逐渐成为各行各业的热点话题,也意味着人类社会经济生活迎来了“大数据”时代。目前学术界对大数据的定义并不统一,主要从数据体量、数据复杂性、数据价值三种角度定义。根据2015年国务院印发的《促进大数据发展行动纲要》文件,大数据被定义为“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。大数据主要呈现“4V”特征:一是大量性(Volume),从TB级别跃升到PB级别;二是多样性(Variety),有图片、地理位置信息、视频、网络日志等多种形式;三是快速性(Velocity),大数据处理应该在秒级时间范围内得出分析结果;四是价值性(Value),单一数据的价值并不大,但将相关数据聚集在一起,就会有很高的商业价值。大数据时代,多信息源并发、交流互动实时、时空障碍打破,不同领域之间数据相互关联,不仅改变了人们在采集、处理和使用数据时思维的转变,更是社会革新与升级的助力器。
二、大数据时代国家审计面临的挑战
大数据时代,人工智能、电子标签(RFID)、云计算、物联网、语义网等技术或理念带来的经济社会发展的变革,既改变了国家审计的外部坏境,也给国家审计提供了全新的技术手段。国家审计作为综合性经济监督部门,与经济社会各方面都保持着错综复杂的关联,而且国家审计开展审计活动必然要依靠一定的工具和技术手段,因此,大数据时代下,国家审计面临外部环境的变化和技术水平的发展,其组织模式、职能、审计技术方法等方面都将面临着新的挑战。
(一)国家审计组织模式面临的挑战
国家审计部门一般设立财政审计、企业审计、资源环境审计、金融审计等不同处(科)室,不同部门有不同的对口单位和职能,各部门以“单兵作战”的方式对审计项目开展审计。传统的“一对一”审计模式难于整合共享不同部门不同行业的数据信息,不仅严重产生了信息孤岛问题,而且导致审计效率低下。大数据背景下,外部环境的改变带来了国家审计的项目规模不断变大,内容综合性、复杂性逐步变高等新趋势,同时也加大了审计风险,因此国家审计组织模式应逐步向协同式审计、扁平化审计等方式转变。在当前大数据环境下,将审计数据都存放在云数据中心,各审计机关可以通过授权取得相关数据的访问权,对被审数据库中的大数据进行建模、关联和分析,获得疑点后再分散查证。协同式审计是审计资源有限的情况下整合各审计机关力量,加强省以下审计机关垂直管理的一种优化选择;各审计机关在开展大规模审计时,也可以由局领导牵头,抽调各部门有关骨干人员成立审计组,根据审计人员的优势和特长确立分工,实现不同部门共享审计资源,从而提高审计效率,降低审计风险。
(二)国家审计职能面临的挑战
国家审计在国家治理中主要行使监督职能,通过对国家政府部门及企事业单位的财政收支情况开展有效监督以推进政府行政效能的提高。随着大数据时代的到来,我国经济在发展迅速的同时也面临着严峻复杂的风险,甚至涉及国家安全。而审计机关可以搜集到的数据能够覆盖宏观经济的各个方面,因此在新形势下,国家审计必须充分利用大数据技术,必要时可以对相关数据和系统进行连续监控,利用数据挖掘、A/B测试、关联规则挖掘、分类、数据融合和集成等分析技术挖掘和分析相关数据,在数据异常时发出预警信息,也可以预测事物发展趋势。如在国土审计中利用卫星遥感等技术手段制作的叠加监测信息及有关要素后所形成的专题影像图片,对某一区域某一时段的土地利用情况进行持续监测,根据变化图斑监管是否存在违规改变土地用途问题;在社保基金审计中,从社保、税务、人社、民政等部门采集相关数据,根据不同的参保人员特征类型确立分析模型,以此推算多年以后参保人员的构成及比例,预测社保基金未来的压力,从而为政府宏观决策提供依据。由此可见,大数据背景下国家审计不仅发挥监督职能,而且要挖掘出问题存在的本质原因并提出解决方案,从而强化其在国家治理中的预测和决策的职能。
(三)国家审计技术方法面临的挑战
传统审计方法下,由于受审计方法和时间的限制,审计机关主要面对“小数据”,通常对审计单位内部数据进行抽样检查、分析和复核,既难于获取外部数据,也难于对审计数据进行全面的对比分析,具有效率低、风险高的弊端。大数据时代,国家审计机关必须站在全局的角度分析审计对象,需要盘活审计对象的历史数据、财务数据、业务数据以及外部相关数据等,数据体量巨大且存在半结构化、非结构化数据,因此传统的技术方法已无法适应审计需求。在大数据环境下,审计人员必须使用新的大数据存储、处理和分析方法。目前审计数据存储分析主要基于关系型数据库(SQL),无法满足动态的数据模式,也无法存储图片、文档、音频等格式,未来国家审计需要非关系型数据库(NoSQL)技术;在数据处理方面,大数据时代数据处理时效性增强,需要进行实时处理。实时分析数据一般是采用流处理技术,即新数据一流入立刻处理并返回所需的结果,无需先存储再处理,常见的流处理技术有Twitter的Storm、Yahoo的S4等;在数据分析和使用方面,可以借助诸如BigTable、云计算、可视化技术等技术进行审计大数据的分析和结果展示。
三、大数据时代国家审计的应对措施
传统的国家审计随着大数据时代的到来受到了挑战,同时大数据也为国家审计的变革发展提供了动力。因此,大数据背景下国家审计要认清现有的审计工作存在的问题,着眼未来,从技术、人才和制度体制等方面做好大数据技术研发以及审计人员的培养工作,积极推进国家审计信息化进程,更好发挥国家治理的作用。
(一)构建国家审计大数据平台
当前经济环境下由于没有统一的数据标准,难于整合不同经济运行体的数据,导致审计数据采集困难,也造成了大量信息资源的浪费。因此搭建数据平台是大数据环境下开展国家审计的重要基础。随着云计算技术发展的日益成熟以及我国政府机关电子政务建设的大力推进,国家审计机关可以充分利用金审工程已有成果,构建大数据审计平台。大数据平台通过借助电子政务系统搭建的信息全覆盖网络,实现国家审计署和省、市、区审计机关以及同级政府部门间的信息互联,不但具有审计功能,而且能对数据实时监控从而具有预警功能。大数据平台依托互联网技术,实现被审单位以及相关外部数据的实时采集,并用不同行业、范围等关键字分类存放,方便审计人员查找分析。为避免操作失误或系统故障而导致数据丢失,需要定时集中备份重要数据。目前,我国部分省、市已逐步完善大数据审计平台,以南京市审计局为例,该局自2012年启动了数字化审计平台和审计数据中心建设,将包括财政、社保、公积金、地税等部门的数据纳入审计数据中心,全市市级主要国有企业数据、政府投资项目数据及其他相关行业数据也将陆续纳入审计平台,逐步实现对公共资金、国有资产、国有资源审计的全覆盖。该局借助数字化审计平台,近年来将全市100多家预算单位纳入了部门预算审计,推进了财政审计全覆盖。未来待时机成熟后,审计署可以搭建国家级大数据审计平台,从而形成全国审计数据共享。
(二)完善大数据相关法律法规建设
十八届四中全会提出依法治国是实现国家治理体系和治理能力现代化的必然要求,国家审计作为国家治理的重要组成部分,必须要依法审计。目前,我国大数据审计制度和电子商务、网络经济等计算机应用相关法律法规建设相对滞后于经济社会实践活动,甚至存在制度盲区。为规范大数据审计行为,我国需建立健全相关法律法规。在法律层面,要加强电子商务、网络经济、电子政务等方面立法,确定电子数据的法律效力和保管要求,明确违反法律的处理与惩罚方式,为大数据审计提供法律依据;在法规层面,审计署要建立健全大数据审计的审计准则,明确审计程序、审计标准、审计方法等要素,如制定大数据审计评价准则、技术标准准则等,为大数据审计工作提供规范和指导;在部门规章层面,地方审计机关可以根据自身平台特色或项目要求,大数据审计具体操作指南,方便审计人员理解,为其具体操作提供帮助。
(三)提升国家审计人员综合素质
大数据时代对审计技术的挑战,实质是对审计人员的挑战,单纯掌握会计审计知识的审计人员已不能满足工作需要,因此审计机关要加强审计大数据人才培养,提升国家审计人员综合素质。首先,审计人员要转换审计理念,深刻认识到大数据审计是未来审计发展的必然趋势,树立主动学习意识,优化知识结构,具备基本的计算机审计技能;其次,审计机关通过业务培训、经验交流等形式加强大数据审计人才的培养。近年来,审计署已经培养了一大批计算机中级人才,各地审计机关可以组织计算机基础较好的审计人员进行专门培训,打造具有采集加工数据、构建数据模型分析数据以及排除常见软硬件故障等能力的审计数据分析团队,培养一批高端的审计和信息技术复合型人才;最后,审计机关要加强与高校、审计软件开发机构等科研部门的合作,必要时建立大数据审计人才库,开展大数据审计时可以临时聘请专业人员,借用“外脑”推进大数据审计的发展。
参考文献:
[1]刘佳黎.大数据背景下的国家审计变革研究[J].财政监督,2016,(11):64-66.
[2]陈伟,SMIELAUSKASWALLY.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016,(1):8-13.
[3]刘娜.大数据背景下政府审计变革动因与策略[J].财会通讯,2017,(10):75-77.
[关键词]大数据;数据共享;辽阳石化
doi:10.3969/j.issn.1673 - 0194.2015.16.051
[中图分类号]F426.22 [文献标识码]A [文章编号]1673-0194(2015)16-00-01
在大数据时代,数据将成为企业重要的战略资产,有效利用数据对提升企业战略管理水平、提高决策效率和管理透明度有重要作用,是企业转变发展方式、实现科学管理的重要手段。
辽阳石化公司是中石油下属的特大型石油化工企业,经过四十多年的发展,已经累积了海量的异构数据。同时,在加快推进信息化建设过程中,不断产生大量管理数据。
1 大数据主要技术
目前,大数据处理通用的技术架构是MapReduce,包括Map(映射)和Reduce(归约)两个阶段,用户只需编写Map函数和Reduce函数就可以在云计算平台分布式处理。
大数据的采集是指利用多个数据库接收来自客户端的数据,用户可以通过这些数据库进行简单的查询和处理工作。比如,辽阳石化早期的应用系统一般采用关系型数据库SQL、Oracle和Sybase等来存储每一条记录。
大数据的统计与分析主要利用分布式数据库,或分布式计算集群来对存储于其内的海量数据进行分析和分类汇总等,以满足分析需求。
数据管理技术主要有6种,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中,分布式存储与计算的关注度最高。
2 大数据对辽阳石化的价值
第一,“大数据”能帮助辽阳石化提高管理决策效率和水平。通过大数据技术,可以使传统业务流程简化、优化、集成化,优化流程为导向的多部门协同工作,全面提升机关科室的服务水平,提升对各项业务的管理水平。
第二,“大数据”能帮助辽阳石化提高生产精细化程度和生产效率。利用大数据技术实现现场生产数据自动采集,从源头上保证数据的及时性、准确性,节省重复收集数据时间,显著提高工作效率。通过分析挖掘生产装置的历史数据,促进技术和操作两个层面的生产优化,提升装置经济效益。
第三,“大数据”能帮助辽阳石化提高发现事故隐患和排查治理能力。石化企业受传统管理模式、技术手段等因素制约,不能完全建立起政府部门间的数据共享机制。散落在二级单位各个车间的宝贵信息资源无法充分共享,形成一个个“信息孤岛”。通过大数据技术,可对生产过程中的各个工艺参数进行分析对比,从而及时准确地发现事故隐患,提升排查治理能力。
第四,“大数据”能帮助辽阳石化实现监控分析网络舆情、社会动态及市场形势。基于大数据技术的舆情监控系统对热点问题和重点领域比较集中的网站信息进行24小时监控,随时下载最新消息,从而建立舆情监控的知识库,使管理人员全面掌握职工思想动态,以便做出正确舆论引导,并提取有效信息作为新品研发决策依据。
3 辽阳石化应对“大数据”的策略
3.1 配合中石油总部推进相关技术的研究和应用
大量非结构化数据使数据量呈爆发式增长,对存储容量、传输速率、计算速度等要求更高。ERP应用集成、物联网系统、云技术平台和移动办公平台都是中国石油“十二五”规划的重点信息化项目。物联网系统将为实时采集、处理、传输现场数据提供保障,为进一步挖掘价值提供数据基础。移动应用、社交网络等在企业逐渐普及,在提升办公效率的同时,拓宽获取数据的渠道和范围,为更好地搜集市场讯息、分析客户行为、监控企业舆情等提供数据支持。辽阳石化应按集团公司要求,积极配合、适时引入并试点实施,做好应对“大数据”的技术储备。
3.2 加快信息化推进,不断深化信息系统集成,提高数据共享
“大数据”应用的基础是信息化,面对“大数据”带来的挑战和机遇,需进一步提升信息化水平,实现对数据价值的充分挖掘和有效利用。因此,通过加强辽阳石化应用系统集成,能有效消除数据屏障,打破传统部门壁垒,改变传统工作习惯,加快信息化进程,充分利用现有信息门户、ERP和MES等系统,实现跨部门、跨专业的数据共享,从而为战略、管理、生产等各层面决策提供全面、准确、快速的支持。
3.3 着力培养“大数据”专业人才
由于“大数据”应用涉及跨学科、跨领域的知识。因此,辽阳石化应未雨绸缪,通过合作培养、对外交流和内部培训等多种方式,加大对数据专业人才培养力度,做好应对“大数据”的人才储备。
4 结 语
随着信息化快速不断推进,辽阳石化对“大数据”的认识和应用也逐步深入,对数据和数据价值的理解和把握也更加具体。辽阳石化不断加快技术创新、管理变革和人才培养,必将在“大数据”时代构筑新的竞争优势。
主要参考文献
[1]王星.大数据分析――方法与应用[M].北京:清华大学出版社,2013.
5月1日,美国总统行政办公室以国家科学与技术顾问委员会(PCAST)的研究为基础,向奥巴马提交了一份名为《大数据:把握机遇,维护价值》(Big Data: Seizing Opportunities, Preserving Values)的报告。核心观点是:公共和私人部门可以利用大数据技术最大限度地获取利益、减少风险;虽然大数据无疑增加了政府权力规避制约的可能,但也内含了降低这一风险的方案,增强政府的问责性,保护隐私与公民权利。
该报告共分六个部分,在第五部分“迈向大数据的政策框架”中,尤其关注了大数据与公民、消费者、隐私权、隐性歧视之间存在的紧张关系。报告人着重指出,大数据可以创造巨大的社会利益,但是也可能引起多种有形或无形的危害。这类危害不止是侵犯隐私权那么简单,甚至会造成对个人或群体的歧视。这一歧视可以是大数据在模型建构和使用方法上的无意结果,也可以是对弱势阶层的蓄意牺牲。不难看出,前者可以通过相对简单的技术办法加以解决。比如设计一个智能手机的应用程序,通过搜集用户反馈的海量信息,为城市管理提供基础数据。这个程序虽然明显忽略了相当数量的非智能手机用户(如老人与穷人)的需求,但是可以有意识地通过其他社会调查方法加以弥补。与此相比,蓄意歧视显然需要得到更加严肃的对待。
就美国的社会立法而言,在关乎社会公平的特定领域内,如就业、信贷、医疗、教育,法律均要求用于预测算法的个人数据和最终决策具有相当程度的透明性,并配合以补救性的校正手段。事实上,之所以存在这些保护措施,反倒是因为歧视在美国历史上从不少见。20世纪早期,银行就在使用个人居住信息来甄选客户。直到1975年《房屋贷款披露法案》颁布之前,是否给予某人贷款还取决于他所居住的区域而非个人的信贷能力。银行用“划红线”(redlining)的方式标示此前无贷款且此后也不贷款的区域。这个手法一用几十年,成了歧视非裔美国人、拉丁裔、亚裔和犹太人的应手工具。有类于此,计算机算法和在线数据汇总一旦被用于确定公民的人口学特征,就有可能形成系统性歧视。例如,划出一条“数字红线”,排斥对使用者而言并非必要的特定群体,无论是客户、员工、租赁者,还是借贷人。
报告人提醒联邦政府,必须关注大数据有可能造成有悖国家法律和社会价值的歧视。因此,公共政策与信息技术的进一步结合要想具备正当性,首先需要解决一个问题:如何才能更好地检测、计量、纠正那些由自动化决策产生出的歧视性影响。报告认为,大数据技术既可以导致歧视,也可以用来支持公民自由。联邦政府中涉及公民权利的机构必须能够辨别出源自大数据分析、又不利于被保护阶层的行为与结果,进而发展出一整套方案,用以调查并解决相关案件中的违法现象。评价过程中,各机构应当考虑到数据的层级、信息汇总的语境、信息所针对的人口群体,以及相关群体的立法期待。政府部门应与公民权利组织一起,使用大数据工具来确保弱势群体能够得到平等的对待。
不难发现,该报告努力将美国联邦政府的角色设定为不同利益群体之间的调和者,将大数据技术可能导致的政治问题转化成一系列可操作的技术流程。不妨提及,4月23日至24日,巴西圣保罗召开全球互联网治理大会。各国代表就反抗网络霸权、加强网络治理等议题形成集中讨论,从而不可避免地聚焦于自去年以来持续发酵的“棱镜门”事件,以此为出发点检讨网络治理与公民权利的关系。而这显然是上述报告并没有回答、也不希望回答的问题。
关键词:大数据;体系架构;医疗卫生
1引言
随着“互联网”+、大数据、云计算和物联网等新兴技术的不断发展和应用,医疗卫生领域的信息化程度和水平不断提升,随之产生的相关医疗数据也呈现爆炸式增长。医疗行业作为国家和社会发展的基础行业,其医疗数据蕴含着着巨大的价值。通过大数据技术可以有效地处理医疗卫生行业日益增长的各种数据,为整个医疗卫生行业的发展提供有效地决策支持。
2医疗大数据概述
2.1医疗大数据的概念。大数据(BigData),通常是指多源异构、跨域关联的海量数据集合,其数据量特别大、数据形态众多、数据结构复杂,使用传统的软硬件及算法难以进行数据的存储、处理和分析。医疗大数据是传统大数据的衍生,指在医疗行业所产生的海量数据,包括患者就医、医疗服务、卫生管理和医学研究过程中产生的以患者为中心的众多数据[1]。2.2医疗大数据的特征。医疗大数据不仅具有传统大数据的5V特征,即Vol-ume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),还具有以下六点特有的特征[2-4]:(1)医学术语的复杂性。在医学领域中,医学术语涉及国外和国内医学术语以及外文与中文表达表述方式,存在术语标准不统一不精确、更新速度快等问题,使得医学术语和医疗数据在文字表达和语义方面复杂繁琐,尤其体现在我国的中医药领域的医学术语的复杂性。(2)医疗数据的多维性。患者在医院就医过程中,围绕着患者为中心,医疗数据会从多个维度产生,如医生从诊断治疗维度产生数据、医技从检查检验维度产生数据、护士从护理维度产生数据,数据的产生格式和要求不同,使得同一医疗行为存在多重维度的数据展示。(3)医疗数据不完整性。不管是手工记录还在借助于电子化方式记录医疗数据,均会由于各种原因导致数据记录不全或记录中出现纰漏缺失的情况存在,使得医疗数据不完整。(4)医疗数据的时序性。患者的就诊和治疗行为往往是多次的,不同的时间产生的不同医疗数据具有一定的时序性。此外,患者的检查数据如心电图数据等也都与时间有关。(5)医疗数据的隐私性。医疗数据中往往包括患者的隐私,如基本信息、健康状况等,这些隐私数据分布或隐藏在不同的地方,医疗大数据通过数据分析和挖掘,可能获得比较完整的患者隐私情况,使得医疗数据的隐私性呈现暴露化状态。(6)医疗数据的冗余性。医院在信息化建设过程中,由于厂家的不同、上线时间各异,信息孤岛普遍存在,同一患者在不同的信息系统中会产生重复的数据,这些数据分散存储在不同的系统中,使得医疗数据具有冗余性。
3医疗大数据应用体系架构
大数据技术已经应用在很多行业和领域中,通过分析和借鉴其他行业的大数据应用情况认为,医疗大数据应用体系架构应主要包括数据采集、数据存储、数据分析、数据交换共享和数据应用五个层次,以及标准规范体系、数据治理体系、运维管理体系和信息安全体系四个体系[5-7]。医疗大数据应用体系架构如图1所示。3.1体系架构的五个层次。3.1.1数据采集。数据采集的目的是采集医疗卫生机构所产生的数据,主要从各级医疗机构、公共卫生机构、医疗保险机构、全员人口信息库、居民健康档案、电子病历信息库和其他数据来源处采集医疗数据。医疗大数据的采集通常分为集中式采集和分布式采集,其中最关键的就是数据的采集、清洗、转换、装载,获取高质量符合需求的数据。3.1.2数据存储。数据存储是大数据技术的重要环节,医疗大数据量级别通常为TB至PB级别,存储方式包括结构化存储方式、非机构化存储方式以及分布式文件存储方式,其中结构化数据通常存储在关系型数据库(RDBMS)中,常见的关系型数据库包括ORACLE、SQLSERVER、DB2等,非机构化存储方式需要用到NoSQL等技术,分布式文件存储方式可以通过Hadoop等技术实现。在医疗领域,PACS数据、电子病历、随访数据等主要以图像或文本形式存在。3.1.3数据分析。数据的分析方法是大数据技术的关键核心,主要包括三种方式:一是以分类、聚类、特征分析、关联规则、多维分析、回归分析为主的传统分析方法,二是以机器学习、数据挖掘、语义搜索、自然语言处理的智能分析方法,三是以自定义分析为主的分析方法。大数据分析由于数据海量,传统的分析方式效率低下,因此智能分析方式是目前的主流数据分析方法。在医疗领域针对电子病历的自然语言处理技术和面向PACS图像的语义分析技术日益成熟。3.1.4数据交换共享。数据交换共享不仅要满足数据共享集成功能,实现数据的集中采集、分拣下推等,还需要很好的支持面向分布式的SOA架构,支持基于WebService、文档、DB等多种模式的更具有广泛意义的数据交换。实现业务内部的紧耦合、业务之间的松耦合,支持各种标准和接口规范,实现核心基础服务平台、各应用系统的集成和数据交换共享。3.1.5数据应用。数据的应用主要包括政府部门应用、医疗机构应用、社会公众应用和行业企业应用四个方面的应用。政府部门应用主要包括智能监管、决策支持、舆情监控等,医疗机构应用主要包括辅助诊疗、精准医疗、临床科研,社会公众应用主要包括个性化诊疗、慢病助治,行业企业应用主要包括药品研发和健康保险等。3.2体系架构的四个体系。3.2.1标准规范体系。医疗大数据应用体系架构的设计以数据处理为核心,在国家标准、行业标准、管理规范、技术标准和信息标准的基础上制定并完数据接口标准规范、数据交换标准、元数据信息标准、数据采集规范、数据管理制度、数据质量规范等,建立医疗大数据应用体系的标准规范集。3.2.2数据治理体系。数据治理是对数据的全生命周期管理,主要包括两个方面:一个是数据质量核心领域,二是数据质量保障机制。其中,数据质量核心领域的内容包括数据服务、数据质量、主数据、元数据、数据全生命周期、数据模型、数据标准和数据安全等,数据质量保障机制包括章程制度、组织、流程和IT技术应用等。3.2.3运维管理体系。运维管理体系是保障整个应用持续正常运行的基础,主要包括管理对象、组织结构、服务流程、服务内容、响应措施和制度规范等。针对网络、主机、存储、数据库系统、中间件、终端外设运维等多个方面,建立持续改进的运维管理体系。3.2.4信息安全体系。信息安全管理体系涵盖安全策略、访问控制、信息安全组织、物理和环境安全、通信和操作安全、信息安全事件管理和业务连续性管理等,从规章管理制度和信息安全技术等方面构建全面的信息安全体系。
4医疗大数据的应用场景
4.1政府部门应用。在决策支持方面,传统的决策支持容易受主观因素影响,医疗大数据技术以数据为基础,以挖掘和分析为手段,能够客观全面地综合决策。政府部门主导的各级医疗大数据中心的建设汇集了海量的医疗数据,通过大数据技术宏观调控,调整各地医疗资源分配,同时为政府部门制定有关政策提供客观的依据。在智能监管方面,通过事前数据提示控制、事中数据监控管理、事后数据分析评价,全流程智能监管整个医疗行为的各个环节,对各医疗机构进行宏观评价和智能监管。在舆情监控方面,通过大数据技术自动采集和分析相关医疗数据,通过自动分类聚类以及提前预警,为合理处理医患关系,引导正确舆论提供支持。4.2医疗机构应用。在辅助诊疗方面,通过医疗大数据技术全面收集病人的在院体征、影像、随访等数据,综合多学科数据辅助诊断和治疗,建立临床大数据知识库,辅助临床工作者诊断、治疗和用药。在精准医疗方面,大数据技术在精准诊断、精准治疗、精准用药、精准预防环节中,通过基因测序精确存在问题的基因片段,使用靶向用药精准治疗,实现最佳诊疗方式。在临床科研方面,临床科研工作者常常面临数据获取难、数据量小、数据不全的问题,通过医疗大数据技术使用大数据搜索引擎可以一站式获取相关数据,利用大数据的分析方法和计算能力,探索新的医疗科研领域。4.3社会公众应用。在个性化诊疗方面,医疗大数据技术与移动互联网技术相结合,通过手机应用程序和可接入网络的可穿戴移动设备等,可以实时获取个体的各项体征数据和指标,使用大数据统计和分析技术给个体予以提醒和指导,使个体实时了解自己的健康状况,及时就医诊疗。在慢病助治方面,尤其针对肿瘤患者、高血压患者、糖尿病患者等受众诊疗和用药周期长,需要长时间监控各项指标,利用医疗大数据技术可以从历史数据、实时监控和预测数据等多个方面辅助慢性病治疗。4.4行业企业应用。在药品研发方面,通过医疗大数据技术在药品研发前期可以通过对受众进行大数据的需求调研、指标采集等以决定研发方向和投入,在药品研发过程中可以通过大样本和大量数据临床试验数据以确定药品的效果,在药品临床使用阶段可以通过临床大量患者的使用反馈效果不断改进药品,在药品上市阶段可以通过大数据技术做好市场规划和预测。在健康保险方面,通过医疗大数据统计和分析可以获取特定疾病的总体情况以及患者对于各类保险的需求,有针对地开展健康保险业务。
5医疗大数据应用面临的挑战
目前,医疗大数据的应用仍然处于初级起步阶段,面临很多问题和挑战,主要包括:(1)机制和标准不完善,国家关于大数据已经出台了很多指导性意见,但是涉及到具体的建设标准和技术规范还需要进一步细化完善,此外由于信息化建设过程中厂家各异,标准规范也各不相同;(2)关键技术需要突破,一是大数据的整合技术,尤其是针对医疗行业中的大量非结构化数据,二是大数据的存储技术,主要是分布式存储架构的建设,三是大数据的分析技术,对文本、图像等医疗数据的分析方法和能力需要创新;(3)数据的整体质量不高,由于我国的信息化建设的逐步进行的,在实际的建设过程中,基础数据缺失、数据错误等问题广泛存在,利用大数据技术采集汇总后的整体数据质量不高;(4)数据安全和隐私有待加强,医疗数据具有很强的隐私属性,是一类比较特殊的数据,如何从管理和技术层面保障大数据的安全隐私是现实面临的问题之一;(5)复合型人才的缺失,医疗大数据的建设和应用,不仅仅需要计算机与信息领域的专业人才,还需要对卫生管理、临床医疗、统计分析等方面有深入的了解,复合型人才的培养是大数据技术在医疗卫生行业应用过程中重要的环节[8-9]。
摘要:随着大数据技术的发展,拥有海量数据和大数据处理技术的互联网金融企业正在形成对商业银行传统零售业务的挑战,零售业务转型已成为商业银行当前的核心任务之一。本文首先在大数据视角下对互联网金融的兴起以及商业银行零售业务所受到的影响进行了分析;其次,在大数据视角下分析了商业银行零售业务的转型现状;最后,针对大数据时代商业银行零售业务转型提出了建议和措施。
关键词:大数据;互联网金融;客户行为;银行零售转型
一、引言
大数据与互联网金融的发展和融合造成对传统金融业最重要的影响就是金融脱媒和降低交易成本。虽然目前对商业银行对公业务和机构业务影响不大,但是对商业银行零售业务的大众客户基础、业务领域(支付、存款、中收、零售贷款等)、经营模式以及社会舆论环境已带来了巨大的挑战。因此,面对互联网金融对传统金融业的冲击以及大数据应用与发展的趋势,商业银行零售业务如何转型是当前银行业继续探讨的重点和难点问题。
二、大数据时代互联网金融对商业银行零售业务的影响因素分析
随着互联网金融的冲击,传统的商业银行零售业务正逐步遭到侵蚀,其影响主要表现在以下三点:一是居民储蓄存款份额下降;二是居民和小微企业对商业银行信贷依赖性降低;三是商业银行贷款结构失衡压力突出,中长期贷款比例远远高于短期贷款[1]。通过上述影响表现可以看出,在互联网金融的冲击下,商业银行的客户、资金和业务都在流失,从大数据的视角来看,其影响因素主要有以下三个方面。
1、大数据的分布式服务处理方式能够降低交易的时间成本和硬件成本。传统的数据存储和处理采用了集中处理的方式,将所有数据存放在一块硬盘并通过一个服务器进行处理。但随着数据量膨胀至TB和PB级,传统的集中处理方式和较低的通信带宽限制了数据处理的效率,很难得到实时的处理结果。随着计算机性能的提高和硬件设备价格的下降,以大规模计算机集群为架构的大数据存储与处理方式极大地提高了大数据信息服务的效率。如Hadoop平台的MapReduce模型能够将复杂的运算模型运行在分布式系统上,极大提高了数据的运算效率,降低了交易的时间成本和硬件成本。
2、大数据极大提高了信息处理效率,有助于简化交易流程,降低中间成本。大数据的4V特征中包括快速化特征(Velocity),即大数据时代,信息产生的速度近乎实时[3]。信息的实时产生大大地减少信息的不对称,拓宽信息流通的渠道,削弱市场不确定因素引起的价格波动,并降低信息搜寻与处理费用,这种信息处理方式在精准营销中得到了广泛的应用[4]。同时,大数据有利于交易流程的简化和减少中间环节带来的成本问题。
3、大数据为风险管理提供支持,降低了违约成本。传统的银行信用风险管理方法对于个人和小微企业的评估能力正逐步下降,问题的关键就是缺乏足够的数据。初次贷款或有过信用污点的个人很难提供更多的数据供银行判断其还款意愿和能力,小微企业在初创期也很难证明其信用度。大数据的一个重要特征就是数据类型多元化(Variety),目前,Facebook、微博、视频和音频等非结构化数据已经应用于个人信贷的风险评估。如美国ZestFinance公司专门针对无法提供信用证明的人,通过互联网上大量的个人碎片化信息和ZestFinance风险评估模型重组个人信用视图。该公司目前首次还贷违约率低于竞争者,投资回报率达到150%,其背后依托的是强大的大数据挖掘能力。
(2)在大数据时代,互联网金融导致客户行为发生变化
2、客户的信息来源和决策依据更为广泛。首先,在传统银行零售时代,客户通过有限的资源来获取银行零售产品信息,而在大数据时代,当客户有需求时,他们首先会选择通过互联网来收集相关信息,了解该商品的信息。在大数据环境下,客户更容易获得金融市场行情,从而可以通过比较购买到满足其需求的商品。其次,在大数据时代随着社交媒体的发展,客户会直接在微博或其他社交媒体上发表自己的看法,这种评价信息往往会被商业企业或数据服务公司收集,成为对商品评价的舆情数据,如百度口碑、微博统计以及电商网站的购买评论等。在大数据时代,这种评价模式对客户决策的影响更加广泛。再次,随着基于大数据的精准营销的发展,企业往往更加注重客户的黏性,对客户的服务和产品推荐也是客户决策的一个重要因素。
(3)在大数据时代,互联网金融导致业务决策模式发生变化
2、事中感知。事中感知的含义是大数据可以准确地模拟事件或活动的进展情况,通过把握进展细节制定行动计划和政策。大数据之所以能够对事件进行准确的模拟和精准的把握,主要体现在大数据处理的实时性上。大数据的实时分析和处理能够及时把控事件的变化,与传统的银行零售相比,基于大数据技术的事中感知能够更准确的刻画客户行为,修正营销策略。
3、事后反馈。事后反馈的目的是对依托大数据做出的决策进行验证与评价,并能够实时地调整决策结果。事后反馈主要包括两个层面:一是对大数据决策的结果进行评估,其中包括大数据模型的准确率、提升度等预测效果的评估,通过迭代优化直到找到最好的模型;二是将评价结果反馈于银行经营决策和业务指标,根据评价结果与商业目标的契合程度重新修正经营战略和业务流程。
三、大数据时代商业银行零售业务转型现状
(1)基础架构的转型
商业银行主要从以下三个方面投入来完成基础架构的转型:
1、数据仓库的建设。随着商业银行的业务发展,银行数据总量已经超过上百TB,传统的数据库无法存储如此庞大规模的数据,各大商业银行都在建立自己的数据仓库。如工商银行建立了企业级数据仓库,该数据库统一了全行各部门的数据,存储结构化数据量达到400TB,数据规模居国内同业第一、国际第六,并提供灵活查询和通用查询等多种形式的数据服务支持。
2、大数据处理平台的建设。大数据吞吐率和实时处理的能力依托于大数据处理平台的建设,互联网金融在大数据处理方面具有天然的优势,倒逼商业银行改革。如农业银行大力推进集群架构、虚拟化技术的应用,引入集群数据库和MPP数据库,构建更加开放的分布式架构,除了建立企业级数据仓库外,还分别建立了信息共享平台、流式计算平台和高性能数据处理平台;交通银行信用卡中心应用智能语音云对银行的语音数据进行分析处理,通过大数据技术对海量语音数据进行持续在线实时处理,提升了经营和服务效率。
3、数据质量治理。随着信息技术和多媒体技术的发展,商业银行除了数据规模庞大之外,数据来源也从传统的结构化数据发展至以网络日志、社交媒体为主的半结构化数据和非结构化数据。数据量和数据类型的增加为商业银行的精准营销提供基础,但数据质量是决定营销模型准确性的关键。完善的数据治理可以确保商业银行数据的可用性、可获取性、完整性以及一致性。目前银行数据仓库中数据经常存在的问题有标准不统一、存在缺失值、数据异常和更新滞后等,商业银行的数据治理方式主要包括建立数据标准体系、定期的数据质量评估和闭环的数据质量管理模式,从管理上和技术上治理数据源头[5]。
(2)零售渠道的转型
银行零售渠道的发展经历了三个阶段,分别是单渠道阶段、多渠道阶段和全渠道阶段,零售渠道不同阶段之间的关系如图2所示。
单渠道是指单一的渠道销售形式,主要是指物理网点;随着互联网和电子商务的发展,银行零售由单一的物理网点形式拓展至自助银行、电话银行和网上银行的多渠道阶段;2013年前后,随着大数据、云计算、多媒体和社交网络的发展,为了满足金融消费者任何时间、任何地点、任何方式购买产品和接受服务的需求,商业银行采取物理网点渠道、电子商务渠道和移动电子商务渠道整合的方式提供金融产品或服务,为客户提供无差别服务体验,这也被称为全渠道阶段[6]。
(3)客户管理的转型
零售的关键在于对客户的精准定位,提供快捷高效的服务和精细化管理。商业银行在过去对客户管理普遍应用了二八理论,即20%的客户创造了80%的利润,只对20%的高价值客户进行重点维护。但实际上金融客户群体具有长尾效应,80%的低价值客户创造出来的价值总和同样不可小觑。互联网金融的成功之处在于除了抓住20%的高价值客户之外,对剩余的中低价值客户也进行挖掘、发展和维护,提升客户的忠诚度[7]。客户管理的关键在于用大数据的方法对客户进行细分并根据客户的特征提供差异化的服务。商业银行经过长期的探索,逐步在分析海量客户数据的基础上建立了自己的客户管理体系。如民生银行建立了基于大数据的客户关系管理体系,通过充分引入各类大数据智能商机挖掘模型,实现了智能化的目标客户推荐和产品推荐,其客户关系管理体系包含交易链智能获客模型、客户价值弹性预测模型、产品精准营销模型、客户流失预警模型,为全行客户经理进行精确化的市场营销提供了有力保障。工商银行专门针对中高端客户建立了中高端客户流失风险预警模型,该模型根据多个指标将客户分为维护不到位客户、理财逐利型客户、结算交易户、储蓄客户、外流型工资客户、高端信用卡客户、电子活跃户、其他客户,并结合每类客户特征,制定有针对性的批量挽留策略。
(4)风险管理的转型
银行零售与风险管理密不可分,强大的风险控制能力成就了互联网金融普惠式的金融服务方式。如传统的信用风险管理方法普遍存在非定量分析和缺乏实时性等,而且很多影响借款人信用的指标并未作为变量反应到模型中[8]。利用大数据挖掘的方法能深入找出影响客户信用的特征因素,并将这些特征因素都作为变量来预测新的贷款人的信用程度。目前,大数据+风险定价已经成为商业银行贷款授信的主要方式,招商银行推出的闪电贷是一款支持移动端的纯线上信贷产品,闪电贷能够支持更广的小额贷款用户,是招商银行实施零售贷款惠普金融计划之一。闪电贷根据客户的风险等级进行差异化定义贷款利率,授信额度和贷款利率将由系统根据客户过往数据每个月动态调整一次。
四、大数据时代商业银行零售业务转型建议
(1)需遵守市场规律,符合自身业务发展需要和应用场景
当前,在社会各界兴起了一股重视大数据、应用大数据的热潮,各商业银行都在积极开展大数据战略的制定和大数据技术的研发。大数据技术的应用能够为商业银行带来巨大的经济效益,我们也要深刻的认识到,商业银行大数据建设是一个长期的过程,过早进行大量投入,选择了不适合自身实际的软硬件,或者过于保守而无所作为都有可能给商业银行发展带来不利影响。因此发展大数据零售业务要符合市场规律,寻找符合自身业务发展的契机和大数据应用场景,建立近期、中期和长期的目标,不可操之过急。
(2)需要增强大数据的核心处理能力
首先,大数据的核心基础是其平台建设程度及信息整合能力。面对大数据的海量、类型丰富、实时产生和价值密度稀疏等特征,商业银行需要对传统的数据仓库技术进行改造,建立起大规模、非结构化、分布式与流计算的大数据仓库。其次,提升大数据的核心处理能力要进一步加强数据标准的建立和数据质量的治理。目前,来自银行各部门、各渠道的信息标准往往存在差异,很多信息存在缺失和定义范围模糊不清的问题,因此要建立统一的信息标准,推动数据治理体系架构和制度的建立,形成统一的、完整的客户信息视图。再次,是增强数据挖掘与分析能力,要利用大数据专业工具,建立统一的大数据挖掘与分析架构和业务逻辑模型,规范大数据管理制度,将大数据转化成商业银行零售决策支持信息。
(3)需要更加丰富的信息来源与应用方式
社交网络的兴起为银行零售业务开辟了新渠道,网站、微博、论坛成为商业银行新的数据来源。目前,商业银行在大数据应用上主要以结构化数据为主,对网络日志、视频和语音等半结构化数据和非结构化数据应用尚浅,利用半结构化数据或非结构化数据进行数据分析对于舆情监测、风险管理、客户特征提取有重要意义。因此如何有效融合结构化数据与非结构化数据,建立非结构化数据应用方案是商业银行提升零售能力的重要机制。
(4)需要加大金融创新力度
在云计算、生物识别、硬件智能化、移动互联网等高科技驱动下,未来大数据在商业银行零售业务的应用将不仅停留在业务分析和决策制定层面,而是包含了业务、管理、科技等若干层面的深度融合。如智慧银行与生物识别支付是目前大数据与高新科技、金融业务、管理机制深度融合创新的最具代表性的产物,未来的商业银行零售业务也将不断的通过大数据创新应用的方式完善业务流程、降低经营成本和提升客户体验。
(5)需要加强大数据安全管理
大数据能够在很大程度上缓解信息不对称问题,为商业银行零售提供更有效的手段,如果管理不善,大数据本身也可能演化成大风险。大数据应用改变了数据安全风险的特征,不仅需要新的管理方法,还必须纳入到全面风险管理体系,进行统一监控和治理。为了确保大数据的安全,商业银行必须抓住以下三个关键环节:一是协调大数据链条中的所有机构,共同推动数据安全标准,加强产业自我监督和技术分享;二是加强与监管机构合作交流,借助监管服务的力量,提升自身的大数据安全水准;三是主动与客户在数据安全和数据使用方面加强沟通,提升客户的数据安全意识,形成大数据风险管理的合力效应。
(6)需要加强行内沟通协作与行外广泛联合
首先要加强行内各部门的团结协作,共同打造一支复合型的大数据专业团队,不仅要掌握数理建模和数据挖掘的技术,还要具备良好的业务理解力,提升商业银行对大数据的理解、分析和应用能力。其次,商业银行应充分吸收互联网金融的先进经验,与百度、阿里巴巴、腾讯等大型互联网企业建立合作,共同打造商业银行互联网金融平台等零售新模式;同时可与国内国际顶尖的大数据服务商(如IBM、SAS、Teradata等)共同打造商业银行的大数据应用联合实验室,建立完备的管理体制和激励机制,由实验室统一负责大数据方案的制定、实验、评价、推广和升级,促进大数据向价值资产的转换。
(7)要注意信息脱媒带来的风险
这种风险主要来自两方面,一是经济金融活动产生的数据快速膨胀,银行占有和产生的数据占比大幅下降,新数据的产生和保存不再依赖银行;二是过去通过商业银行的数据流和信息流,现在则通过新的渠道和载体直接与信息输出和接收方进行传递,商业银行不再是信息交易中的重要一环。信息脱媒将会带来信息数据的减少和滞后,缺少数据将会成为商业银行零售业务的屏障,因此,商业银行应该展开合作,积极获取更为广泛、更为独立的数据和信息来源。
参考文献:
[3]李文莲,夏健明.基于大数据的商业模式创新[J].中国工业经济,2013,(5):83-95.