简析大数据及其处理分析流程 - 范文中心

简析大数据及其处理分析流程

12/18

昆明理工大学 空间数据库期末考察报告

《简析大数据及其处理分析流程》

学院:国土资源工程学院

班级:测绘121

姓名:王易豪

学号:[1**********]9

任课教师:李刚

简析大数据及其处理分析流程

【摘 要】 大数据的规模和复杂度的增长超出了计算机软硬件能力增长的摩尔定律,对现有的IT 架构以及计算能力带来了极大挑战,也为人们深度挖掘和充分利用大数据的大价值带来了巨大机遇。本文从大数据的概念特征、处理分析流程、大数据时代面临的挑战三个方面进行详细阐述,分析了大数据的产生背景,简述了大数据的基本概念。

【关键词】 大数据;数据处理技术;数据分析

引言

大数据时代已经到来,而且数据量的增长趋势明显。据统计仅在2011 年, 全球数据增量就达到了1.8ZB (即1.8 万亿GB )[1],相当于全世界每个人产生200GB 以上的数据,这些数据每天还在不断地产生。

而在中国,2013年中国产生的数据总量超过0.8ZB (相当于8亿TB ),是2012年所产生的数据总量的2倍,相当于2009年全球的数据总量[2]。2014年中国所产生的数据则相当于2012 年产生数据总量的10倍,即超过8ZB ,而全球产生的数据总量将超40ZB 。数据量的爆发式增长督促我们快速迈入大数据时代。

全球知名的咨询公司麦肯锡(McKinsey)2011年6月份发布了一份关于大数据的详尽报告“Bigdata : The next frontier for innovation ,competition , and productivity ”[3],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入2012年以来,大数据的关注度与日俱增。

处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划[4]中,把信息处理技术作为4项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关。

由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡。如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在。

1 大数据的概念

数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB (1GB =1024MB )级别的数据,“海量”一般表示的是TB (1TB =1024GB )级的数据,而现在的“大数据”则是PB (1PB =1024TB )、EB (1EB =1024PB )、甚至ZB (1ZB =1024EB )级别以上的数据。2013年Gartner 预测世界上存储的数据将达到1.2 ZB,如果将这些数据刻录到CD-R 只读光盘上,并堆起来,其高度将是地球到月球距离的5倍[5]。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。

1.1 大数据的产生

在科学研究(天文学、生物学、高能物理等)[6]、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势.美国互联网数据中心(IDC )指出,互联网上的数据每年将增长50%以上,每2年便将翻一番,而目前世界上

90%以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息。

1.2 大数据概念的提出

1989年,Gartner Group 的Howard Dresner 首次提出“商业智能”(Bussiness intelligence )这一术语[7]。商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP )工具和数据挖掘(Data Mining )等技术[8]。随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题。由此,IT 界诞生了一个新的名词———“大数据”。

根据维基百科的定义,“大数据”(Big Data)指所涉及的资料量规模巨大到无法透过目前主流软件工具, 在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。关于数据量达到多少可以叫大数据,目前尚无统一说法。通常认为,大数据一般应在10TB~1PB(P 为T 的1024倍)以上。

1.3 大数据的特征

在日新月异的IT 业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume (容量大)、Variety (种类多)、

Velocity (速度快)和最重要的Value (价值密度低)[9]:

(1)量大(Volume Big)。数据量级已从TB (210GB )发展至PB (210TB )乃至ZB (220PB ),可称海量、巨量乃至超量。

(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。

(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。

(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。

(5)复查Complexity :处理和分析的难度非常大。

1.4 大数据的应用领域

发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响。将大量的原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事物的发展趋势,有助于人们做出正确的决策,从而提高各领域的运行效率,取得更大的收益。其中,包括:商业、金融、医疗、制造业等。

2 大数据处理分析流程

从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别。但是总的来说,大数据的处理分析流程基本可划

分为数据采集、数据处理与集成、数据分析和数据解释4个阶段。

2.1 数据采集

大数据的“大”,原本就意味着数量多、种类复杂,因此,通过各种方法获取数据信息便显得格外重要.数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别(RFID)、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等。

2.2 数据处理与集成

数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。

2.3 数据分析

数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在。传统的数据处理分析方法已经不能满足大数据时代数据分析的需求。在数据分析技术方面,Google 公司于2006年率先提出了 “云计算”的概念,其内部各种数据的应用都是依托Google 自己内部研发的一系列云计算技术[10],例如分布式文件系统GFS 、分布式数据库BigTable 、批处理技术MapReduce ,以及开源实现平台Hadoop [11]等。这些技术平台的产生,提供了对大数据进行处理、分析很好的手段。

2.4 数据解释

在一个完善的数据分析流程中,数据结果的解释步骤至关重要。但随着数据量的加大,数据分析结果往往也越复杂,用传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,为了提升数据解释、展示能力,现在大部分企业都引入了“数据可视化技术”[12]作为解释大数据最有力的方式。通过可视化结果

分析,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受。常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术,等等。

3 大数据时代面临的挑战

大数据面临的挑战是多方面的:

(1)数据的快速增长对存储空间、存储技术、数据压缩技术、能源消耗的挑战:大数据需要占用大量的存储空间,尽管存储性价比在提高,压缩技术也在

不断发展,但保存数据所消耗能也在大量增长。解决办法是研制出新一代高密度、低能耗存储设备。

(2)数据本身安全及个人隐私泄露面临的挑战:在海量数据洪流中,在线对话与在线交易活动日益增加,其安全威胁更为严峻。大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好, 严重的将导致企业的商业机密及个人隐私泄露。保障数据及应对人隐私泄露的解决办法有:①通过物理隔离以及与权限控制相结合, 实现对数据的隔离,保证数据不被非法访问并保证用户数据的隐私。②通过信息加密的功能,防止用户信息被盗取。用户的关键信息,如登录密码和系统访问等其他鉴权信息,无论是传输时还是在存储时必须加密。③通过对硬盘实施有效的保护:保证即使硬盘被窃取,非法用户也无法从硬盘中获取有效的用户数据。将数据切片存储在不同的云存储节点和硬盘上, 数据无法通过单个硬盘恢复。故障硬盘无需进行数据清除即可直接废弃,用户数据不会通过硬盘泄露。④通过立法来保障企业的商业机密及个人隐私不被非法应用。

(3)网络带宽能力与对数据处理能力面临的挑战:网络带宽是瓶劲,尤其表现在各网络接入商之间的互联互通出口上;大数据时代网络必须有足够的带宽支持, 才能保证数据实时性。数据计算能力是应对数据洪流时的又一挑战,采用分布式计算可以解决其中的一些问题,但部署相对较复杂。

(4)有效数据撷取面临的挑战:从海量数据中提取隐含在其中的、潜在有用信息和知识的过程十分复杂的, 需要反复 “去伪存真”。通常要经过业务理解、数据理解、数据准备、建立挖掘模型、评估和部署等多个步骤。即在开始数据分析之前,我们必须了解业务需求,根据需求明确业务目标和要求;接下来便是对现有数据进行评估,并对原始数据进行组织、清理、集成、变换等一系列数据收

集和预处理工作;在搞好数据清理的基础上,应用相关算法和工具建立分析模型;之后对所建立的模型进行评估, 重点具体考虑得出的结果是否符合最初的业务目标;最后,便可将发现的结果以及过程利用各种可视化技术(报表、报告、图形等)呈现出来。

4 结语

大数据的发展,促使人类的活动范围在扩大,需求在增长,世界已经逐渐在全球范围内分工协作和业务整合,促使人类把学习、生活和工作的模式从局部走向全局,利用网络思维,把个人、企业、组织、政府、自然和社会重新定义并且赋予新的联系,通过它们之间的智能化互动运转,使用群体智能改善人类生存环境和提升公共服务质量,提高性能、效率和生产力。大数据技术进步和产业升级,将催生出新的市场、新的业务模式和新的产业规律,显示一个国家寻求战略优势的集体意志。虽然大数据概念火热,提供了人类通过观察数据全貌以深刻理解世界的机遇,但是距离利用大数据获取数据智能和人类智慧仍存在较大距离。

参考文献:

[1] 李新华. 浅谈大数据时代的机遇与挑战[J].通讯世界.2013(06)

[2] 沈松雨. 大数据环境下GIS 技术发展研究[J].科技创新与应用.2015(10)

[3] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J].计算机研究与发展.2013(1)

[4] 刘智慧, 张泉灵. 大数据技术研究综述[J]. 浙江大学学报(工学版). 2014(06)

[5] 何非, 何克清. 大数据及其科学问题与方法的探讨[J]. 武汉大学学报(理学版).

2014(01)

[6] 吴吉义, 傅建庆, 张明西, 平玲娣. 云数据管理研究综述[J].电信科学. 2010(05)

[7] 余长慧, 潘和平. 商业智能及其核心技术[J].计算机应用研究. 2002(09)

[8] 熊忠阳. 面向商业智能的并行数据挖掘技术及应用研究[D].重庆:重庆大学,2004

[9] 严霄凤, 张德馨. 大数据研究[J].计算机技术与发展,2013,23(4):168-172.

[10] 李乔, 郑啸. 云计算研究现状综述[J].计算机科学,2011,38(4):32-37

[11] 杨宸铸. 基于HADOOP 的数据挖掘研究[D ].重庆:重庆大学,2010

[12] 贺全兵. 可视化技术的发展及应用[J]. 中国西部科技. 2008(04)


相关内容

  • 入侵检测系统Snort工作原理简析
    第5卷第年9月) 25期(2009电脑知识与技术Computer Knowledge and Technology Vol.5,No. 25, September 2009, pp.7105-7107ISSN 1009-3044电脑知识与技 ...
  • 708包身工
    夏衍,原名沈端先,1900年生,浙江杭州人.主要作品有话剧剧本<上海屋檐下>.<心防>.<法西斯细菌>.<考验>,报告文学<包身工>等. <包身工>是夏衍在上海工厂区进 ...
  • 简析电网建设全过程造价变动的原因及控制措施
    简析电网建设全过程造价变动的原因及控制措施 摘要:由于电网建设在我国的众多建设工程中属于一项具有基础性和系统性的建设,并且在电网建设全过程中,受到建设周期.建设工程点和其他外界等原因的影响,会导致电网建设全过程出现造价超支的情况.因此,要针 ...
  • 城市配送成本控制策略研究
    钱继锋, 等:城市配送成本控制策略研究 供应链 城市配送成本控制策略研究 钱继锋, 路学成, 石 磊, 刘占东, 王 宾 (军事交通学院 装运机械系, 天津 300161) [摘 要]城市配送成本就是在城市配送活动中发生的所有与配送活动有关 ...
  • 外国文学史+试题
    外国文学史复习资料 第一章 古代文学 一.单项选择题: 1."荷马史诗"两部作品的篇名是( ). A.<伊利昂纪>.<俄底浦斯王> B.<美狄亚>.<奥德修纪> C.< ...
  • 20**年司法考试卷四题型及其应对策略
    2012司法考试卷四题型及其应对策略.卷四是司法考试比较容易拿分的部分.但是怎样才能快速提高分数,那么就需要掌握答题技巧.司法考试卷四包括简析题.分析题.法律文书题等,是相对主管的题目,所以考生主要在平时多练习才能提高答题技巧. 一.简析题 ...
  • 20**年-20XX年中国冷链物流市场需求预测与发展研究报告
    - 1 - 2013-2017年中国冷链物流市场需求预测与发展研究报告 [企业网址] http://www.cninfo360.com/yjbg/wlhy/qt/20131118/303561.html (点击看正文) 正文目录 第一章 冷 ...
  • 简析刑事申诉阶段律师调查取证权
    摘 要 刑事申诉阶段律师调查取证是行使申诉权利的重要方式,调查取证权是律师诉讼权利的重要组成部分.特别是在刑事申诉阶段中,律师合理行使调查取证权对于一些案件走向具有决定性作用.调查取证制度的完善可以说是实现庭审实质化的前置性环节.刑事申诉阶 ...
  • 简析高通案中滥用市场支配地位的行为
    摘要:高通案作为2015年开年发改委的第一大反垄断案,在<处罚决定书>公布后也是引起了极大关注,其中高通公司被认定为滥用其在标准必要专利许可市场和基带芯片的销售市场的市场支配地位的行为,包括收取不公平的高价专利许可费,要求对方用 ...
  • 市场活动突发情况应急预案
    市场活动问题处理预案 一. 本次预案目的 因为在市场活动.旅游活动开展过程中会遇到各种问题,有些事件是可以规避的,也有些事件发生之后处理好可以给公司带来额外的效益,而处理不好也会给公司带来负面影响.因此,本预案是为了规避不必要的事件发生,或 ...