大数据在计算机信息处理技术中的应用_张莉 - 范文中心

大数据在计算机信息处理技术中的应用_张莉

03/07

第13卷 第6期2014年12月淮北职业技术学院学报

JOURNALOFHUAIBEIPROFESSIONALANDTECHNICAOLLEGELC       Vol.13No.6

Dec.2014

大数据在计算机信息处理技术中的应用

张 莉,汪 伟

)(安徽淮北 2淮北职业技术学院计算机科学技术系,35000

摘要:进入新世纪以来,以互联网为主线的计算机应用发展十分迅速,微博、微信、社交网络圈、物联网、导航、电子商务等概念的提出以及实现在很大程度上改变了人们的日常生活,同时也带来了海量的数据,在此阐述了大数据处理方法、处理流程、处理技术及处理工具,以facebook为例来说明大数据在信息处理中的应用。关键词:大数据;信息处理;海量数据

()中图分类号:T800P391   文献标识码:6712752014061303A   文章编号:1---

DOI:10.16279/j.cnki.cn34-1214/z.2014.06.057

0 引言

进入新世纪以来,以互联网为主线的计算机应用发展十分迅速,近年来,微博、微信、社交网络圈、物联网、导航、电子商务等概念的提出以及实现在很大程度上改变了人们的日常生活,同时也带来了海量的数据,人类正进入大数据时代,对于大数据的定义,学术界、计算机应用界进行了大量的研究与探讨,分别从各自的角度提出了关于大数据的定义。美国计算机巨头IBM公司认为大数据时代下,计算机所处理的数据具有海量的数据量,常规的对数据量的衡量(兆,已不足以满足需求;数据的种类繁多,既MB)有科学计算领域的结构化的数据,同时也有视频监控、电子商务信息处理的非结构化的数据,对于这些不同类型的大数据,相应的应用范围十分广泛,如图1所示为大数据的主要应用领域以及相应的数据类型

[91]1

大数据。

1 大数据处理方法

1.1 流处理模型与批处理模型

大计算机对数据的处理过程常分为串行和并行处理,数据的处理方法大致也分为两种模型:流处理模型(Stream,和批处理模型(ModelSPM)ProcessinBatchProcessin gg 。简单的说,,流处理是采用对信息直接进行ModelBPM)处理的技术,而不经过对信息的存储过程;而批处理则是

[682]1先把信息存储起来,然后再对信息进行处理。

2.1 流处理模型1.

对于那些对处理响应速度要求较高的数据,宜采用流处理技术,否则,经过存储之后再处理,得到的处理结果已经过时,不再适应当时的条件(如工业环境发生了变化,等)因此,对数据的处理也失去了意义。一般来说,银行、证券、股票等金融领域,实时数据交换系统等对数据的处理速度要求比较高,因此适宜采用流处理模型进行处理。采用流处理模型对大数据进行处理就是把数据视为水流一样,不断获得的数据处理对象组成数据流结构,每当收到一个数据处理对象,就立即对其进行处理,并迅速将处理结果返回。由于流处理模型对数据处理的实时性要求非常高,数据不经过存储过程就直接在内存中进行处理,

图1 大数据应用领域及数据类型

为了处理这些海量数据,我们对计算机的运算速度提出了很高的要求,常规数据处理速度和效率已经不能适应数据大数据时代下的数据处理。BM认为满足数据量大、I种类多以及处理速度快的海量数据就是大数据。此外,还有不少研究人员、工程实践单位认为,计算机处理的数据),必须是具有价值或意义(因此,也有研究者认为大values数据必须满足:海量、多种、快速、价值的特征才能称之为

12014082  收稿日期:--

因此内存容量往往限制了流处理模型对大数据的处理效率,在采用流处理模型进行处理时,往往需要根据处理对象设计巧妙的数据结构,以提高对大数据的处理效率。1.2.2 批处理模型

批处理模型与流处理模型不同,它是先把待处理数据分块,然后把这些数据块分别交给不同的处理区进行数据处理。批处理的基本原理就是把问题进行分割,分别交给不同的处理区,这样避免了数据的传输过程中的空间和时间的消耗。

,女,安徽肥东人,张莉(淮北职业技术学院讲师,研究方向为计算机科学;9821  作者简介:-)

,汪伟(女,安徽濉溪人,淮北职业技术学院讲师,研究方向为计算机科学。1977-)

·10·3

014年第6期                      淮北职业技术学院学报              2

流处理模型和批处理模型都能有效地实现对大数据的处理,但是在大数据的实际处理过程中,往往不单独应用某一种处理模型,而是经常把流处理模型和批处理模型结合起来进行数据处理。以电子商务为代表的互联网应用带来了大量的数据,在对这些海量数据进行处理时,往往根据数据对实时处理要求的高低采用不同的处理模型,对于要求在秒甚至毫秒级处理速度的数据处理工作往往采用流处理模型进行处理;对于以天甚至周为周期进行处理的数据,往往采用批处理模型以离线的方式进行数据处理;而对处理周期要求为分钟或小时的处理对象,既可以采用流处理模型也可以采用批处理模型。2 大数据处理流程1.

大数据的处理流程大致为:对海量数据源进行信息提取,将提取出的数据按照适当的方式进行存储,根据应用对象对数据处理速度和空间的要求,采用某种恰当的数据处理技术对大数据进行处理,将数据处理结果返回给用户,这里的用户可能是实际的用户也可能是调用大数据处理流程的某一程序或任务。概括起来,大数据的处理主要包括数据的提取、分析和解释工作。

大数据具有多样性,即数据的来源不同,数据的组织结构比较复杂,因此,为了有效地处理庞杂的数据(其中大,部分数据是无效甚至是无用的)首先需要进行的工作就是从海量数据中提取出有效部分,描述分析对象的实体以,及实体之间的联系(又称关系)得到这些关系和实体之后进行数据之间的聚类,将其组织成统一的结构进行存储,得到可以进一步处理的中间数据。针对源数据进行的数据的提取和统一组织工作,在数据库领域已经有了成熟的研究,因此可以借鉴相关成果进行中间数据的提取和集成工作。

数据分析是针对数据提取得到的中间数据进行分析,它是大数据处理的核心工作。数据分析的对象是数据处理提取得到的中间数据,大数据分析技术可以借鉴传统的数据处理技术,例如机器学习、数据挖掘等技术,但是并不能直接套用,需要一些改进,因为数据提取得到的中间数据依然具有很大的数据量,这其中必定仍然含有很多无效、无用的信息,因此需要对数据进行进一步的清理工作。

由于大数据处理的对象是海量的数据,因此对数据的处理速度往往更加受到关注,在大数据处理的算法设计中,经常需要在处理精确度和处理速度之间进行合理的折衷。另外,不同的处理对象之间的处理过程具有很大的相似性,因此在算法设计过程中应该在算法的可移植性上给予充分的考虑,并且,当数据量增长到一定规模时,对于小量数据能够有效进行处理的算法并不一定适应于大数据的处理。

数据解释是大数据处理的结果展示阶段。数据处理阶段得到的结果,往往只有领域内的技术人员才能够看懂,因此为了使使用户能够理解数据分析结果,还需要对结果进行解释,传统方法是以文本的形式存储结果或者通过显示终端显示结果,但是大数据数据量较为庞杂,因此

·131·

图2 FaceBook大数据信息处理平台框架

[23]3

其各实体之间的联系也是较为复杂的,故采用传统方法并不合适。在实际工程中,可采用以标签云、历史流等为代表的可视化技术进行解释。1.3 大数据处理技术及工具1.3.1 云计算

云计算是一种计算机概念的具体实现,这些概念涉及的范围十分广泛,如分布式计算、并行计算以及网格计算,云计算在这些概念的基础上进行了扩展。云计算中的“云”是一个虚拟的容器,这个容器中包含了计算机范畴内的可利用资源,例如硬件、系统开发平台以及输入输出服务等。云计算的有效实现需要计算机操作系统中各种概念、技术的支持,这些技术主要包括数据存储和处理、索引的技术,例如计算机文件操作系统、数据库系统、数据的索引、查询系统和数据分析技术等。1.3.2 大数据处理工具

最为有效的就是关系数据对于传统的数据进行处理,

库模式。但是它并不适用于大数据的管理、存储和处理工作。HadooHa-p是当前大数据处理领域较为流行的工具,数据oodp综合了大数据处理技术所要求的文件操作系统、库系统、数据的索引查询技术以及数据分析技术,从某种意义上说,Hadoop为大数据处理工具的开发实现树立了一个标杆。当前针对大数据处理工具的开发、创新、实现主要是基于数据对象的特点对Hadoop进行有效地改进。还有很多大数据处理工具,这些工当然,除Hadoop之外,具要么是与H要么是针对特定领域数据专用adoop类似,的大数据处理工具。

2 大数据在信息处理技术中的应用案例

每天产生大社交网络平台Facebook在国外十分流行,量的数据量,现有数据总量约2每天数据增量也有5PB,60TB,facebook所需要解决的问题就是海量数据处理问题。如图2所示为facebook大数据信息处理平台框架

张 莉,汪 伟/大数据在计算机信息处理技术中的应用

关系数据库技在facebook的大数据信息处理平台中,术作为系统的两端,在前端用于获取数据,为大数据处理平台提供数据源,在后端则把数据处理结果组织起来,支持用户的查询操作,并把查询操作结果返回给用户终端显示。整个平台的核心是大数据处理、分析部分,这一部分在H前端获取的数据装载到Hiveadooive-Hp集群中进行,系统中,进行数据的聚集、分析操作,并且把数据的分析结支果存储在后端的关系数据库中。另外,在Hive系统中,持即席查询的Hiveadoo-Hp集群的作用是为了减轻即席将数据复制到一个备份的H查询对Hive系统的压力,ive系统中,该备份系统专门应对即席查询。3 大数据应用发展所面临的机遇与挑战

大数据环境下,计算机技术与互联网技术发挥各自的优点,为用户带来了前所未有的良好体验,然而,大数据同样带来了一些新的问题与挑战,这给计算机的应用和信息

[464]1

处理带来了巨大的挑战。

联系起来,就有可能把用户的行为联系起来,从而造成了用户的隐私泄漏。3.4 数据管理硬件节能

海量的数据存储、管理依赖于大量的高性能计算机、服务器、数据存储介质的服务,在这个过程中,带来了大量的能源消耗,因此对低功耗硬件的开发、升级进展也在很大程度上制约着大数据应用的发展。4 大数据的发展方向

针对当前的大数据应用所面临的挑战和机遇,为了进一步拓展大数据应用的广阔前景,还需要广大研究人员进一步针对如下几个问题展开大量的研究:海量的数据存储、管理依赖于大量的高性能计算机、服务器、数据存储介质的服务,在这个过程中,出现了大量的能源消耗,同时,上述硬件在工作时产生了大量的热,这对硬件本身也是一种威胁,一旦硬件损坏,数据将面临着灭顶之灾,因此,开发低功耗硬件以及性能可靠的硬件温度保护系统是大数据应用发展必须解决的问题;大数据的处理技术研究较为深入,但是基于大数据的面向用户、面向市场的应用服务并不多,加强技术向应用的转化,为用户提供更多、更优质的数据管理、服务将有很大的市场;大数据的各供应商之间接口标准化问题将关系到用户能否无缝对接各供应商提供的服务,同时,接口标准化也能为供应商提供有序、公平的市场竞争机会。5 结束语

本文从大数据发展的现状、大数据处理的方法和流程、大数据处理的关键技术以及大数据应用面临的机遇与挑战的角度探讨了大数据在计算机信息处理技术中的应用。同时,针对大数据应用所面临的机遇和挑战,文中也提出了一些大数据在计算机信息处理技术中应用所需要进一步解决的问题与建议。参考文献:

[]“大数据”时代背景下计算机信息处理技术分1 耿冬旭.

]()析[网络安全技术与应用,J.20141.

[]]张德馨.大数据研究[计算机技术与发展,2J. 严霄凤,

()20134.

[]王会举,杜小勇,等.大数据分析:3RDBMS与 覃雄派,

]()软件学报,MaReduce的竞争与共生[J.20121.p[]]慈祥.大数据管理:概念、技术与挑战[计4J. 孟小峰,

()算机研究与发展,20131.

3.1 数据转换

大数据时代信息处理所面向的对象是海量的、分布在各地的异构数据,为了对这些数据进行有效的处理,首先需要进行的是对这些异地异构数据进行数据集成。与传统的数据集成技术相区别的是:数据类型不再是结构化的,而是半结构化、结构化以及非结构化混杂在一起;随着以手机、平板、掌上电脑为代表的智能终端设备的迅速普及,数据产生的时间、空间发生了很大的变化;数据的存储方式也不再是传统的数据库方式,为了应对数据爆炸所带来的海量数据,在对数据进行处理时,首先需要把数据的存储方式进行转换。3.2 数据安全保护

大数据由于数据量大,信息繁杂,因此更容易遭受攻击,它成了计算机病毒和网络攻击的新对象,因此信息安全技术在很大程度上影响着用户对大数据应用的信任度,同样决定了大数据所能发展到的高度。同样由于数据量大,数据泄漏的可能性大幅度增加,传统数据的处理可以采用流处理模型直接在内存中进行存储,而大数据的处理往往要经过数据的集中存储过程,因此数据泄漏的风险加大。大数据时代的发展所面临的一个主要的问题就是数据安全技术的发展。3.3 数据足迹保护

大数据时代,用户在计算机、网络、互联网中的行为会“””以“数据的形式记录下来,因此用户的隐私保护问题01也面临着巨大的挑战。用户在网络中的行为之间具有联系性,在某一时刻的数据泄漏可能并不会威胁到用户的数据安全,但是如果多个时刻的信息泄漏,并且将这些信息

责任编辑:净 草

·12·3


相关内容

  • [幼儿园语言教育专题]课程作业评讲
    <幼儿园语言教育专题>课程作业评讲(1) 责任教师张莉 <幼儿园语言教育专题>作业评讲(1)主要针对<幼儿园语言教育专题>平时作业(1) (教材第一.二章语言功能篇的内容)中的部分简答题和论述题进行评讲. ...
  • 解析暖通空调设计中常用的节能措施
    技术探讨 CONSTRUCTION 第5卷 第11期2015年4月 解析暖通空调设计中常用的节能措施 赵 颖 黑龙江省牡丹江工程建设监理有限责任公司 黑龙江省牡丹江 157466 摘 要:随着暖通空调系统的广泛应用,其节能设计得到了越来越广 ...
  • 对散打运动员防守反击技术研究的文献综述
    摘 要 对散打运动员防守反击技术研究的文献综述进行了归纳与总结. 关键词 散打运动员 防守反击 文献综述 中图分类号:G852 文献标识:A 文章编号:1009-9328(2016)06-040-01 散打是武术的对抗性项目,斗智.斗勇.和 ...
  • 词义类型学研究_张莉
    2013年7月 第33卷第3期 语言研究Jul., 2013Vol. 33No. 3Studies in Language and Linguistics 词义类型学研究 张莉 (华中科技大学外国语学院,武汉430074) 摘要:近年来词义 ...
  • 云南省初中信息技术课程教学内容
    云南省初中信息技术课程教学内容 模块一 信息技术简介 指导意见 (1) 信息与信息社会. (2) 信息技术应用初步. (3) 信息技术发展趋势. (4) 计算机在信息社会中的地位和作用. (5) 计算机的基本结构和软件简介. 教学内容 1. ...
  • 面向服务的战场态势感知与协同技术研究
    第2期2012 年4月 Journal of CAEIT Vol.7No.2Apr.2012 檵檵0 共用态势图(COP )简称态势图,是军事指挥部门了解战场态势的主要手段,是广泛的战场态势感知系统.服务和应用的一个关键部分,是服务于决策制 ...
  • 地理信息系统概论--知识点总结
    地理信息系统概论 第一章 导论 数据与信息的关系: 数据:是通过数字化或记录下来可以可以被鉴别的符号,不仅数字是数据,而且文字.符号.图象也是数据,数据本身没有意义: 信息:是对数据的解释.运用与解算,数据即使是经过处理以后的数据,只有经过 ...
  • 20**年[物流信息技术]形成性作业1-4答案
    <物流信息技术>形成性作业参考答案 第一次作业(第1~3章) 一. 名词解释: 1.软件工程:P20 答:软件工程是指采用工程的概念.原理.技术和方法来开发和维护软件.其核心内容是以工程化的方式组织软件的开发,它借鉴了传统工程的 ...
  • 浅谈多媒体技术及在教育领域中的应用_论文
    浅谈多媒体技术及在教育领域中的应用 随者计算机多媒体技术的突飞猛进,多媒体凭借着自身的优势越来越受到广泛关注和应用,它的出现已经改变了传统意义上的人们的工作与生活方式,对人类社会的的发展产生了巨大的影响. 多媒体技术是当今信息技术领域发展最 ...