Geotoday

今日地质

也说大数据


一、何谓大数据?

针对大数据,目前存在多种不同的理解和定义。

按照NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)发布的研究报告的定义,大数据是用来描述在我们网络的、数字的、遍布传感器的、信息驱动的世界中呈现出的数据泛滥的常用词语。大量数据资源为解决以前不可能解决的问题带来了可能性。

按照Gartner (高德纳公司)的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

根据百度百科词条的定义,大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。数据规模超出传统数据库软件采集、存储、管理和分析等能力的范畴,多种数据源,多种数据种类和格式冲破传统的结构化数据范畴,社会向着数据驱动型的预测、发展和决策方向转变,决策、组织、业务等行为日益基于数据和客观分析做出。

《中国大数据标准化白皮书》认为大数据代表着数据从量到质的变化过程;代表着数据作为一种资源在经济与社会实践中扮演越来越重要的角色,相关的技术、产业、应用、政策等环境会与之互相影响、互为促进。从技术角度来看,这种数据规模质变后带来新的问题,即数据从静态变为动态,从简单的多维度变成巨量维度,而且其种类日益丰富,超出当前技术与工具控制管理的范畴。这些数据的采集、分析、处理、存储、展现都涉及复杂的多模态高维计算过程,涉及异构媒体的统一语义描述、数据模型、大容量存储建设,涉及多维度数据的特征关联与模拟展现。然而,大数据发展的最终目标还是挖掘其应用价值,没有价值或者没有发现其价值的大数据从某种意义上讲是一种冗余和负担。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

二、大数据的特点

目前,业内对于大数据特征的研究主要集中在“3V”、“4V”两种,归纳起来,可以分为规模、变化频度、种类和价值密度等几个维度。研究机构IDC (Internet Data Center)定义了大数据的四大特征——海量的数据规模、快速的数据流转和动态的数据体系、多样的数据类型和巨大的数据价值,将“价值”作为第四个“V”。具体表现在以下几个方面:

1.巨量(volumes)

传统人们使用的数据都以KB、MB、GB和TB为单位来衡量,在现在数据爆炸的时代,TB都已经无法衡量人们所掌握的数据容量,而是用PB、EB、或ZB 作为大数据的计量单位。在互联网时代,数据疯狂增长,有关数据表明,过去3 年人类的信息数据总量比以往4万年的数据量还要多。

2.高速(Velocity)

大数据与传统的数据挖掘技术有着本质的区别,当面临各种信息时,如何把握数据的时效性,从各种数据类型中快速获取高价值的信息,是大数据时代对数据处理提出的基本要求。

3.多样(Variety)

互联网时代,大数据不仅体现在量的增长,而且数据类型变得十分复杂。它不仅包括可以存储在数据库中的结构化数据;也包括非结构化数据,如文本、视频、音频和图片等,而且非结构化数据占据很大的比重。统计显示,全世界结构化数据的增长率大约是32%,而非结构化数据增长率则是63%。非结构化数据往往在大数据中具有更高的价值。

4.高值(Value)

对于海量的数据,人们需要从中提取出有价值的数据为己所用,数据挖掘技术广泛应用于商业,对数据价值进行再挖掘。巨量数据中有价值的数据是极小的一部分,大数据的价值密度很低,然而只要合理的利用数据,并对其进行正确、准确的分析,将会带来很高的价值回报。

三、不同国家的大数据策略

1、美国大数据战略规划

2011年,在总统科技顾问委员会建议下,美国白宫科技和技术政策办公室(OSTP)建立了大数据高级监督组以协调和扩大政府对该重要领域的投资,并牵头编制了《大数据研究与发展计划》,该计划旨在大力提升美国从海量复杂的数据集合中获取知识和洞见的能力。具体实现三个目标:(1)开发能对大量数据进行收集、存储、维护、管理、分析和共享的最先进的核心技术;(2)利用这些技术加快科学和工程学领域探索发现的步伐,加强国家安全,转变现有的教学方式;(3)扩大从事大数据技术开发和应用的人员数量。

2.澳大利亚大数据战略规划

澳大利亚政府信息管理办公室(AGIMO)成立了跨部门工作组——“大数据工作组”,启动了《公共服务大数据战略》制定工作,并于2013年8月正式对外发布。《战略》以六条“大数据原则”为指导,旨在推动公共部门利用大数据分析进行服务改革,制定更好的公共政策,保护公民隐私,使澳大利亚在该领域跻身全球领先水平。这六条大数据原则分别为:数据是一种国家资产,应被用于人民福祉;数据共享和大数据项目开发过程中严保用户隐私;数据完整和过程透明;政府部门间以及政府与产业间应共享技术、资源和能力;与产业和学术界广泛合作;加强政府数据开放。《战略》还决定成立数据分析卓越中心(DACOE),该中心将通过构建一个通用的能力框架帮助政府部门获得数据分析能力,并促成政府与第三方机构合作以培养分析技术专家。《战略》列举了2014年7月前需完成的6项大数据行动计划,分别为:制定信息资产登记簿;跟踪大数据分析的技术发展;制定大数据最佳实践指南;总结明确大数据分析面临的各种障碍;强化大数据分析的相关技术和经验;制定数据分析指南。具体工作将由大数据工作组与数据分析卓越中心共同协作完成。

3.英国大数据战略

2013年10月31日,英国发布《把握数据带来的机遇:英国数据能力战略》。该战略由英国商业、创新与技术部牵头编制。战略旨在促进信息经济条件下,英国在数据挖掘和价值萃取中的世界领先地位,为英国公民、企业、学术机构和公共部门创造更多收益。为实现上述目标,战略从强化数据分析技术、加强国家基础设施建设、推动研究与产业合作、确保数据被安全存取和共享等几个方面做出了部署,并做出11项明确的行动承诺,确保战略目标真正得以落地。

4.欧盟开放数据战略

2010 年11 月,欧盟委员会提出了“欧盟开放数据战略”,旨在将公共部门搜集和产生的原始数据通过再利用成为数以万计ICT 用户依赖的数据材料,同年12 月正式推进这一战略并提出有关开放数据战略的多项法律提案,提案指出:“所有来自于公共部门的文件除非受第三方版权保护外均可用于任何目的(商业或非商业),大部分公共部门的数据都将免费或几乎免费,强制要求提供通用的且机器可读格式的数据,确保数据的有效再利用,数据开放范围将覆盖包括图书馆、博物馆、档案馆等在内的更广泛的组织”。“欧盟开放数据战略”将重点加强在数据处理技术、数据门户网站和科研数据基础设施三方面的投入,旨在欧洲企业与市民能自由获取欧盟公共管理部门的所有信息,建立一个汇集不同成员国以及欧洲机构数据的“泛欧门户”。

5.中国大数据规划

2015年9月5日,《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50 号)正式发布,《纲要》从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计,是指导我国未来大数据发展的纲领性文件。提出了未来5-10年推动大数据发展和应用的目标,主要包括五个方面:第一,打造精准治理、多方协作的社会治理新模式;第二,建立运行平稳、安全高效的经济运行新机制;第三,构建以人为本、惠及全民的民生服务新体系;第四,开启大众创业、万众创新的创新驱动新格局;第五,培育高端智能、新兴繁荣的产业发展新生态。

四、大数据关键技术

1.处理流程

广义来看,大数据处理流程贯穿数据的整个生命周期,即从产生、采集到存储,到管理再到分析,直至最终的呈现与应用。狭义来看,大数据处理流程主要涵盖数据管理、分析、呈现和应用等环节。

在狭义的大数据处理流程中,数据分析是最核心环节,其主要功能是通过建立一定的分析处理模型,对收集起来并经过初步整理的数据进行分析,将其中的有效信息萃取和提炼出来,并发现其中隐含着的新规则、新信息。没有高质量的数据分析,大数据的应用就无从谈起。

数据管理是对数据资源的管理,也就是对已收集的数据进行有效的汇总和组织,特别是对数据间已有内在联系进行充分描述、对无用数据进行初步过滤和清洗,以提高数据的独立性、可靠性、安全性与完整性,减少冗余数据和噪音数据,更好地支持数据分析的进行。

数据呈现(也可称数据展现)是将数据分析的结果直观地显示给用户,使得用户能够更清晰、方便、深入地理解数据分析结果并加以使用。数据应用是基于数据分析过程得到的新规则、新信息进行判断和采取适当行动(如制定合适的商业计划等),以求最大化地发挥数据分析成果的功能和大数据的作用。

2.关键技术

大数据技术涉及计算机、统计、应用数学、经济学等众多学科领域。基于大数据的处理流程,大数据的关键技术既包括数据分析技术等核心技术,也包括数据管理、数据处理、数据呈现等重要技术。

数据分析技术包括数据挖掘、机器学习等人工智能、商业智能技术,涉及关联规则挖掘、集成学习、遗传算法、神经网络、优化、模式识别、预测模型、同归、统计、时间序列分析、关联规则学习、聚类分析等。

数据挖掘技术,是指通过分析每个数据,从大量数据中寻找其规律的技术,是结合数据库管理的统计与机器学习方法从大数据集提取模式的技术。

机器学习技术,是使计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

数据管理技术包括关系型和非关系型数据库技术、数据融合和集成技术、数据抽取技术、数据清洗和数据过滤技术。

数据处理技术包括分布式计算技术、内存计算技术、流处理技术、云计算技术。

数据呈现技术包括可视化技术、历史流展示技术、空间信息流展示技术等。此外,在大数据采集、存储的过程中,还要运用到自然语言理解(自然语言处理)技术(如语音识别、情绪分析等)、大规模分布式存储技术。

大数据技术是一系列技术的集合,目前比较流行和公认的大数据技术还有:存储数据库、NoSQL数据库、分布式计算技术,而其中最炙手可热的新技术就是Hadoop。

存储数据库(In-Memory Databases)是大数据分析中经常会用到的技术,能快速处理大量记录的数据流。例如,利用它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。

NoSQL数据库是一种建立在云平台的新型数据处理模式,又叫做云数据库。其处理数据的完全是分布于各种低成本服务器和存储磁盘,可以帮助网页和各种交互性应用快速处理海量数据。传统的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。但是NoSQL数据库则完全不关心这些,它能处理各种类型的文档。

分布式计算结合了NoSQL与实时分析技术,可以对海量数据进行实时分析。它所使用的硬件非常便宜,因而让这种技术的普及变成可能。通过分布式计算可以对那些看起来没什么关联和组织的数据进行分析,获得很多有价值的结果,比如, 银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为;卫星图片公司通过对卫星图片的分析得出一些实时结果,如某个城市有多少可用停车空间,或者某个港口目前有多少船只,将这些实时结果及时提供给需要的客户。没有这个技术,要想快速且以很低的价格分析这么大量卫星图片数据将是不可能的:分布式计算技术是世界知名公司Google的核心技术,也是Yahoo的基础技术。

Hadoop是目前IT界最流行的大数据分析软件,主要由HDFS、MapReduce和Hbase组成。它是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式系统底层细节的情况下开发分布式程序。简单地说来,Hadoop是一套开源的、基T-Java的、能够让数千台X86服务器组成一个稳定的、强大的集群,对Pb级别的大数据进行存储、计算的软件平台。目前谷歌、雅虎、马逊、Facebook,以及国内的淘宝、百度等都采用了Hadoop技术来处理海量数据。

部分企业凭借深厚的技术积累涉足大数据领域多年,包括IBM、Oracle、EMC、惠普等在内的IT巨头在2012年前后纷纷发布重量级产品和解决方案米应对大数据的挑战。IBM将数据分析作为其大数据战略的核心,Oracle将数据库作为其大数据战略的中心,EMC将云计算作为其大数据战略的平台,争夺大数据领域发展先机的新一轮竞争拉开序幕。

五、大数据面临的挑战

由于大数据具有数据量大,要求处理速度快,数据种类多,价值密度低等特点,使得大数据技术面临严重的挑战,对于大数据的处理和计算面临的许多问题都依然没有得到本质的解决。

1.数据传输问题

互联网时代,人们利用网络传输数据,面对海量数据,以现有的网络传输技术,需要花费大量的时间和带宽。大数据时代的网络无法满足人们数据传输的要求,不但花费大量的时间,而且占用了许多宝贵的网络资源。如何快速有效的传输大量数据仍是难以解决的问题。

2.数据存储问题

大数据发展面临的问题是来自不同地方、标准各异、数据量巨大、结构形式种类多、实时性等多样化要求的数据信息。故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。虽然使用了云服务技术,但是仍然无法满足数据容积的增长速度,人类活动产生的大量数据将面临着需要大量存储空间的严峻问题。

3.数据计算问题

大数据时代产生的海量数据不仅包括可以存储在数据库中的结构化数据,而且还包括占大比例的非结构化数据。要从海量数据中挖掘出有价值的信息,需要一些有效的计算方法,从大量非结构化数据中找出有价值的信息更加复杂,如果没有高效的计算方法,不仅需要消耗大量的时间和计算机资源,而且还无法精确的找到有效的信息。

4.数据分析问题

现在的世界是数据的世界,现在的科学是数据科学。如何利用好各种数据,从海量数据中提取有用的信息,需要数据建模分析技术来解决这些问题。尽管科学家提出了许多行之有效数据分析方法,但是仍然无法达到理想的目标。

5.数据安全与用户隐私保护问题

大数据下,人们面临的威胁不仅包括个人隐私泄漏,更可怕的是基于大数据对用户状态和行为的预测;受攻击或刻意制造的大数据会导致错误的分析结论;大数据层层传播,误差积累也会导致数据失真。中国计算机学会(CCF)大数据专家委员会关于2014年大数据发展趋势预测的报告指出用户隐私会越来越多地融入各种大数据中,大数据更容易成为网络攻击目标,大数据分析技术更容易被黑客利用,大数据引起了更多不易被追踪和防范的犯罪手段。

地质科技信息


主办:江苏省有色金属华东地质勘查局 科技信息处    电子信箱:ecetech@china-ece.com    联系人:刘乃勇    联系电话:(025)84688262

声明:严禁将《地质科技信息》用于任何商业用途或者其他营利性用途。

如用于读者个人学习、研究目的的单篇信息稿件,应注明版权信息和来源。