Geotoday

今日地质

略论地质大数据


地质工作涉及地质、物化探、遥感、钻探等常规工作手段,这些地质工作过程中,经过人、机采集大量的基础数据,通过软件系统的处理形成图件、图表、模型等过程数据,并以专题应用的形式形成专题成果数据,为地质调查、矿产资源储量估算、灾害监测预警、环境评价、地质资料管理等提供决策支持。近年来,我国地质工作改革不断深入,大地质工作格局逐渐形成,信息化与地质工作的结合越来越紧密,随着云计算、大数据等新兴技术的产生,大数据的理念、技术和方法开始在地质领域进行应用与实践,因此地质大数据概念应运而生。将大量的地质数据进行合理的综合应用,从而快速地获取人们需要的地质信息,提供决策,成为地质大数据发展的主要目标。

一、我国地质大数据研究现状

我国地质大数据的研究仍处于起步阶段,政府、高校以及企事业单位在地质大数据的发展过程中扮演者不同的角色,对推动我国地质大数据发展起到非常重要的作用。

1.政府部门出台大数据相关政策

为了落实国务院《促进大数据发展行动纲要》,国土资源部发布了《“国土资源云”建设总体框架》,并将“国土资源云”建设写进国土部“十三五”规划中,中国地质调查局开始制定地质大数据发展应用总体实施方案,并组织召开以“地质大数据发展与展望”为主题的地质信息技术发展论坛。

2.各高校参与地质大数据理论研究

中国地质科学院矿产资源研究所王登红、刘新星、刘丽君等基于“大数据”思维,探讨了成矿规律及成矿系列研究中的一些问题,从“大数据”的特点及其研究现状入手,结合地质矿产研究中的现实问题,阐述了地质大数据的概念及其外延,并综合“大数据”与成矿规律、成矿系列研究相关各地质专业的特点,浅析了矿产资源领域地质大数据的10 个特点,总结了地质大数据在成矿规律、成矿系列、成矿体系研究中的应用情况及注意事项;中国地质大学(北京)于萍萍、陈建平等基于地质大数据理念,提出了模型驱动的矿产资源定量预测评价的新方法,以及模型流程建模技术贯穿整个矿产资源预测评价过程的新思路,以地质理论指导地质大数据分析和计算机技术实现地质大数据挖掘2条主线展开研究,实现了面向地质大数据的数据挖掘与矿产资源的定量预测评价;湖南科技大学李朝奎、严雯英等对地质大数据分析与应用模式进行了研究,并就地质大数据应用关键技术(存储管理技术、数据挖掘技术、地质大数据可视化技术)进行了剖析。

3.企事业单位研发大数据平台

中国地质调查局发展研究中心推出地学大数据技术研究实验平台GeoBDA、用以解决地质大数据的存储和管理等问题;江苏省有色金属华东地质勘查局地质信息中心建设“地勘行业数据管理云平台”,基于大数据和“云计算”搭建“地勘云”,合理管理、分配、优化云端软硬件资源,集成数据仓库和软构件库,开展地勘行业数据管理云平台系统建设,开展地质工作流设计、地勘数据标准化设计、地质业务在线应用等关键技术研究;超图软件设立大数据子公司,开展地理信息大数据研究,基于自主研发的“云GIS”技术构建了地理信息云服务平台,推出“由买到租”地理信息服务以及托管的运营服务。

二、地质大数据的特点

1.地质大数据的大量性

地质数据也是一个数据集合,包括地质、矿产、遥感、物探、化探等各个专业,而且还是相互关联,融会贯通的。仅就矿产地的数量来说,目前全国至少有7万处,在一些官方文件和科普读物中指出“已发现矿床、矿点20余万个”(陈毓川等,1999)。这20万处矿产地的信息是海量的,一般的笔记本电脑和台式机也难以“在可承受的时间范围内”进行日常处理。目前,一张Excel表格也无法容纳7万处矿产地的全部信息,更何况20万处。要对这20万处矿产地进行分类、排序就难以方便地完成,因此也需要借助于“大数据”的理念和技术。

目前,中国地质调查局系统已建成的数据库包括区域地质数据库(涵盖全国1:250万、1:100万、1:50万、1:25万、1:20万区域地质图、全国1:20万自然重砂、全国同位素地质测年、全国岩石地层单位等数据库)、基础地质数据库(涵盖全国岩石物性、全国地质工作程度等数据库)、矿产资源数据库(涵盖全国矿产地、全国矿产资源利用调查矿区资源储量核查成果、全国大中型矿山、矿产资源远景调查、全国主要固体矿产大中型矿山资源潜力调查、全球地质矿产等数据库)、油气能源数据库(涵盖全国含油气盆地、全国油气资源地质调查成果、全国油气地球物理勘探、全国页岩气、全国煤层气、全国天然气水合物等数据库)、地球物理数据库(涵盖全国1:100万、1:50万、1:25万、1:20万、1:5万重力、全国区域重力、全国航磁、全国地面磁力、全国电勘查、地震勘查、全国航空放射性、全国测井等数据库)、地球化学数据库(涵盖全国1:25万、1:20万化探、全国多目标地球化学、全国土地质量评价成果等数据库)、遥感调查数据库(全国航空遥感影像、中国资源卫星资料、航天遥感影像、全国矿山环境遥感监测、全国高分卫星等数据库)、钻探数据库(涵盖全国地质钻孔信息、全国重要地质钻孔、中国大陆科学钻探钻岩芯扫描图像库等)、水工环灾害数据库、资料文献数据库、专题专项数据库(涵盖全国矿产资源潜力评价数据库、重要矿产“三率”调查与评价数据库等)、工作管理方面的数据库(涵盖全国探矿权、采矿权、矿业权核查、地质信息元数据库等)。这么多的数据库,一方面还在不断扩充完善,另一方面其本身的实用价值尚未充分体现。然而,绝大多数的成矿规律研究人员实际上不可能拥有上述全部数据,至多也是各自采用自己积累的资料而已。但无论如何,即便是各自积累的资料,无论是数量上还是类型上,也是10年前、20年前所不可比拟的,因此也可以说进入了“相对大数据”时代。比如,1999~2004年间,“中国成矿体系与区域成矿评价”项目,全国虽然有202位矿床学界的专家共同参加,但只掌握4500处矿产地的资料(全部矿种);而2006~2013年间开展的“全国重要矿产和区域成矿规律研究”,仅仅由矿产资源研究所承担的16个矿种(组)所涉及到的矿产地就达30600处。因此,十年间信息增加之快、数据量增加之大是前所未有的。

2.地质大数据的高速性

地质数据的产生也是非常快的,具有显著的高速性。尤其是遥感地质、航空物探、区域化探等领域甚至连宝玉石矿产资源这样的“小专业”,由于其更多地引进了新技术新方法,其数据都是成倍、甚至呈几何级数地增长。同时,处理速度快,更是“大数据”的时代特点。人们不但需要对数据进行近实时的分析,而且需要以音频、视频、三维图像等迥然不同于传统方式的数据处理技术来表达数据挖掘和加工的结果,没有强大的、快速的处理功能是难以实现的。比如,对地球深部信息的探测,不只是获取地震波反射、折射方面的参数,更需要快速地处理,以便于及时地预测地震是否发生、预报发震的时间、地点、强度等(程陈等,2013)。这样才能有效避灾,否则就是马后炮了。

3.地质大数据的多样性

随着计算机技术的普及,地质大数据从地球物理等传统的需要“大存储”的“大专业”扩展到了同位素年代学这样的“小专业”。从原始信号到原始数据再到图像、声音等,几乎无所不包;而且不同类型之间的数据可以互联互通、互通有无;从数据变到图像,再从图像变到数据。专业之间的壁垒也逐渐被打通。比如,成矿系列的研究,以往仅仅是靠专家的脑力劳动来判断矿床与矿床之间是否存在内在联系,矿床与物探异常、与遥感信息之间存在什么样的内在联系,是难以说清楚的,因为很少有人既懂得矿床学又精通遥感、物探等专业。“大数据”时代,则可以通过大数据、全数据的采集,在非专业人士主持的情况下也可以分析其间是否存在相互联系——即统计规律;再根据统计规律由专业人士来总结因果联系,即成因规律。不同数据类型之间,也可以分别处理,图像专家处理图像资料,矿床专家分析矿床成因,勘查学家总结勘查经验,殊途同归,共同归纳出成矿规律和勘查规律。

4.地质大数据的价值性

对于“大数据”价值性的理解,研究者们还存在歧义,有的只强调“价值密度低”(海量数据中真正有用的信息少之又少);有的则强调“商业价值高”(不用多大投入,仅仅从网络搜集资料就可以带来“商业价值”)。但一般认为,“价值”指的是“通过分析数据可以得出如何抓住机遇及收获价值”,即“价值密度低,商业价值高”,地质大数据同样如此。迄今为止,对于大量的物化探异常信息,真正验证了的并不多,找到矿的则更少,但一旦取得找矿突破,其社会经济价值就非常巨大,如西藏的甲玛铜多金属矿床(唐菊兴等,2011)和四川甲基卡外围新发现的锂多金属矿床(王登红等,2013)

5.地质大数据的物质性与非物质性

物质性强调的是地质数据的客观存在性,即具有不以人的意志为转移的物质第一性;而非物质性指的是地质数据又具有被加工处理的可能性。传统的地质学及矿床学都十分强调调查/研究对象的物质第一性。“第一手”、“客观真实”、“全面”也是地质工作者获取地质数据的基本职业操守。但是,在当今世界“信息爆炸”的时代,谁也不能保证所有的信息都是真实可信的。那么,除了读者(受众)自身的专业素养即判断力之外,利用各种各样的技术来处理数据,去伪存真,去粗取精,成为当今数据技术领域之主导。维克托·迈尔·舍恩伯格等人在其《大数据时代》一书中也试图将技术与信息、数字化和数据化区分开,“如今的信息技术变革的重点在‘T’上,而不是在‘I’上。现在,是时候把聚光灯打在‘I’上,关注信息本身了”(卞友江,2013)。可见,尽管信息技术指的是处理信息的技术(IT),但信息的物质第一性不应该被忽视,信息本身的内蕴有待于深入挖掘。比如,处理化探异常的技术方法很多,无论是克里格法还是其他方法,都可以得出众多的等值线图。但这些异常及其原始数据本身究竟是代表了成矿还是不成矿,却并非一目了然。因为,成矿元素的分散同样可以形成异常,而元素的分散恰恰是成矿物质聚集的反过程。因此,究竟是处理信息的技术重要还是信息本身更重要,同样是地质大数据所面临的现实问题。显然,在“大数据”时代,二者不可偏废。没有数据,技术发挥不了作用;没有技术,数据也只能是一堆令人眼花缭乱的数字,难以上升为规律,难以指导人们该采取什么样的实际行动。

6.地质大数据的空间性与非空间性

空间性指的是地质数据的空间属性。地质学与数学、化学和物理学不同,与天文学、动物学、植物学则有共同之处,即地质学所研究的对象、所采集的数据往往具有空间属性。不同地区的动物资源、植物资源是不同的,矿产资源也是如此,即空间性。前文中所提到的中国地质调查局建立的一系列数据库,体现的是中国地质数据的空间属性。国外不同国家有不同的地学数据库,中国各个省(甚至更小的行政区)也都在建设数据库(商培林,2015)。众所周知,GIS(地理信息系统)在地球科学领域的发展非常快,其使用范围超出了“地质锤、罗盘、放大镜”的老三件。老三件以采集数据为目的,GIS则是管理数据的高手。可以说,任何一个地质数据都具有空间属性,其价值也就体现在矿产资源分布的空间规律上,因此,在厘定成矿系列、总结成矿规律的过程中,必然要考虑其空间性——即成矿区域特点。毫无疑问,每一个成矿系列都具有空间属性。同时,空间性又具有局限性,在深入研究成矿规律的过程中又要跳出空间的局限性,查明成因,即成矿过程的本质属性,才能更好地指导找矿。比如,长江中下游的矽卡岩型铁铜矿与太行山的矽卡岩型铁铜矿,在空间上并无关联,但在本质上都是矽卡岩型,都跟中酸性侵入岩与碳酸盐岩地层的接触交代成矿作用密不可分,此即非空间性。因此,长江中下游地区的各种各样的数据,在应用到太行山时,就要注意到哪些是具有空间局限性的,哪些是空间无关的,这样才能更好地总结成矿规律并指导找矿。

7.地质大数据的时间性与非时间性

地质数据具有时间属性,这也是与物理、化学等自然科学不同的。地质学的基础支柱之一就是地质年代表,不同地质时代的岩石、地层、矿床具有不同的分布特征和规律; 因而每一个数据也都具有时代属性。即便是第四系的土壤样品,在采矿之间与采矿之后、开垦之前与开垦之后也是变化的。同样是矽卡岩型铜矿,长江中下游和冈底斯2个成矿带不一样,不只是空间上的差别,而且存在时间上的差别。南岭地区,燕山期的花岗岩与加里东期的花岗岩,都是花岗岩,但在成矿强度、成矿能力、成矿类型等方面明显不同,燕山期是全球知名的重要成矿期而加里东期则不是。这便是“时间性”。当然,不同地质时代的地质样品,又具有共性,比如30 亿年以前的石灰岩和3亿年、0.3亿年前的石灰岩在地球化学成分和物性参数等方面是有共性的,即“非时间性”。此外,与其他学科一样,大数据的“时间”特色并不局限数据本身的时间属性,还在于获取数据、处理数据的时间效应。比如,现今获取数据比以往更加快捷、高效、等时、无等级差别等。而对于同一个矿床,或者同一个远景区,中国人可以对它进行研究,外国人也可以同时对它进行研究,不一定是近水楼台先得月,即先拿到第一手资料者先出成果。

8.地质大数据的因果性与非因果性

传统地质科学的研究,总是想搞清楚“为什么”。比如,板块为什么漂移?恐龙是怎么灭绝的?金刚石为什么来自于地幔?但实际上,无论是板块漂移、恐龙灭绝还是金刚石的成因,都尚未取得共识。而且,这些问题从提出之日起,研究成果很多,但似乎并没有突破当初的假说。这是因为,人们始终在各自的研究领域追求着信息的权威性、数据的精确性和证据链的完整性。这种传统的逻辑因果关系的推理方式,正在被“大数据”打破,即“抽样调查”始终无法代替“整体数据”。反之,大数据因为更强调数据的完整性和混乱性,可以帮助我们进一步接近事实真相(卞友江,2013)。也就是说,大数据在不反对“精细” 求证的同时,更强调数据的“全部”,哪怕“整体数据”是杂乱无章的,而杂乱无章可能正是事物的本来面目。换句话说,恐龙灭绝的说法多种多样,“成因复杂”,大家争论不休,而恐龙灭绝事实上可能就是由多种多样的原因造成的。板块是怎么碰撞的? 假说很多,但谁也不可能用实验来验证(泥巴实验实际上连“抽样调查”都无法比拟),或者可以用肉眼来验证(眼见为实,谁也不可能潜入地幔观察金刚石的形成过程)。因此,大数据时代,人们获取信息,完全可以不需要等待查明原因之后。这对于成矿规律和成矿预测的研究也是深有启发的,即,对于某一个具体矿床的成因争论可能永无止歇,不论是相对简单的“沉积矿产”还是十分复杂的“内生矿产”,都会产生不同看法;但不能阻碍找矿工作,找矿是不必等到查明矿床的成因之后的。当然,掌握规律的找矿才是科学找矿,否则是“碰运气”。

9.地质大数据的主体性与非主体性

主体性指的是采集数据、加工数据、发表数据的主体(人以及由人设计的计算机软件等数据技术、标准等)对于如何采集数据、如何处理数据、发表哪些数据等具有“先入为主”的特殊性。由于“大数据”给人类的思维带来了变革,即人们由对事物之间因果关系的穷追不舍转向对事物之间相关关系的宏观考察,人类的主观能动性可得到进一步的发挥,数据采集者及读者的主体地位也可以得到进一步的确认。针对同一批数据,仁者见仁,智者见智,甚至“见异思迁”的事例也将层出不穷。比如,当我们看到同一幅地质图时,大地构造学家想到的是“板块碰撞”;勘查地质学家想到的是哪里有矿;地图学家想到的是如何改进“大数据”制图技术(每一幅地质图都是一个“大数据”的产物,既有数据本身,也有相关关系,如断层就是2个地质体之间的接触关系);环境保护主义者想到的则可能是哪里还有“世外桃源”;而该图幅的原始制作者野外地质队员想到的可能是当年野外填图的种种逸闻趣事。同样道理,对于成矿规律的研究,即便是面对同一批数据,不同的专家可能得出完全不同的结论。同一个矿床,甲专家可能把它归属于A 成矿系列,乙专家可能把它归属于B成矿系列。数据量越大、数据来源渠道越多,主观性可能越显著。正如Bill(2013)所说,“成功分析的关键不是工具和技术本身,使用这些工具和技术的人,才是取得成功的核心要素”。所以,要真正挖掘地质大数据的价值,还需要地学界人士的积极参与,对数据不断地进行交换、整合和解析,才能发现新的地学知识,才能创造新的地学价值。比如,地球化学数据在土地管理方面的深度融和,有助于“精耕细作”,无疑将推进农业现代化;但地质学家并不十分清楚农作物的生长规律及其对化学元素的选择性,只有地学与农学的共同结合,才能更好、更快地发挥“大数据”的优势。

10.地质大数据的客体性与非客体性

客体性(相当于受众性)指的是原先被动地接受数据及其研究成果(或者说信息,包括数据、图片)的任何一个人,可以“反客为主”地成为主导者,即被动接受数据的个体(人/计算机等)对于数据可以采取不同的主动的反映,反过来成为成矿规律、成矿系列乃至于成矿预测研究的发动者。

当某人想知道一个自然生长的海蓝宝石的晶体究竟是什么样时,利用“大数据”技术,他马上可以搜集到各种各样的海蓝宝石的图片、数据及文字说明。如果要想投资开发一种“富锂矿泉水资源”新品种,也首先要利用“大数据”查一查有没有这种资源,然后在“去哪里开发、如何开发”等关键问题上做出选择。即,只要你想得到,不怕做不到,而这“一大堆资料”并非哪位科学家事先已经给你准备好了的。那么,谁想得到呢? 显然,并非每一个人都能想得到。因此,“大数据”既是个人的,又是非个人的。显然,专业人士可能对数据更敏感,其掌握数据、分析数据的能力更强,收益也往往更大。

地质科技信息


主办:江苏省有色金属华东地质勘查局 科技信息处    电子信箱:ecetech@china-ece.com    联系人:刘乃勇    联系电话:(025)84688262

声明:严禁将《地质科技信息》用于任何商业用途或者其他营利性用途。

如用于读者个人学习、研究目的的单篇信息稿件,应注明版权信息和来源。