标题 摘要 内容
    详情

    大数据技术前瞻


    梅宏1,杜小勇2,金海3,程学旗4,5,柴云鹏2,石宣化3,靳小龙4,5,王亚沙1,刘驰6

    1. 高可信软件技术教育部重点实验室(北京大学);

    2. 中国人民大学信息学院;

    3. 华中科技大学计算机科学与技术学院;

    4. 中国科学院计算技术研究所;

    5. 中国科学院大学计算机科学与技术学院;

    6. 北京理工大学计算机学院


    摘要世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略,发展大数据技术具有重要意义。大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。


    关键词大数据技术;大数据管理;大数据处理;大数据分析;大数据治理

    论文引用格式

    梅宏, 杜小勇, 金海, 等. 大数据技术前瞻[J]. 大数据, 2023, 9(1): 1-20.

    MEI H, DU X Y, JIN H, et al. Big data technologies forward-looking[J]. Big Data Research, 2023, 9(1): 1-20.

    0 引言

    世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略。2015年8月,国务院印发了《促进大数据发展行动纲要》(国发〔2015〕50号),明确提出"数据已成为国家基础性战略资源"。2016年3月,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》正式提出“实施国家大数据战略"。2017年10月,党的十九大报告中提出加快推进大数据与实体经济深度融合发展。2017年12月8日,在中共中央政治局第二次集体学习时,习近平总书记发表讲话,做出了“大数据是信息化发展的新阶段”这一重要论断,要求“审时度势精心谋划超前布局力争主动,实施国家大数据战略,加快建设数字中国"。党的二十大报告指出数字技术与实体经济深度融合具有重大意义。

    大数据技术链条长,从采集、传输到管理、处理、分析、应用,形成一个完整的数据生命周期,同时在多个阶段涉及数据治理。由于数据采集用到的传感器技术和数据传输依赖的通信技术分别属于基础器件和通信学科领域,本文不涉及这两类技术。同时,大数据应用面比较广,应用发展状态不是技术问题,故本文也不涉及。另外,虽然大数据的发展已经经历了10多个年头,在一些应用领域(特别是互联网领域)取得了较好的成效,但是总体而言,大数据基础理论和核心技术仍不成熟,大数据治理体系远未建立,大数据发展仍然处于初级阶段。因此,为了更好地发展大数据技术,本文聚焦数据生命周期中大数据管理、处理、分析和治理4类技术,梳理国内外技术发展现状,特别是亟须清楚研判我国大数据技术发展与国际先进技术之间的差距。此外,信息技术发展的主流一直是以计算为中心的,数据仅作为输入和输出围绕着计算任务组织,信息系统设计和优化的核心目标是计算效能的提升。随着数据体量的快速增长,以计算为中心的技术体系开始显现出弊端,算力增长难以跟上数据规模的增长,形成“剪刀差”。近年来,一种以数据为中心的新技术体系日益受到关注,有望成为缩小"剪刀差"的突破点。一些具有潜力的创新技术已经出现了,包括:在算法理论体系上,从由多项式精确算法主导演变为由亚线性概率近似算法主导;在大数据方法体系上,从经验沉淀驱动演变为数据模型驱动,从单纯依赖机器发展到“人在回路”的协作计算模式;在大数据系统结构上,通过以数据为中心的泛在操作系统,围绕着数据间的互操作,高效组织广域计算资源等。因此,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心"转型。在新的计算技术体系下,一些基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向,同时面临以下四大挑战。

    挑战一:如何构建以数据为中心的计算体系全球大数据规模增长快速。2020年全球新增数据规模为64 ZB,是2016年的400%,预计2035年新增数据将高达2 140 ZB,数据量呈现指数级增长。随着数字经济的发展和数字化转型的深入,愈来愈多的数据资源正以数据要素的形态独立存在,并参与数字经济活动的全过程。因此需要构建以数据为中心的新型计算体系,以适应新的应用环境。如何组织和管理超大规模的数据要素已经成为一项难题,如大数据管理面临着数据跨域访问带来的各种问题、系统规模持续增大带来的可用性下降、维护大规模数据带来的成本和能耗持续增高等严峻挑战。

    挑战二:如何满足大数据高效处理的需求数据规模呈指数级增长,数据动态倾斜、稀疏关联、应用复杂,传统大数据处理架构处理成本高、时效性差,如何满足规模海量、格式复杂、需求多变的大数据高效处理需求是大数据处理面临的重要挑战。

    挑战三:如何实现多源异构大数据的可解释性分析随着数据量持续地爆炸式增长和各类应用的不断拓展与深化,基于深度学习的主流方法因其仅关注单源单模态数据且模型只知其然不知其所以然的特性,已无法满足发展需求。如何打破数据多源异构造成的隔阂,融合多域甚至全域数据中蕴含的知识,实现分析结果的可解释,从而提升其可用性,是当前大数据分析面临的主要挑战。

    挑战四:如何形成系统化大数据治理框架与关键技术针对大数据应用过程中的对数据汇聚融合、质量保障、开放流通、标准化和生态系统建设的需求,大数据治理技术逐渐成为发展热点。然而当前系统化的大数据治理框架尚未形成,开放共享、质量评估、价值预测等关键技术远未成熟,这成为制约大数据发展的主要瓶颈。

    本文在计算体系重构的背景下,对大数据管理、处理、分析和治理4个方面的主要技术挑战、国内外研究现状与差距做出研判,并提出大数据技术发展的十大趋势。


    1 大数据管理技术

    1.1 主要技术挑战

    大数据管理是大数据生命周期中的重要环节。大数据管理技术主要包括大数据的组织、存储、计算与访问等相关技术。尽管数据管理技术与系统已经经历了近60年的发展,但由于大数据具有超大规模、高速增长、类型多样、高复杂性等特点,大数据管理仍然面临诸多严峻挑战,特别表现在以下3个方面。

    (1)高性能挑战

    一直以来,追求数据访问的高性能是数据库系统的核心问题。随着摩尔定律接近终结,传统硬件性能提升乏力。在数据规模高速增长的情况下,大数据管理遇到的高性能挑战更加突出,迫切需要寻找性能提升的新驱动力,尤其是要充分利用近年来发展迅速的各种新硬件和人工智能技术,最大限度发挥异构架构带来的机会。

    (2)可用性挑战

    数据管理系统是大数据产业的核心基础设施,因此其可用性至关重要。大数据规模呈现指数级高速增长,大数据业务环境也非常复杂,大数据管理系统往往规模极大且具有很高的复杂度,因此各类错误发生的概率显著提升,可能导致服务中断、无法保证正确性,甚至可能存在恶意节点引发虚假消息或数据篡改等严重问题。这给大数据管理系统的可用性带来更大的挑战。

    (3)能效挑战

    目前维护和管理超大规模数据的能耗占比已经很高。现有技术往往以性能提升为导向,能效不高,因此面向快速增长的大数据,迫切需要发展和应用高能效大数据管理技术。

    1.2 国内外研究现状与差距比较

    新一代大数据管理技术的创新发展主要围绕高性能、高可用、高能效3个方面展开。

    在高性能大数据管理领域,新的性能提升动力主要包括新硬件和人工智能驱动两个途径。在新硬件方面,美国在内存数据库并发控制、非易失存储器(nonvolatile memory,NVM)数据管理、GPU数据库、异构计算数据库等方面的技术和产品均处于领先地位,德国的SAPHANA是高性能数据库的代表之一。我国在NVM、远程直接内存访问(remote direct memory access,RDMA)、超文本标记语言(hyper text mark-up language,HTM)等新硬件数据管理技术方面也提出一系列先进的创新成果,如上海交通大学的RMDA和HTM结合方案,以及中国科学院计算技术研究所的NVM日志与恢复方法等。在人工智能驱动的高性能大数据管理方面,美国率先提出学习索引、Self-Design等技术,微软、甲骨文、亚马逊等企业已在数据库产品中使用智能驱动技术。我国在学习索引、自动调优、智能查询优化、智能数据分区等领域的创新也非常活跃,如阿里巴巴、华为、腾讯等企业的数据库产品加入了数据自动调优、自动运维等自治技术,清华大学等高校提出一系列AI4DB创新技术。