欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |ICS
CCS
35.020 L 72
31
上 海 市 地 方 标 准
DB 31/T 1240—2026
代替DB31/T 1240.1—2020、DB31/T 1240.2—2020
大数据资源平台共享交换要求
Requirements for the sharing and exchange of the big data resource
platform
2026 - 02 - 14 发布 2026 - 06 - 01 实施
上海市市场监督管理局 发 布
DB 31/T 1240—2026
DB 31/T 1240—2026
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件代替DB31/T 1240.1—2020《公共数据共享交换工作规范 第1部分:平台建设和运行管理要求》、DB31/T 1240.2—2020《公共数据共享交换工作规范 第2部分:平台接入技术要求》, 与DB31/T 1240.1—2020、DB31/T 1240.2—2020相比,主要技术变化如下:
——调整了大数据资源平台共享交换架构(见5.1,DB31/T 1240.1—2020的第4章);
——调整了大数据资源平台共享交换方式(见5.2,DB31/T 1240.2—2020的第4章);
——调整了数据归集要求(见第6章,DB31/T 1240.2—2020的第5章);
——增加了平台级联要求(见第7章);
——调整了大数据资源平台数据共享要求(见第 8 章,DB31/T 1240.1—2020 的第 5.4 章);
——增加了安全保障要求(见第 9 章);
——删除了职责分工要求(见DB31/T 1240.1—2020的第6章)。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由上海市数据局提出并组织实施。
本文件由上海市数据标准化技术委员会归口。
本文件起草单位:上海市大数据中心、云赛智联股份有限公司、上海数据集团有限公司、上海计算机软件技术开发中心、国家管网集团储能技术有限公司。
本文件主要起草人:张向飞、潘佳、刘辰昀、陈旭、陈正伟、章建兵、陈磊、丁阳、范倍铭、何怡、连娅、汪瑜、朱启、葛倩倩、朱雪雅。
本文件及其所代替文件的历次版本发布情况为:
——2020 年首次发布为 DB31/T 1240.1—2020、DB31/T 1240.2—2020;
——本次为第一次修订。
大数据资源平台共享交换要求
1 范围
本文件规定了大数据资源平台的共享交换体系、数据归集、数据共享、平台级联及安全保障要求。
本文件适用于上海市公共管理和服务机构依托大数据资源平台开展公共数据共享交换。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 21062 政务信息资源交换体系
GB/T 22239—2019 信息安全技术 网络安全等级保护基本要求
GB/T 36344 信息技术 数据质量评价指标
GB/T 39477—2020 信息安全技术 政务信息共享 数据安全技术要求
GB/T 43697 数据安全技术 数据分类分级规则
DB31/T 1241—2026 公共数据“三清单”管理规范
DB31/T 310029 长三角数据共享交换平台 数据接入规范
3 术语和定义
3.1
3.2
下列术语和定义适用于本文件。
大数据资源平台 big data resource platform
依托电子政务云构建,承载公共数据归集、整合、共享、开放、运营功能的统一基础设施。
数据湖 data lake
大数据资源平台中用于集中存储,管理跨层级、跨地域、跨系统、跨部门、跨业务公共数据的
一种可扩展的数据存储架构。
3.3
目录链 catalog chain
大数据资源平台中利用区块链技术,对公共数据目录的生成、更新、校验、溯源等进行分布式统一管理的系统。
4 缩略语
下列缩略语适用于本文件。
FTP:文件传输协议(File Transfer Protocol)
HTTPS:超文本传输安全协议(Hypertext Transfer Protocol Secure)
SFTP:SSH 文件传输协议(Secure Shell File Transfer Protocol)
5 共享交换体系
5.1 共享交换架构
5.1.1 市大数据资源平台应依托市级数据湖开展数据归集和数据治理分析,并进行统一运营管理和统一安全监控。
5.1.2 市大数据资源平台应通过前置交换、平台级联等方式提供数据共享交换服务。
5.1.3 市级公共管理和服务机构应通过目录链, 以库表、文件、服务接口、消息队列等交换方式,实现国家、市级、区级数据共享交换。
5.1.4 区大数据资源分平台应对接街镇、区级公共管理和服务机构业务系统,并以市区级联方式实现与市大数据资源平台间的双向数据访问。
5.1.5 市大数据资源平台应通过平台级联方式与国家数据共享交换平台、长三角数据共享交换平台对接,实现跨层级、跨地域、跨系统、跨部门、跨业务的数据互通。
5.1.6 大数据资源平台共享交换架构见图 1。
图 1 大数据资源平台数据共享交换架构
5.2 共享交换方式
大数据资源平台共享交换方式应包括下列内容:
a) 库表交换:依托前置库实现不同数据库,或同一数据库内不同表之间的数据、表结构或元数据的转移与同步,适用于数据量较大且需要下载的公共数据共享场景;
b) 文件交换:依托前置库在不同设备、系统或用户之间传输、共享或同步文件数据,适用于实时性要求较低,但数据量大的非结构或半结构化数据;
c) 服务接口交换:通过定制化开发接口的方式提供数据共享服务,适用于业务协同、信息核验等实时性要求高的数据应用场景;
d) 消息队列交换: 以消息队列为载体,开展数据同步,实现消息流在数据提供方和数据使用方之间传递的共享交换方式,适用于高频次、低延迟的实时数据共享交换场景。
6 数据归集
6.1 基本要求
6.1.1 归集方式
大数据资源平台应支持下列归集方式:
a) 定时归集:按照固定的周期性间隔,通过对归集任务自动化调度进行数据归集,可采用每分钟、每小时、每天、每月、每年等归集策略;
b) 不定时归集:一次性或者临时性归集,常用于初始数据采集,临时数据更新和异常数据修补;
c) 实时归集:数据产生、传输、处理和存储过程中,实时将分散在不同来源的数据快速收集、整合。
6.1.2 数据更新
大数据资源平台应支持下列两种更新方式:
a) 全量更新:数据归集时获取全量数据,数据传输量较大,适用于初始化同步,定期全量备份校验或者数据特性不适合进行增量同步等情况;
b) 增量更新:数据归集时通过日志解析或时间戳等方式每次仅获取一段时间内的增量数据,数据传输量相对较小,效率更高,但具备较高技术复杂度。
6.1.3 异议处置
数据归集过程中,如大数据资源平台检测到或数据使用方反馈异议数据,平台应与数据提供方进行核实处置。
6.2 库表归集
6.2.1 归集步骤
库表数据归集应按下列步骤进行:
a) 数据提供方按照 GB/T 36344 相关要求和数据产生的业务规则,对数据的规范性、完整性、准确性、一致性、时效性、可访问性等进行质量检查;
b) 数据提供方通过目录链管理系统,对所需归集的数据进行编目,并发起数据归集任务;
c) 数据提供方按照业务需求推送数据到前置库;
d) 使用对账表形式进行前置库对账,对账信息包括库名、表名、库类型、对账结果、数据量、交换时间等;
e) 大数据资源平台通过平台归集节点从前置库抽取数据,并写入市级数据湖;
f) 数据提供方按数据更新周期持续推送增量数据,大数据资源平台根据规定的数据归集时间进行抽取。如当期无增量数据产生,数据提供方在对应周期的对账表中填报“0”,并同步至大数据资源平台。
6.2.2 技术要求
前置库在初始化和增量归集库表过程中应符合下列要求:
a) 初始化时,添加数据库归集时间戳字段,字段类型为 TimeStamp(精确到秒),命名为: jhpt_update_time;
b) 初始化时,添加数据库删除标识字段,字段类型为 Int(1),命名为 jhpt_delete;
c) 初始化时,库表命名及字段命名长度控制在 128 位以内,浮点数字段类型长度控制在 38位以内;
d) 初始化时,为库表添加主键字段;
e) 增量归集过程中,数据提供方将本次推入的数据量同步至对账表,并填写相关字段信息,包括表名、统计开始时间、统计结束时间、统计时间范围内数据总条数等;
f) 当数据结构发生变更时,数据提供方对原有的数据资源申请下线,并将变更后的数据资源重新申请发布,经审批通过后,再重新发起归集任务。
6.3 文件归集
6.3.1 归集步骤
6.3.1.1 按照 6.2.1 中的 a)、b)、c)进行文件数据质量检查、编目及数据推送。
6.3.1.2 大数据资源平台对归集的文件一致性进行对账确认。
6.3.1.3 大数据资源平台通过平台归集节点抽取文件,对具有固定结构的文件解析、写入市级数据湖。
6.3.1.4 按照 6.2.1 中的 f)进行增量数据推送。
6.3.2 技术要求
6.3.2.1 前置库在初始化和增量归集结构化文件过程中应符合下列要求:
a) 初始化时,添加数据库归集时间戳字段,字段类型为 TimeStamp(精确到秒),命名为: jhpt_update_time;
b) 初始化时,添加数据库文件路径字段,字段类型为 varchar(200),命名为jhpt_file_path;
c) 文本文件内容编码采用 UTF-8(8 位元,Universal Character Set/Unicode Transformation Format)编码;
d) 文件内容的字段顺序与编目字段顺序保持一致;
e) txt 文件分隔符为‘\u0001’隐藏字符;
f) csv 文件为‘,’分隔,字段数据中不出现英文逗号、回车换行符等文本内容;
g) excel 文件首行为表头,不支持多工作表(sheet)采集;
h) 数据提供方在前置库的数据文件目录中,上传与数据文件同名的对账文件。
6.3.2.2 前置库在初始化和增量归集非结构化文件过程中应符合下列要求:
a) 初始化时,添加数据库归集时间戳字段,字段类型为 TimeStamp(精确到秒),命名为: jhpt_update_time;
b) 初始化时,添加数据库文件路径字段,字段类型为 varchar(200),命名为jhpt_file_path;
c) 前置库中具备主键字段,且 jhpt_file_path 字段的内容为 FTP/SFTP 的根路径,附件字段与 FTP/SFTP 服务器上的文件对应,不为空, 以‘/’开头;
d) 前置库数据采用 UTF-8 编码;
e) 非结构化数据文件名中不出现“,”“&”“*”“/”等特殊字符。
6.4 服务接口归集
6.4.1 归集步骤
6.4.1.1 按照6.2.1中的a)、b)进行数据质量检查及编目。
6.4.1.2 大数据资源平台根据需求进行接口的定制化开发,通过接口的方式进行数据传输,存入市级数据湖,并进行一致性对账确认。
6.4.1.3 按照6.2.1中的f)进行增量数据推送。
6.4.2 技术要求
服务接口应符合下列要求:
a) 接口协议:服务接口的通信协议使用 HTTPS 协议;
b) 接口方法:每个服务接口只含一个接口方法 ,数据提供方在注册服务接口时标明服务接口的返回格式;
c) 接口参数:服务接口的传入参数在报文消息体中进行传递,不在报文消息头传递;
d) 接口文档:服务接口接入大数据资源平台时 ,数据提供方提供服务接口使用说明文档 。
6.5 消息队列归集
6.5.1 归集步骤
6.5.1.1 按照6.2.1中的a)、b)进行数据质量检查及编目。
6.5.1.2 数据提供方发起数据归集任务,获得消息主题(topic),并调用数据推送接口推送数据。
6.5.1.3 大数据资源平台转发数据推送至消息主题(topic),写入市级数据湖,并进行一致性对账确认。
6.5.1.4 按照6.2.1中的f)进行增量数据推送。
6.5.2 技术要求
消息队列归集应符合下列要求:
a) 接口请求仅需传入一个消息主题(topic)名称,一个消息主题(topic)对应一个数据目录,数据提供方推送的数据会持续写入对应的消息主题(topic),并同步写入市级数据湖;
b) 接口请求参数 datas 类型是列表,可传入多条数据,支持批量推送;
c) 接口请求参数 datas 项中,若字段为时间戳类型,传入以微秒为单位的 16 位时间戳;
d) 接口请求参数 datas 项中,各字段的 key 与消息主题(topic)中字段一致。
7 数据共享
7.1 大数据资源平台以库表交换、文件交换、服务接口交换、消息队列交换等方式提供数据共享服务,数据共享应按照本文件5.2、第6章规定执行。
7.2 大数据资源平台应基于公共数据“三清单”,按照DB31/T 1241—2026中4.6、第7章进行数据共享管理。
8 平台级联
8.1 市区级联
区大数据资源分平台应通过数据库表、文件、服务接口等方式与市大数据资源平台实现级联互通,实现数据目录、数据标签、数据算法、数据服务以及安全机制的协同,形成市区两级标准统一、覆盖广泛、集中可控的共享开放渠道。
8.2 长三角级联
市大数据资源平台应按照DB 31/T 310029及第5章、第6章要求,通过数据库表、文件、服务接口等方式与长三角数据共享交换平台实现级联对接。
8.3 国省级联
市大数据资源平台应按照GB/T 21062及第5章、第6章要求,与国家数据共享交换平台实现级联对接。
9 安全保障
9.1 平台基本要求
市大数据资源平台共享交换应满足下列要求:
a) 建立数据质量评估、数据共享应用成效评估、数据安全风险评估等安全保障制度,全管理责任;
b) 开展数据共享交换过程中的监督管理,定期组织数据共享交换安全检查;
c) 满足GB/T 22239—2019中三级网络安全等级保护要求和GB/T 39477—2020中数据共享交换安全要求;
d) 根据GB/T 43697的数据分类分级要求,对共享交换的数据实施相应的安全保护。
9.2 节点安全要求
前置交换节点用于部署前置库,应满足下列安全要求:
a) 使用防火墙、入侵检测系统等网络安全设备,按照最小化原则设置网络安全访问策略,与其他非必要的系统进行物理隔离和网络隔离;
b) 安装杀毒软件和防恶意软件,定期进行全盘扫描,及时检测和清除病毒和恶意软件;
c) 采用基于角色的访问控制、最小化原则等权限管理措施,确保节点访问权限最小化;
d) 采用数据加密措施,确保敏感数据的安全性;
e) 定期进行数据清理,及时清除过期和无用的数据, 以减少数据泄漏的风险;
f) 对节点服务器和操作终端进行安全运维管理,操作可审计、可回溯;
g) 记录敏感数据的操作日志及网络访问日志, 以对安全事件进行溯源分析。
9.3 权限控制要求
大数据资源平台应以最小化原则对数据提供方、数据使用方等进行权限控制,且应满足下列基本要求:
a) 以授权方式共享的,明确用户使用角色、数据使用环境、访问权限等。涉及专库的,数据使用方可按需拥有建表、删除自建表的权限;授权有时效限制,权限过期应重新申请授权;
b) 以非授权方式共享的,仅允许数据使用方在审核通过的业务场景和调用应用中使用,且不应再代理任何未经授权的其他接口;
c) 以跨层级数据返回、数据下载方式共享的,应控制返回或下发的数据的使用范围。
9.4 过程管控要求
公共数据共享交换过程应满足下列安全管控要求。
a) 数据提供方:
1) 以授权方式共享的,明确用户使用角色,确保生产与开发环境分离,对数据访问行为进行管控,并对接口风险进行监测;
2) 以非授权方式共享的,对接口 IP 白名单、接口调用数、接口有效期和接口加密通道进行合规检查;
3) 以跨层级数据返回、数据下载方式共享的,涉及敏感数据的表应加密处理,并通过加密传输通道下发。
b) 数据使用方:
1) 以授权方式共享的,明确用户使用角色,确保生产与开发环境分离;
2) 以非授权方式共享的,对接口 IP 白名单、接口调用数、接口有效期和接口加密通道进行合规检查;
3) 以跨层级数据返回、数据下载方式共享的,通过加密传输通道抽取数据。
c) 大数据资源平台管理部门:
1) 定期检查和评估平台共享交换数据传输的安全性和可靠性;
2) 对数据共享交换通道运行情况实时监测告警,并及时处置;
3) 实时监测服务接口调用,对调用频次异常、调用超时、调用错误、非授权调用等情况及时告警处置;
4) 采用隐私计算、数据沙箱、数据水印等技术,实施数据使用安全管控;
5) 对数据共享交换日志进行审计和分析。
参 考 文 献
[1] DB31/T 1446—2023 公共数据安全分级指南
[2] DB31DSJ/Z 004—2022 区级大数据资源平台建设指南
[3] 政务数据共享条例(中华人民共和国国务院令 第809号)
[4] 全国一体化政务大数据体系建设指南(国办函(2022〕102号)
[5] 上海市公共数据和一网通办管理办法(沪府令9号)
[6] 上海市数据条例(2021年11月25日)
[7] 上海市公共数据共享实施办法(试行)(2023年3月2日)
[8] 上海市公共数据目录链管理办法(沪数据办(2025〕2号)