中华人民共和国农业行业标准
NY/T 4996—2025
涉农网络舆情信息监测技术要求
Technical requirement for monitoring agricultural
network public opinion information
2025-12-09 发布
2026-05-01 实施
中华人民共和国农业农村部发布
前言
本文件按照 GB/T 1 .1—2020« 标准化工作导则第 1 部分 : 标准化文件的结构和起草规则»的规定起草 .
请注意本文件的某些内容可能涉及专利 . 本文件的发布机构不承担识别专利的责任 .
本文件由农业农村部信息中心提出 .
本文件由农业农村部农业信息化标准化技术委员会归口 .
本文件起草单位 :农业农村部信息中心、北京农信通科技有限责任公司 .
本文件主要起草人 :钟永玲、李想、郭志杰、张生璨、张珊、程海平、滕武超、余春燚、李婷婷、种微微、陆风 .
涉农网络舆情信息监测技术要求
1 范围
本文件规定了涉农网络舆情信息监测技术总体要求 , 以及舆情信息监测基础库、舆情信息采集、舆情信息处理、舆情信息存储的技术方法和要求 .
本文件适用于涉农网络舆情信息监测流程管理和监测系统的规划及建设 .
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 . 其中 ,注日期的引用文件 ,仅该日期对应的版本适用于本文件 ; 不注日期的引用文件 , 其最新版本(包括所有的修改单)适用于本文件 .
GB/T 29765—2021 信息安全技术数据备份与恢复产品技术要求与测试评价方法
GB/T 37722—2019 信息技术大数据存储与处理系统功能要求
YD/T 2673—2013 面向舆情分析的互联网数据采集与交换格式定义
YDB 147—2014 互联网舆情监测与分析系统框架
3 术语和定义
下列术语和定义适用于本文件 .
3 .1
涉农网络舆情 agriculturalnetwork publicopinion information
公众、机构和组织通过互联网表达和传播的有关农业、农村、农民公共事务的情绪、意愿、态度和意见的总和 .
3 .2
信源 information source
信息的来源或信息的发布者 .
3 .3
网络爬虫 web crawler
一种按照一定规则 , 自动抓取互联网公开信息的程序或者脚本 .
3 .4
结构化数据 structured data
以固定格式和结构存储的数据 .
3 .5
非结构化数据 unstructured data
不具有预定义模型或未以预定义方式组织的数据 .
[来源 :GB/T 35295—2017 ,2 .1 .25] 3 .6
主键 primarykey
数据表中的一个或多个字段 ,作为表中某一条记录的唯一标识 .
3 .7
轮询 polling
采集程序按照一定规律向服务器端发送请求进行查询 .
3 .8
涉农信源库 agriculturalinformation sourcedatabase
专门用于存储、管理和检索网络上各种涉农信息发布来源的数据库。
4 总体要求
涉农网络舆情信息监测应至少包括以下 4 个部分 :
a) 基础库 :应建立涉农信源库和涉农关键词库等基础库 , 以供采集时调用 ;
b) 采集 :调用涉农信源库对涉农信源进行判定 ,重点监测信源应进行定向全量采集涉农网络舆情信息 ,非重点监测信源应调用涉农关键词库利用关键词采集涉农网络舆情信息 ;
c) 处理 :应对采集到的涉农舆情信息进行清洗 ,并至少进行归类处理和关联溯源处理 ;
d) 存储 :将处理后的舆情数据按照结构化数据和非结构化数据分别存储在特定载体中 , 以备后续查询分析使用。
一般业务流程架构见图 1。
图 1 涉农网络舆情信息监测一般业务流程架构
5 基础库要求
5 .1 涉农信源库
5 .1 .1 涉农信源库建设要求
涉农信源库应包含主键、信源名称、信源 URL[统一资源定位系统(Uniform Resource Locator)]、字
符编码、权重、是否重点监测等字段。 权重字段应按照重要性、相关度等指标对信源赋予分值 ,用于确定不
2
a) 根据工作需求、技术能力和资金情况等进行综合评估 ,建立必要的涉农信源库 ;
b) 提供信源的检索、增加、删除、排序、分类等功能 ;
c) 提供信源的导出、导入、数据交换等功能。
5 .1 .2 信源库信息集
信源库信息集应符合表 1 的要求。
表 1 信源库信息集
5 .2 涉农关键词库
5 .2 .1 涉农关键词库建设要求
涉农关键词库建设应符合以下要求 :
a) 根据工作需求、技术能力和资金情况等进行综合评估 ,建立涉农关键词库 ;
b) 提供关键词的检索、增加、删除、排序、分类等功能 ;
c) 提供关键词的导出、导入、数据交换等功能。
5 .2 .2 关键词库信息集
关键词库信息集应符合表 2 的要求。
表 2 关键词库信息集
6 采集要求
6 .1 通用要求
a) 应确保在采集过程中涉农信源库和关键词库全部被有效调用 ,避免遗漏重要涉农舆情信息 ;
b) 应设计合理的采集频次 ,并根据实际需要 ,动态调整网络爬虫的采集频次 ;
c) 应使用中文分词算法 ,根据涉农关键词 ,准确匹配涉农舆情信息 ;
d) 应以满足实际业务需要为原则 ,合理设计采集方案和技术指标 , 以最小成本实现涉农领域及行业内的舆情信息采集。
6 .2 采集内容要求
6 .2 .1 新闻资讯类平台信息集
新闻资讯类平台采集内容应包括但不限于标题、正文、发布时间、发布主体、链接、作者、评论数量、转
载量、阅读量等信息 ,新闻资讯类平台信息集应符合表 3 的要求。
表 3 新闻资讯类平台信息集
6 .2 .2 用户内容生成类平台信息集
用户内容生成类平台采集内容应包括但不限于标题、信息内容、发布时间、发布主体、链接、评论数量、转发量、点赞量、阅读量等信息 , 用户内容生成类平台信息集应符合表 4 的要求。
表 4 用户内容生成类平台信息集
6 .2 .3 视频视听类平台信息集
视频视听类平台信息集采集内容应包括但不限于标题、视频描述、封面图片、视频地址、发布时间、发布主体、评论数量、转发量、点赞量、播放量等信息 ,视频视听类平台信息集应符合表 5 的要求。
表 5 视频视听类平台信息集
表 5 (续)
6 .3 调用信源库要求
使用网络爬虫调用涉农信源库 ,查询并判断涉农信源是否为重点监测信源。 重点监测信源应执行定
向采集流程 ,非重点监测信源应执行关键词采集流程。
6 .4 定向采集要求
定向采集应采用 HTML[超文本标记语言(HyperTextMarkupLanguage) ]页面解析法或 API[应用程序接口(Application Programming Interface) ]提取法等采集技术 ,对涉农信源库中重点信源按照权重进行轮询并采集全部信息。
6 .5 关键词采集要求
关键词采集应采用 HTML页面解析法或 API提取法等采集技术 ,对涉农信源库中非重点信源根据涉农关键词按照权重进行轮询采集相关信息。
7 处理要求
7 .1 通用要求
a) 应过滤无关信息、重复信息 ,并根据全文语义分析补充特征字段 ,减少无关无效舆情信息干扰 ;
b) 应对采集到的舆情信息第一时间清洗、归类、关联溯源 , 以备随时调用 ;
c) 应提供模块化、多样化的处理方法 ,使用者可根据实际需要对原始信息进行处理。
7 .2 清洗要求
对采集到的原始舆情信息应进行比对筛选、语义识别、文本挖掘等技术处理 ,清除重复、修复异常、排除无关的信息 ,确保每条信息链接正确 ,字段完整。
7 .3 归类要求
对清洗后的舆情信息应利用实体识别、标签提取、文本聚类等方法进行处理 ,按涉及地域、涉及行业等属性进行归类标记。
7 .4 关联溯源要求
对清洗后的舆情信息应利用特征类型关联、事件匹配关联等技术实现舆情主题关联 ;对同一主题事件中的舆情信息 ,按照时间进行排序 ,确定首发媒体 ,实现对舆情信息源头的追溯。
8 存储要求
8 .1 通用要求
a) 应定期扫描系统安全漏洞并修复 ;
b) 应保障存储数据的安全访问 ,确认合法身份及访问授权 ;
c) 重要数据宜采用分布式存储 ;
d) 存储设备应支持 7 × 24 h不间断运行 ;
e) 存储系统应具备断电缓存保护功能 ;
f) 应支持存储设备添加和删除 ,满足存储设备的动态扩容。
8 .2 数据类型要求
涉农舆情信息按数据类型分为非结构化数据和结构化数据。 非结构化数据主要包括视频文件、音频文件及图片文件等 ,结构化数据主要是各类采集内容的信息集数据(如账号主体信息、文章标题及内容、发布时间、评论数量、转发量、点赞量等传播情况)。
8 .3 存储方式要求
数据存储应符合 GB/T 37722—2019 中第 6 章所述的要求。
8 .4 存储时长要求
涉农舆情信息应至少保留 3 个月时长 , 以满足后续基础追溯和查询需求。
8 .5 备份与恢复要求
应建立完善的备份和恢复管理制度 ,并做好备份策略和恢复计划。应符合 GB/T 29765—2021 中 6 .1
所述的要求。
附录 A
(资料性)
涉农关键词示例
涉农关键词示例见表 A.1。
表 A.1 涉农关键词示例
参考文献
[1 ] 中华人民共和国国务院 . “十四五 ”数字经济发展规划 [Z] .2021
[2 ] 中央网络安全和信息化委员会 . “十四五 ”国家信息化规划 [Z] .2021
[3 ] 中共中央办公厅、国务院办公厅 . 2006 ― 2020 年国家信息化发展战略 [Z] .2006
[4 ] 农业农村部 . “十四五 ”全国农业农村信息化发展规划 [Z] .2022