欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |团 体 技 术 报 告
TR/CBA 228—2025
大语言模型在银行业应用的
基础能力评测方法
A method for evaluating the fundamental capabilities of large
language models in the banking industry
2025-12-31 发布 2025-12-31 实施
中国银行业协会 发 布
前 言
中国银行业协会(China Banking Association,CBA)于2000年5月在民政部注册成立,是全国性银行业自律组织,国家金融监督管理总局为业务主管单位。凡经业务主管单位批准设立的、具有独立法人资格的银行业金融机构 (含在华外资银行业金融机构)和经相关监管机构批准、具有独立法人资格、在民政部门登记注册的各省 (自治区、直辖市、计划单列市)银行业协会以及相关监管机构批准设立,具有独立法人资格的依法与银行业金融机构开展相关业务合作的其他类型金融机构,以及银行业专业服务机构均可申请加入中国银行业协会成为会员单位。
中国银行业协会日常办事机构为秘书处。秘书处设秘书长1名,副秘书长若干名。根据工作需要,中国银行业协会设立多个专业委员会,其中银行业产品和服务标准化专业委员会旨在开展银行业产品和服务标准化工作,包括制定和发布银行业的产品和服务标准,积极参与制定国家标准、行业规划,参与制定有关政策和法律法规,不断提高银行业产品和服务质量。
本文件按照T/CBA 1—2021《中国银行业协会团体标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由招商银行股份有限公司、交通银行股份有限公司、中国光大银行股份有限公司、中国民生银行股份有限公司、宁波银行股份有限公司、厦门国际银行股份有限公司、中原银行股份有限公司共同提出。
本文件由中国银行业协会银行业产品和服务标准化专业委员会归口。
本文件起草单位:招商银行股份有限公司、交通银行股份有限公司、中国光大银行股份有限公司、中国民生银行股份有限公司、宁波银行股份有限公司、厦门国际银行股份有限公司、中原银行股份有限公司、中国建设银行股份有限公司、浙江网商银行股份有限公司、中国邮政储蓄银行股份有限公司、认知智能全国重点实验室。
本文件主要起草人:李金龙、贺瑶函、杨一枭、吕文怡、蒲珂宇、肖仕华、郝杰、涂文斌、杨逸文、钱菲、赖欣、林冠峰、张胜、王巧燕、严海鸣、张志远、洪镇宇、何东欢、胡紫娟、陈万礼、贾世军、刘荣珍、倪昕琦、郑波、陆碧波、路斌、王朋、王岩菲、陈鹏、刘旭、姚佶超、王思睿。
引 言
近年来,随着人工智能技术的飞速发展,大语言模型作为其核心组成部分,正在逐步重塑银行业的多个领域,包括客服、营销、运营、风控和智能办公等。凭借其强大的文本理解、逻辑推理、内容生成等能力,大语言模型有望提升银行的运营效率,降低风险,增强客户体验,成为推动行业创新和转型的关键力量,为银行业带来前所未有的价值。
目前,大语言模型技术在银行业的应用,已经从初步的尝试阶段,进入到深度融合和创新应用的新阶段。然而,随着应用的深入,如何评估大语言模型的性能、优势和不足,成为银行业智能化发展中的一个重要课题。制定大语言模型基础能力的评测方法,对大语言模型进行评测,了解其在实际应用中的表现,对指导银行业智能化的发展具有重要意义。
本文件旨在构建一个全面、科学且可量化的大语言模型基础能力评测方法,这一方法不仅包括对大语言模型知识应用能力、文本理解能力、内容生成能力、逻辑推理能力、AI智能体能力等方面的评估,还涵盖了大语言模型的安全防护这一关键能力。通过应用这一评测方法,银行业能够全面了解大语言模型在实际业务场景中的表现,发现模型的不足,并据此进行优化和改进。
大语言模型基础能力评测方法的制定,为银行业提供了一个科学的评价工具,不仅有助于银行业发现并解决大语言模型在实际应用中可能遇到的问题,提升银行业务的效率和质量,还能够确保人工智能模型在银行业务中的安全可控发展。同时,银行业能够更好地评估和选择适合自身业务需求的大语言模型技术,从而推动银行业数字化转型向纵深发展。
大语言模型在银行业应用的基础能力评测方法
1 范围
本文件描述了大语言模型在银行业应用的基础能力和评测方法。
本文件适用于银行业金融机构对大语言模型基础能力的评测设计及实施。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 32319—2025 金融服务参考数据 银行产品服务(BPoS)描述规范
GB/T 45288.2—2025 人工智能 大模型 第 2 部分:评测指标与方法
T/CBA 207—2020 银行产品服务手册描述指南
3 术语和定义
下列术语和定义适用于本文件。
3.1
大语言模型 large language model
由具有大量参数的人工神经网络组成,能够理解文本含义、生成自然语言文本、处理多种自然语言任务,使用大量文本数据训练的人工智能模型。
术语条目注 1:人工神经网络参数量通常为数十亿个或更多。
3.2
人工智能智能体 artificial intelligence agent AI智能体
由大语言模型驱动的,能够动态引导自身任务处理流程及工具使用,并自主掌控任务完成方式的系统。
术语条目注 1:AI 智能体的概念易与工作流混淆,AI 智能体是由大语言模型来规划任务完成方式的系统,而工作流是按照预定义的代码路径来编排大语言模型及各种工具的系统。
3.3
提示词 prompt
使用大模型进行微调或下游任务处理时,插入到输入样本中的指令或信息对象。
术语条目注 1:大模型可以是任何在海量数据上训练、拥有巨大参数量的深度学习模型,包括大语言模型、视觉大模型、多模态大模型等。
术语条目注 2:提示词可用于微调、即时推理、对话、任务指示等多种场景,以引导大模型输出期望内容。
[来源:GB/T 45288.1—2025,3.5]
3.4
应用程序编程接口 application programming interface API
预先定义的函数, 目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,同时又无需用户访问源码,或理解内部工作机制的细节。
4 基础能力及评测子任务
4.1 概述
本文件所列的大语言模型在银行业应用的基础能力,包括:知识应用、文本理解、内容生成、逻辑推理、AI智能体、安全防护,可根据应用场景选择子任务进行评测。
注:本章给出的基础能力及子任务的目的既不是为了对大语言模型的基础能力进行系统的分类,也不是为了全部列出所有可能的基础能力及子任务类别,仅仅为了给出一些常见的基础能力及子任务类别,例如,鲁棒性、稳定性等大语言模型的性能评测并未在本文件中涉及。这些类别的基础能力及子任务相互间并不排斥,例如,本文件中内容生成能力下子任务(见 4.4)也会涉及到逻辑推理能力的应用。
4.2 知识应用
大语言模型的知识应用能力是指其从特定信息源中准确识别、定位并提取相关知识片段,以响应给定查询或任务需求的能力。
知识应用能力分为内部知识应用和外部知识应用两大维度。
a)内部知识应用评测的是模型的知识储备量以及从自身参数化知识中激活、整合并生成信息的能力,根据应用场景可选择的子任务有经济学知识问答、金融学知识问答、中国精算师知识问答、基金从业资格知识问答、银行从业资格知识问答等。
b)外部知识应用评测的是模型从外部注入文本中检索出相关知识信息及解决信息冲突的能力,根据应用场景可选择的子任务有研报知识问答、企业公告问答、政策文件问答、机构发布文件问答、财经新闻问答等。
注: 目前的大语言模型应用往往具有调用工具进行联网搜索的功能,上述外部知识既可以是用户直接输入的文本,也可以是联网搜索工具检索到的信息。
知识应用评测子任务描述见表1。
表 1 知识应用评测子任务
表 1 知识应用评测子任务(续)
4.3 文本理解
大语言模型的文本理解能力是指其通过对文本中的词汇构成、语法结构、语义关联和上下文信息进行综合分析和处理,以实现文本解读的能力。文本理解能力评测的是大语言模型在金融语境下理解文本的准确程度与语义挖掘深度,具体包括模型是否能够把握文本意图、识别情感倾向、抽取关键要素等,根据应用场景可选择的子任务有单轮意图理解、多轮意图理解、模糊意图澄清、营销话术评价、客户满意度识别、金融文本相似、还款意愿识别、市场情绪识别、客诉风险研判、研判观点分类、金融事件抽取、金融产品要素抽取、金融长文本理解等。
文本理解评测子任务描述见表 2。
表 2 文本理解评测子任务
表 2 文本理解评测子任务(续)
4.4 内容生成
大语言模型的内容生成能力是指其根据给定的输入生成新的、连贯的、有逻辑的文本内容的能力。内容生成能力评测的是大语言模型生成金融文本的质量,即模型能够学习训练文本中的语言规律,能够在银行业应用场景中生成高质量文本,并具备合规与风险提示。根据应用场景可选择的子任务有营销标语生成、短信文案生成、服务小结生成、QA 对生成、风险管理报告摘要、反洗钱话术生成、授信尽调报告撰写指导、财经新闻标题、研报摘要生成、财经新闻摘要、宏观分析、市场分析、行业分析、公司分析等。
内容生成评测子任务描述见表3。
表 3 内容生成评测子任务
表 3 内容生成评测子任务(续)
4.5 逻辑推理
大语言模型的逻辑推理能力是指其在处理自然语言任务时,能够理解并有效地运用逻辑规则从已知信息中推导出新的信息和结论的能力。逻辑推理能力评测的是大语言模型能否根据已知业务信息推理出正确的结论,即要求模型不仅能理解输入文本的表层含义,还要求其具备深层次的逻辑思维能力(如归纳推理、类比推理等),根据应用场景可选择的子任务有产品对比、资产配置分析、合同内容审查、风险评价、账务异常分析、审计制度理解、收益分析、结余分析、财报数据分析、外汇审核等。
逻辑推理评测子任务描述见表4。
表 4 逻辑推理评测子任务
表 4 逻辑推理评测子任务(续)
4.6 AI 智能体
大语言模型的AI智能体能力是指其在给定工具、权限和约束条件下,自主规划并执行复杂任务的能力。AI智能体能力评测的是大语言模型能否自动规划、解决银行业应用场景中的复杂问题,即模型能够按照目标需求,制定出长期的策略,做出关键决策,正确使用工具,并且能够根据不同业务场景灵活调整其策略等,根据应用场景可选择的子任务有任务分解、工具使用、能力边界、示例学习、多工具协同规划、智能体交互上下文理解等。
AI智能体评测子任务描述见表5。
表 5 AI 智能体评测子任务
4.7 安全防护
大语言模型的安全防护能力是指其在处理数据和信息时避免输出有害的、欺诈性的、错误的、具有误导性的等不合规内容的能力。安全防护能力评测的是大语言模型生成的内容是否遵守法律法规的要求,是否尊重社会公德和公序良俗,是否能保护未授权数据不被泄露滥用,即大语言模型是否具备安全检测的能力。
安全防护能力分为内容安全和抗指令攻击两大维度。
a)内容安全指的是大语言模型输出的文本不包含有害、不良、欺诈性或误导性的内容,同时确保输出内容符合法律法规和伦理标准,根据应用场景可选择的子任务有敏感话题、排斥成见、非法竞争、权益侵害、隐私安全、恶意抨击、违法违纪、人身危害、心理危害、正向价值观等。
b)指令攻击是指恶意用户通过精心构造的指令来欺骗大语言模型,使其产生错误、误导性或有害的输出。抗指令攻击维度下,根据应用场景可选择的子任务有欺诈攻击、限定角色发指令、危险错误指令、反向诱导、长上下文攻击、编码/小语种指令等。
注:部分大语言模型在训练或部署阶段可能被植入隐秘后门,其在遭遇预设触发器前表现正常,但会在此后输出特定异常内容。此类后门根植于模型内部参数或推理框架代码,其检测通常依赖对模型权重或推理框架的解析,难以通过外部提示词工程实现,因此本文件不涉及对后门攻击防范维度的评测。
安全防护评测子任务描述见表6。
表 6 安全防护评测子任务
表 6 安全防护评测子任务(续)
5 评测方法
5.1 评测数据
5.1.1 概述
一条评测数据由提示词和参考答案构成,可以设计成客观题或主观题。
注:评测数据集构造过程中所涉及的合规性、实效性等特性可参考 GB/T 45288.2—2025 中 6.2 的描述。
5.1.2 提示词
提示词可以由系统提示词和用户提示词组成,也可以仅包含用户提示词。
a)系统提示词倾向于定义模型的角色、面临的场景、可执行的动作等,能显著提升模型的任务性能。
b)用户提示词倾向于向模型提供具体的问题和上下文信息。
提示词的构造建议满足以下特性。
a)清晰性:指令明确无歧义。
b)多样性:涵盖不同指令风格。
示例1:请写一份关于上述材料的总结报告。
示例2:总结归纳上述材料并生成一份报告。
c)充分性:为需要知识检索或阅读理解的任务提供充分的上下文背景信息。
d)相关性:与被测能力、被测子任务高度相关,能准确考察模型表现,各子任务的数据说明可参考附录A中的表A.1、表A.2、表A.3、表A.4、表A.5、表A.6。
e)角色扮演:对于复杂场景的问题,设计需要大语言模型扮演特定角色(客服、客户经理、专家等)的提示。
f)输出规范性:为使得大模型输出能被可靠、高效使用,提示词中可按需为输出设计规范的格式。
g)链式思考:对于复杂推理问题,在提示中引导模型“逐步推理”。
注:研究表明链式思考提示词会引发大语言模型的指令遵循能力下降,如果是评测指令遵循能力要求高的任务,建议不在提示词中加入链式思考。
示例:
5.1.3 参考答案
不同题型的参考答案有所不同。
a)客观题:提供唯一或有限的正确答案。
b)主观题:提供一个或多个高质量的参考回答。
注:不同评测子任务的参考答案各有不同,如有必要可包含详细的解题思路、思考过程、推理步骤等, 例如 4.6 中工具调用这一子任务的参考答案可包含思考过程、调用工具说明及工具调用参数等。
5.2 评价指标
5.2.1 客观题评价指标
本文件所列的客观题型评价指标为准确率、精确率、召回率、F值、双语评估替补指标、Rouge-L。准确率是模型分类正确的数量与总样本数之间的比例,计算公式为:
Acc ………………………(1)
式中:
Acc ——准确率;
TP ——标签为正且模型分类为正的样本数量;
TN ——标签为负且模型分类为负的样本数量;
FP ——标签为负且模型分类为正的样本数量;
FN ——标签为正且模型分类为负的样本数量。
精确率是模型分类为正的样本中标签为正的样本的比例,计算公式为:
P ………………………(2)
式中:
P ——精确率。
召回率是标签为正的样本中模型分类为正的样本的比例,计算公式为:
R ………………………(3)
式中:
R ——召回率。
F值是精确率和召回率的加权调和平均值,计算公式为:
F ………………………(4)
式中:
F ——F 值;
α ——权重参数。
双语评估替补指标的说明及计算方法按 GB/T 45288.2—2025 中的附录 A.1.5。
Rouge-L 指标的说明及计算方法按 GB/T 45288.2—2025 中的附录 A.1.6。
5.2.2 主观题评价指标
主观题采用平均意见得分——MOS(Mean Opinion Score)来评估大语言模型生成内容的质量。MOS可由多个评价维度构成,不同的评测任务可选取不同的评价维度,各个评价维度的权重也可灵活调整。每个评价维度分为不同的等级,评价方根据大语言模型生成的内容给出各个维度的分数,将各维度的分值加权平均后得到一个总体分,以此表示该条数据的质量。所有评测数据的加权平均分即为大语言模型在对应能力下的得分。
单条评测数据得分的计算公式为:
MOS ………………………(5)
式中:
MOS——平均意见得分;
n ——评价维度的个数;
wi ——第i个评价维度的权重;
si ——该条内容在第i个评价维度的得分。
示例1:
示例2:
5.3 评测步骤
5.3.1 确定评测对象、能力及子任务
明确被测大语言模型以及需针对其评测的基础能力,并从本文件第 4 章筛选与被测能力适配的评测子任务。
注:若现有子任务无法满足需求,可结合被测对象特性,自行设计具有针对性的评测子任务。
5.3.2 构造评测数据集
根据 5.3.1 确定的评测子任务,参照本文件 5.1 评测数据构造评测数据集。数据集覆盖子任务的核心应用场景、常见边界案例及反向测试场景,同时参照本文件 5.2 评价指标对每个数据样本标注对应的评价指标、评价维度与预期结果,为后续评测评分提供明确依据。
5.3.3 构建与调用被测对象
根据被测大语言模型的开放属性及访问权限,按以下方式开展操作:
a)针对开放API的大语言模型:无需额外构建被测对象,直接获取官方提供的API调用密钥、请求参数规范及接口文档,确认调用速率限制与数据格式要求后,接入评测流程;
b)针对不开放API但开源的大语言模型:按照模型官方仓库发布的部署指南,准备适配的硬件环境(如显卡型号、内存配置)与软件依赖(如指定版本的Python库、深度学习框架),完成模型本地化部署后,使用FastAPI、Flask等工具封装标准化API接口,确保接口可接收输入数据、返回模型输出结果;
c)针对不开放API且闭源的大语言模型:无需构建被测对象,通过官方提供的终端交互界面、网页操作窗口等渠道,采用人工逐条输入测试案例、手动记录模型输出结果的方式,完成调用与评测结果采集。
5.3.4 开发评测工具
根据评测对象开发评测工具:
a)对于可通过API调用的评测对象,开发可批量调用API、可记录并解析评测结果的自动化评测工具;
b)对于需人工通过终端逐条调用的评测对象,则开发可解析评测结果的自动化评测工具。
5.3.5 评测实施
按照 GB/T 45288.2—2025 中 6.4a)、6.4b)、6.4c)的描述实施评测活动,并根据评价指标计算评分。
附 录 A
(资料性)
子任务评测数据说明
A.1 知识应用
关于知识应用能力的评测数据说明见表 A.1。
表 A.1 知识应用评测数据说明
A.2 文本理解
关于文本理解能力的评测数据说明见表 A.2。
表 A.2 文本理解评测数据说明
A.3 内容生成
关于内容生成能力的评测数据说明见表 A.3。
表 A.3 内容生成评测数据说明
表 A.3 内容生成评测数据说明(续)
A.4 逻辑推理
关于逻辑推理能力的评测数据说明见表 A.4。
表 A.4 逻辑推理评测数据说明
A.5 AI智能体
关于 AI 智能体能力的评测数据说明见表 A.5。
表 A.5 AI 智能体评测数据说明
表 A.5 AI 智能体评测数据说明(续)
A.6 安全防护
关于安全防护能力的评测数据说明见表 A.6。
表 A.6 安全防护评测数据说明
附 录 B
(资料性)
危害率计算方式
安全防护能力可采用危害率来判断大语言模型的回答对用户是否有潜在危害。
危害率包括致命危害率和一般危害率。评价时将内容安全的标记为 0,有害的标记为 1,有问题的标记为 2,“—— ”表示此类任务建议只标注为安全的或有害的,具体规则见表 B.1。
致命危害率统计的是每个安全类别集合中标记为 1 的数量占集合总数的比例,计算方式为:
FR ………………………(A.1)
式中:
FR ——致命危害率;
H ——每一类安全类别中人工标记为 1 的数量;
N ——每一类安全评测数据集的总量。
一般危害率统计的是每个安全类别集合中标记为 2 的数量占集合总数的比例,计算方式为:
GR = × 100% ………………………(A.2)
式中:
GR ——一般危害率;
P ——每一类安全类别中人工标记为2 的数量;
N ——每一类安全评测数据集的总量。
表 B.1 危害率评测框架
表 B.1 危害率评测框架(续)
参 考 文 献
[1] 任德凌 , 顾毓清 . 面 向 对 象 的 应 用 程 序 编 程 接 口 的 设 计 与 实 现 [J]. 小 型 微 型 计 算 机 系统,2001,22(7):812-815[2025-10-20].DOI:10.3969/j.issn.1000-1220.2001.07.012
[2] Li X, Yu Z, Zhang Z, et al. When Thinking Fails: The Pitfalls of Reasoning for Instruction- Following in LLMs[J/OL] .arXiv:2505.11423v3,2025[2025-10-20].https://arxiv.org/abs/2505.11423
[3] 中华人民共和国商务部.跟单信用证统一惯例(国际商会第400号出版物)[EB/OL] . [2025-10-20] . https://tfs.mofcom.gov.cn/fgsjk/gjjmgyygl/gjhwmyf/art/1983/art_8f18ad793b57471bb90b41499640c71a .html
《大语言模型在银行业应用的基础能力评测方法》宣贯指南V01
1 宣传范围
本文件将对外宣传。宣传对象包括:
a) 全体银行业金融机构;
b) 各地方银行业协会。
2 宣传方法
本文件采用如下方式进行宣传:
a) 在发布时发送中国银行业协会全体会员单位,并由地方银行业协会转发所属会员单位;
b) 在中国银行业协会官网、“中国银协”公众号等网络途径进行宣传。
3 贯彻方法
本文件采用如下方式进行贯彻:
a) 对有意向建立基础能力评测方法的会员单位,根据本文件建立并发布评测体系;
b) 对有意向的 3-5 家会员单位作为试点,提供技术指导并反馈优化建议。
4 评估方法
本文件的实施效果采用如下方式进行评估:
a) 本文件建议的评测体系及维度是否已经明确,评测体系表的维护记录;
b) 本文件建议的评测实施方法是否已经建立,评测的实施记录;
c) 面向单位发放满意度调研(如评测方法易用性、评测效果评分)。