欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |ICS 31.200 CCS L 55
CCIASC
中 国 计 算 机 行 业 协 会 团 体 标 准
T/CCIASC 055—2026
人工智能芯片 面向芯粒的卡间互联接口测
试方法
Artificial intelligence chips - test method of inter-card interface for chiplets
2026 - 02 - 27 发布 2026 - 03 - 06 实施
中国计算机行业协会 发 布
T/CCIASC 055—2026
T/CCIASC 055—2026
前 言
本文件按照GB/T 1.1-2020《标准化工作导则 第1部分 标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。
本文件由中国计算机行业协会提出。
本文件由中国计算机行业协会归口。
本文件起草单位:新华三技术有限公司、中国信息通信研究院、中国电子技术标准化研究院、上海壁仞科技股份有限公司、沐曦集成电路(上海)股份有限公司、格通智联技术(上海)有限公司、格创通信(浙江)有限公司、上海天数智芯半导体股份有限公司、海光信息技术有限公司、太初(无锡)电子科技有限公司、北京曦望芯科智能科技有限公司、北京谦合益邦云信息技术有限公司、上海合见工业软件集团有限公司、芯耀辉科技股份有限公司、上海晟联科半导体有限公司、芯潮流(珠海)科技有限公司
本文件主要起草人:朱仕银、刘新民、万晓兰、贾琳琳、李峰、聂一、张乾、邸绍岩、王骏成、刘畅、尹航、雷恺、魏莉、曾敏、李军军、丁同浩、孙志峰、罗彬、赵畅、杨朋霖、郑卫华、付庆平、董剑、于彬、孔宁、司照凯、曹宜宁。
T/CCIASC 055—2026
人工智能芯片 面向芯粒的卡间互联接口测试方法
1 范围
本文件规定了面向芯粒的卡间互联接口测试方法,包括协议层测试、链路层测试、物理层测试和性能测试。
本文件适用于加速器与通信芯粒互联的验证测试,加速器卡间互联互通测试等。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 9178 集成电路术语
GB/T 14113 半导体集成电路封装术语
UCIe UCIe规范v2.0(Specification Revision 2.0 )
AXI 协议规范( AXI Protocol Specification)
AXI-Stream 协议规范( AXI-Stream Protocol Specification)
3 术语和定义
GB/T 9178、GB/T 14113和GB/T 46280.1界定的以及下列术语和定义适用于本文件。
3.1
互联 interconnection
在芯粒间的物理连接的基础上,使用通信协议协调调度两端实现信息交互的连接线路。
[来源:GB/T 46280.1-2025 3.6]
4 缩略语
下列缩略语适用于本文件。
T/CCIASC 055—2026
5 测试环境
测试环境:硅前采用前仿验证,硅后采用机台测试。
测试拓扑如图1 : 将标准APB、AXI流转换成协议流,PHY将数据加工处理后传输到通信芯粒的PHY,解析还原成协议流传输给UMAC,UMAC将数据转换为通信芯粒私有报文协议,进行网络传输。
图 1 测试拓扑图
6 对应关系
本文件测试方法章节与接口技术要求各章节的对应关系见表1:
表 1 测试方法和接口技术要求对照表
T/CCIASC 055—2026
7 协议层测试
7.1 概述
本章节对T/XXX 《人工智能芯片 面向芯粒的卡间互联接口技术要求》第7.1 章定义进行测试,包
T/CCIASC 055—2026
括基于AXI 总线通用协议和AXI-Stream通用协议的两个互联芯粒协议层测试。
基于AXI通用协议互联的芯粒,不同业务模型的芯粒有对应的验证流程与方法,UMAC AXI通过标准总线,对跨芯粒应用数据进行访问与处理。
AXI总线通用协议互联的芯粒支持以下几种业务模型:
a) 数据发送端,定义为AXI Master。AXI Master端对应AXI流,通过AXI接口传输数据,CPU/GPU主动对通信芯粒进行数据流传输。
b) 数据接收端,定义为AXI Slave。AXI Slave端对应AXI流,通过AXI接口传输数据,CPU/GPU接收通信芯粒传输的数据流。
c) 控制类业务端,定义为Control。Control端包含APB标准通路及分通道反压控制,对通信芯粒寄存器状态进行实时访问和分通道反压流控的延迟响应。
图 2 协议层整体互联图
如图2所示,UMAC将标准APB、AXI流转换成协议流,PHY将数据加工处理后传输到通信芯粒的PHY,解析还原成协议流传输给UMAC,UMAC将数据转换为通信芯粒私有报文协议,进行网络传输。
AXI总线支持以下功能:
a) 连接AXI接口,AXI接口分为封包AXI接口以连接数据发送方向和解包AXI接口以连接数据接收方向;
b) 支持AXI的5个传输通道:AW+W、B、AR、R各通道的信息数据传输;
c) 连接链路层FDI接口,连接物理层;
d) 发送方向,从AXI接口获取数据,将其切分打包成为Flit格式传输到FDI接口上;
e) 接收方向,从FDI接口获取数据,将其解包恢复成原数据从AXI端口发出;
f) 支持报文、Flit输入输出计数统计;
g) 支持AXI端口计数统计;
h) 支持中断上报;
i) 支持Flit环回;
j) 支持跨芯粒透传分通道反压信号;
k) 支持通信芯粒寄存器访问;
l) 支持SHAPING,控制发送方向流量;
基于AXI-Stream通用协议互联的芯粒,不同业务模型的芯粒有对应的验证流程与方法,UMAC Stream通过标准总线,对跨芯粒应用数据进行访问与处理。
AXI-Stream通用协议互联的芯粒支持以下几种业务模型:
a) 数据发送端,定义为Master。Master端对应AXI-Stream流,CPU/GPU主动对通信芯粒进行数据流传输。
b) 数据接收端,定义为Slave。Slave端对应AXI-Stream流,CPU/GPU接收通信芯粒传输的数据流。
c) 控制类业务端,定义为Control。Control端包含APB标准通路及分通道反压控制,对通信芯粒寄存器状态进行实时访问和分通道反压流控的延迟响应。
T/CCIASC 055—2026
图 3 协议层整体互联图
如图3所示,UMAC Stream将标准APB、AXI-Stream流转换成协议流,PHY将数据加工处理后传输到通信芯粒的PHY,解析还原成协议流传输给UMAC,UMAC将数据转换为通信芯粒私有报文协议,进行网络传输。
AXI-Stream支持以下功能:
a) 连接AXI-Stream接口,每个AXI-Stream接口均为双向通信,提供标准以太接口;
b) 连接链路层FDI接口,连接物理层;
c) 发送方向,从AXI-Stream接口获取数据,将其切分打包成为Flit格式传输到FDI接口;
d) 接收方向,从FDI接口获取数据,将其解包恢复成原数据从AXI-Stream端口发出;
e) 支持报文、Flit输入输出计数统计;
f) 支持中断上报;
g) 支持Flit环回;
h) 支持跨芯粒透传分通道反压信号;
i) 支持通信芯粒寄存器访问;
j) 支持流量整形,控制发送方向流量;
7.2 AXI 总线测试
7.2.1 报文读写测试
报文读写测试项见表2:
表 2 报文读写测试项
7.2.2 接口分通道测试
T/CCIASC 055—2026
接口分通道测试见表3:
表 3 接口分通道测试项
图 4 AXI请求通道接口测试
图 5 AXI应答通道接口测试
UMAC AXI接口测试,经 FDI 环回测试,AW +W、AR、B、R 等通道发送和接收两方向,信息以及数据测试,如图4 和图 5 所示,各通道信息及数据的测试参数见表 3。
AXI共有五个传输通道,其中两个通道用来读,三个通道用来写。每个通道都有流控信号,发送数据端设置有效位,接收数据端设置就绪位,读数据和写数据通道都包括一个 LAST 信号,用来指明一个
T/CCIASC 055—2026
事务传输的最后一个数据。
AXI 写通道有三个,传输写地址的通道、传输写数据的通道、传输Response 的通道。如下图6 所示:
图 6 AXI 写通道
AXI读通道有两个,一个用来传输读地址与控制信号、另一个用来传输读的数据和 Response 信号。如下图 7 所示:
图 7 AXI 写通道
AXI分通道测试下,需要测试各通道下所有信号无误,正确传输数据。如上述的读数据和写数据通道的 LAST 信号,如果对应测试错误(如缺少LAST),则表明传输数据过程出错。
AXI 协议定义了三种 burst 读写类型:FIXED 式的突发读写、INCR 式的突发读写和WRAP 式的突发读写,在 AXI 的接口中,用 AWBURST 或者 ARBURST 来选择突发式读写的类型。
1) FIXED 突发读写是指地址是固定的,每一次传输的地址都不变。这样的突发式读写会重复的对
T/CCIASC 055—2026
一个相同的位置进行存取,例如FIFO。
2) INCR 突发读写是指每一次读写的地址都比上一次的地址增加一个固定的值。
3) WRAP 突发读写跟 INCR 突发读写类似。WRAP 突发读写的地址是包数据的低地址当到达一个包边界时再进行一个回环,和 AHB 总线的 WRAP 传输一致。WRAP 传输有两个限制: ①起始地址必须以传输的大小对齐 : ②突发式读写的长度必须是 2、4、8 或者 16。
较常用的是 INCR 式的突发读写。本文件所述测试便是采用 INCR 式。INCR 式突发读写是指每一次读写的地址都比上一次的地址增加一个固定的值。
AXI VIP 的使用要求:
通过集成AXIVIP,使用VIP 产生激励,通过AXI接口传输信息及数据,可通过继承VIP 内置序列,并通过输入参数信息(如 AWID、AWLEN、AWUSER、AWADDR、WLAT、WDATA),生成自己所需要的场景数据格式,并通过不同场景需要、读写操作,进行测试。发送端发送的通道信息数据需要和接收端的通道信息数据测试完全一致,确保通道传输无误。
7.2.3 本端寄存器读写测试
APB 接口读写本端 UMAC AXI 寄存器,测试项见表 4:
表 4 本端寄存器读写测试项
7.2.4 分通道反压测试
UMAC AXI协议层对该信号进行透传,通过检测周期、信号变化综合控制,测试项见表 5:
表 5 分通道反压测试项
7.2.5 流量整形模块测试
T/CCIASC 055—2026
UMAC AXI 的流量整形模块控制分配的最大物理带宽,测试项见表 6:
表 6 流量整形测试项
7.2.6 访问通信芯粒寄存器测试
如图 8 所示,APB 访问间接寄存器,通过FDI接口将数据流传输给 PHY,对端 UMAC 解析FDI 数据流,转换成 CFGB 下发读写通信芯粒寄存器读写指令,反馈信息从通信芯粒传输给 GPU die,通过 APB 访问间接寄存器获取。
图 8 访问通信芯粒寄存器流程
访问通信芯粒寄存器测试项,见表 7:
表 7 访问通信芯粒寄存器测试项
7.3 AXI-Stream 测试
T/CCIASC 055—2026
7.3.1 报文读写测试
AXI-Stream 接口报文读写测试项,见表 8:
表 8 AXI-Stream 报文读写测试项
7.3.2 本端寄存器读写测试
APB 接口读写本端 UMAC Stream 寄存器,测试项见表 9:
T/CCIASC 055—2026
表 9 AXI-Stream 报文读写测试项
7.3.3 分通道反压测试
UMAC STREAM 协议层对该信号进行透传,通过检测周期、信号变化综合控制,测试项见表 10:
表 10 AXI-Stream 分通道反压测试项
7.3.4 流量整形模块测试
UMAC STREAM 的流量整形模块控制分配的最大物理带宽,测试项见表 11:
表 11 AXI-Stream 流量整形测试项
7.3.5 环回测试
T/CCIASC 055—2026
FDI 环回测试总体逻辑如图9 所示:
图 9 FDI 环回
7.3.6 访问通信芯粒寄存器测试
图 10 访问通信芯粒寄存器流程
如图 10 所示,APB 访问间接寄存器,通过FDI 接口将数据流传输给 PHY,对端 UMAC 解析FDI 数据流,转换成 CFGB 下发读写通信芯粒寄存器读写指令,反馈信息从通信芯粒传输给 GPU die,通过 APB访问间接寄存器获取,测试项见表 12:
表 12 AXI-Stream 访问通信芯粒寄存器测试项
8 链路层测试
T/CCIASC 055—2026
8.1 概述
数据链路层测试指:基于本文件第7 章定义的协议层测试项,改变不同的数据链路层参数,对数据链路层不同组帧方式是否满足《人工智能芯片 面向芯粒的卡间互联接口技术要求》中第7.2 章节的定义。本章对不同的测试场景下数据链路层应满足的参数配置范围进行定义。
8.2 Streaming 协议测试
Streaming 协议测试。测试时需将两端配置为相同 Flit 格式,测试项见表 13:
表 13 Streaming 协议测试项
8.3 CRC 重试和重传功能测试
无论 IP 或是 VIP 均需支持 CRC 注错功能,测试项见表 14:
表 14 CRC 和重传测试项
8.4 链路状态管理测试
本测试主要测试在不同链路状态是否可以正确进行跳转,测试项见表 15:
表 15 链路状态管理测试项
T/CCIASC 055—2026
8.5 Parity 校验功能测试
支持在进行数据传输时插入 Parity 校验位以进行链路健康状态进行检测。注意 Parity 测试不会影响正常通路,被测电路在进行 Parity 校验位插入时会反压上层协议层,测试项见表 16:
表 16 Parity 校验功能测试项
T/CCIASC 055—2026
8.6 边带寄存器访问测试
支持通过FDI边带接口进行本端以及对端寄存器访问。访问不同地址位段的寄存器需要发送不同消息类型的请求。访问对端寄存器需通过本端的邮箱相关寄存器来实现。测试时,返回的消息状态必须为000b 代表 ”Successful Completion ”,测试项见表 17:
表 17 边带寄存器访问测试项
8.7 数据速率测试
本测试主要为测试不同链路目标速度下可以正常进行数据传输,测试项见表 18:
表 18 数据速率测试项
T/CCIASC 055—2026
8.8 支持链路层环回测试
链路层环回测试支持RDI和 FDI 两个环回点测试。测试时选择一个环回点并配置相应寄存器。链路层会自动发送规定的 Pattern 给对端,在数据到达换回点后环回到本端,本端链路层会自动进行数据对比。读取相应寄存器即可知道数据对比是否无误。具体测试项见表 19:
表 19 数据速率测试项
链路层FDI环回测试同时也涉及硅后合封跨芯粒验证,在测试平台配置FDI环回验证跨芯粒收发通路,测试项见表 20:
表 20 硅后环回测试项
9 物理层测试
9.1 概述
本章节对先进封装和标准封装的物理层通道互通测试进行说明,验证是否满足《人工智能芯片 面向芯粒的卡间互联接口技术要求》中第7.3 章节的定义。
9.2 先进封装以及标准封装测试
本测试针对不同封装进行测试,保证遵守相关相对应的先进封装或标准封装进行建链以及数据传输,测试项见表 21:
表 21 封装测试项
T/CCIASC 055—2026
9.3 通道反转测试
本测试针对通道反转测试,测试项见表 22:
表 22 通道反转测试项
9.4 数据接口降级测试(修复测试)
其中先进封装,有 64Lane, 如果使用降级的话,可以用作 32Lane,或者 16Lane;比如用作 16Lane 的时候,有 1 个 Lane 坏掉的情况下,会启用修复功能(repair) ,用冗余的 lane 替换掉坏的 Lane ,达到修复的目的。
本测试主要为测试链路初始化过程中能否正确触发数据接口降级,测试项见表 23:
表 23 数据接口降级测试项
9.5 PHY 环回测试
PHY 环回测试时配置相应寄存器后,本端 PHY 会自动发送规定的 Pattern 给对端,在数据到达对端PHY 环回点后环回到本端,本端 PHY 会自动进行数据对比,测试项见表 24:
表 24 PHY 环回测试项
PHY 环回测试同时也涉及硅后的PHY 通路验证,在测试平台配置 PHY 环回验证 PHY 收发通路,测试项见表 25:
表 25 硅后 PHY 环回测试项
T/CCIASC 055—2026
10 性能测试
10.1 概述
本文针对两卡直连方式进行测试,如图11,包括带宽测试、时延测试和应用测试。
图 11 性能测试拓扑
10.2 带宽测试
提供3种带宽测试命令,对应不同的传输类型,见表26:
表 26 带宽测试命令
测试步骤:
基础测试流程(以write_bw为例):
a) 服务器端启动被动模式
在服务器 A(如 IP:192.168.1.10)上运行命令,等待客户端连接:
write_bw # 默认监听所有端口,使用默认传输类型(RC:可靠连接)
b) 客户端发起测试
在客户端 B 上运行命令,指定服务器 IP 和测试参数:
write_bw 192.168.1.10 -s 1024 -t 60 -n 4
参数说明:
-s :消息大小(单位:字节,如 64、1024、4096、1048576 即 1MB)。
-t :测试持续时间(单位:秒,建议≥30 秒以稳定结果)。
-n :测试线程数(多线程可利用多队列提升带宽)。
-d :指定网卡设备。
10.3 时延测试
提供3种时延测试命令,对应不同的传输类型,见表27:
表 27 带宽测试命令
基础测试流程(以send_lat为例):
a) 服务器端启动被动监听
T/CCIASC 055—2026
在服务器 A(如 IP:192.168.1.10)上运行命令,等待客户端连接:
send_lat # 默认使用RC(可靠连接)传输,监听所有端口
b) 客户端发起时延测试
在客户端 B 上运行命令,指定服务器 IP 和测试参数:
bash
send_lat 192.168.1.10 -s 64 -n 100000 -t 0
参数说明:
-s :消息大小(单位:字节,核心测试 64B、128B、256B、1KB、4KB 等小消息)。
-n :测试迭代次数(建议≥10 万次,减少偶然波动影响)。
-t :测试持续时间(单位:秒,0 表示按-n指定的次数运行)。
-d :指定网卡设备(如mlx5_0,通过ibv_devices查看)。
-c :指定传输类型(RC可靠连接 /UC不可靠连接 /UD不可靠数据报,默认 RC)。
10.4 集合通信测试
集合通信(Collective Communication)是指多个节点 (≥2 个)通过协作完成的群体通信模式(如广播、汇聚、全交换等),广泛应用于高性能计算(HPC)、分布式机器学习等场景,其性能直接影响大规模并行任务的效率。执行集合通信操作具体见表28:
表 28 集合通信操作
数据使用建议:
a) 数据量规模支持单个token 数据量几 KB 到多个token 数据量数百 KB,大块数据搬移建议(1024MB、 512MB 、256MB),进行各通信操作的带宽测试,此外,可自定义规模,但应注明规模信息;
b) 在各数据量规模下,记录各规模中最高的带宽;建议记录数据搬移甜点的时数据大小。
T/CCIASC 055—2026
参 考 文 献