Skip navigation
1 min read
JUN 04, 2026
Authors
P. Soldati, C. Tatino, B. Demirel, J. Wszolek, C. Padala

当AI没有时间思考:无线接入网 (RAN)中的实时推理

实时无线接入网功能需要在微秒级的时间内完成,这让人工智能(AI)根本没有时间思考。在这种 条件下,推理是否可行,并不只是取决于硬件能力是否更强,还取决于能否将模型复杂度与最差情 况下的端到端执行预算以及计算平台能力进行精确匹配。
提供方式:

AI正迅速成为提升下一代RAN性能、运营效率和自主能力的战略催化剂。

在RAN协议栈的各个层面,研究人员正在探索基于AI的方法:从物理层(L1)的信号检测、信道估计和波束赋形,到数据链路层(L2)的用户与资源调度,再到网络层(L3)的流量引导、负载均衡和功能自优化。然而,用AI替代实时RAN功能所面临的挑战,使得AI-for-RAN从根本上不同于传统的AI应用领域。

实时RAN操作:

理解其要求

不同于基于云的服务或离线分析中的传统AI应用⸺这类应用通常可以在推理时延与模型复杂度或准确性之间进行权衡,而实时RAN运行必须满足严格的时序约束。对于大多数L1–L2功能而言尤为如此,因为它们需要在几十微秒量级的时间尺度内完成处理,以匹配物理层传输时间线;而较高层级的RAN功能通常能够容忍更长的决策时延。

在这些条件下,AI模型在推理期间没有时间思考。模型执行必须在固定且极短的时间预算内完成,这意味着系统没有机会采用迭代计算、自适应复杂度调整,也无法在时延与准确性之间进行权衡。因此,最坏情况下的端到端(E2E)推理路径已不仅仅是性能衡量指标,而是决定AI能否在系统中部署的关键系统级要求。

与此同时,AI原生RAN功能必须在高度异构且快速变化的条件下可靠运行,包括多样化的部署方式、配置、移动模式、流量特征和无线环境。要实现这种稳健性,通常需要表达能力更强的模型⸺往往体现为更多参数和更复杂的模型架构⸺这会在推理时转化为更高的计算需求。

然而,在实时RAN系统中部署此类模型并不容易:AI推理必须满足微秒级时限要求,同时还要运行在严格受限的计算资源条件下,这直接限制了可部署模型架构的复杂度。由此产生了一个根本性矛盾:一方面,RAN需要表达能力强、泛化能力好的AI模型;另一方面,RAN平台又受到严格的实时低时延和资源约束。因此,将AI引入商用运行的RAN,不仅要求提升模型的学习性能,还需要具备工程智能,使其能够在极端时延和算力约束下稳定、可靠地运行。

在RAN中部署AI:

实时推理约束

大多数当代AI应用,如对话式智能体和大规模推理系统,能够容忍从数百毫秒到数秒的推理时延,并依赖充足且具有弹性的计算和内存资源。图1表明,RAN系统在完全不同的条件下运行。

图 1

图1:AI-for-RAN与传统AI应用在执行时延和计算预算方面的比较

时延关键型AI

AI在RAN中的任何应用都会继承其拟替代功能的执行时延预算。对于高层网络编排和管理任务而言,这些要求相对宽松;但对于直接支持空口传输的实时L1–L2功能而言,这些要求变得极其严格,如图1所示。

物理层和数据链路层的联合操作必须在一个传输时间间隔(TTI)的边界内完成。在5G新空口(NR)中,TTI会根据物理层参数集的不同而变化,范围从1ms到低至62.5μs,同时还必须预留数据准备、信号到资源映射以及传输所需时间。

对于许多L1功能,执行时延预算被限定在单个正交频分复用(OFDM)符号的持续时间内⸺在中频部署中约为30μs,在高频场景中可低至4μs–8μs。其他L1功能可以基于时隙时长运行;按照5G NR参数集,高频和中频场景的时隙级预算分别可达到50μs和400μs。类似地,L2功能共享一个聚合执行窗口:高频部署约为50μs,中频
部署约为200μs–300μs,如图2中的表格所示。

Network functionality Execution-latency budget
Mid-band High-band
L1 - Symbol related ≈30μs ≈4μs-8μs
L1 - Slot related ≈400μs ≈50μs-100μs
L2 - Aggregate ≈200μs-300μs ≈50μs
L2 - LA ≈10μs-30μs ≈5μs

图2:不同5G NR物理层参数集下L1–L2操作的执行时延预算

尽管这些时间窗口极短,L1–L2处理仍涉及计算密集型操作。例如,L2中的用户和资源调度就是复杂的组合优化问题。

为了确保在整体时序内完成这些计算密集型任务,链路自适应(LA)等计算负载较低的流程通常只会被有意分配到可用执行窗口中的一小部分。因此,LA必须在几十微秒量级内完成执行。该执行窗口需要覆盖由同一基带单元服务的所有无线小区中全部已调度的用户设备(UE),如图2所示。

因此,当AI用于替代某项L1–L2功能时,其完整的端到端(E2E)推理执行路径(涵盖输入数据获取与转换、内存搬移、模型加载开销以及模型推理本身的时延)必须严格满足原生RAN功能所对应的执行时延预算。

受计算预算约束的AI

实时RAN功能的执行时延预算也施加了严格的计算预算,即在可用时间窗口内可以执行的最大计算次数。每个问题实例的有效预算,从根本上取决于底层计算平台的效率、并行度和开销。

传统上,RAN计算平台是为支持L1、L2和L3实时操作而专门打造的,因此围绕紧密流水线化、确定性工作流进行了高度优化。它们通常集成多个通用处理单元(如CPU和数字信号处理内核)以及专用加速器(如专用集成电路和现场可编程门阵列),用于卸载快速傅里叶变换、检测、解码和预编码等频繁执行且计算密集的内核任务。这些加速器通过高度专用化的数据流和存储层次结构来实现高计算吞吐量。

AI推理与这些计算密集型内核具有某些共同特征,因此原则上也可以借助传统RAN加速器来执行并从中受益。图形处理器(GPU)等通用AI加速器可能为模型推理带来更高的峰值吞吐能力和更强的可编程性。不过,这类加速器也可能引入不可忽视的额外开销,例如数据搬移、加速器访问以及计算核函数调用等带来的时延开销。在严格的实时约束下,这些开销会直接减少可用于推理的有效计算预算。

图3展示了在不同模型大小和计算平台下,推理时延与平台开销之间的权衡关系,并将其与L2中LA的典型执行时延预算进行了比较;图中假设使用32位浮点精度(FP32)以及不同批处理大小。

图 3

图3:最坏情况下的推理时延与模型规模、计算平台之间的关系,并与L2链 路自适应(LA)的微秒级执行时延预算进行比较。 注:所有基于Intel Xeon Gold 6438N的基准测试均在单个CPU内核上执行。

对于小型AI模型,GPU相关开销是推理时延的主导因素,无论是否进行批处理都是如此。在这一场景下,尽管CPU的峰值吞吐能力较低,基于CPU的推理往往能够实现更低的时延,并且能够满足L2执行时延边界要求。然而,即便面对小型模型,随着批量规模增大,基于CPU的推理在扩展性方面也表现不佳。

当模型规模更大或批量更大时,基于GPU的推理会更具优势,因为此时计算需求足够高,可以摊薄平台开销。尤其需要注意的是,即便是规模适中的较大AI模型(参数量在50万至100万之间),仅推理时延本身就会超过两类计算平台上LA的执行时延预算。

弥合模型表达能力与实时可行性之间的差距

在异构且动态变化的RAN环境中,为实现稳健的泛化,AI模型需要具备更强的表达能力;而实时RAN操作又对执行时延预算有严格要求。要缓解这两者之间的矛盾,需要在系统设计上进行审慎取舍。

一种自然的应对措施,是将GPU等更强大的AI加速器集成到RAN计算平台中。然而,这会显著增加RAN产品的资本支出、运营成本和整体能耗。更重要的是如图3所示,在实时RAN约束下,推理可行性并不只取决于峰值计算吞吐量,还受到微秒级执行预算和平台特定开销的制约。关键的是,这些结果表明,即便使用最先进的AI
加速器,中等表达能力模型(约100万个参数)的推理也会大幅超过大多数L1–L2 RAN功能的执行时延预算。因此,即使采用GPU,在TTI时间线内完成推理仍然具有挑战性。

另一种选择是放宽执行时延预算,即将推理与物理层传输时间线解耦,从而扩展可用的执行窗口。对于某些时间关键型L1–L2功能而言,这种方式可能可行,但额外的执行余量通常只限于几十或几百微秒。例如,在以下行通信为主的时分双工(TDD)配置中,如果每个无线帧只有一个上行时隙,则可以在收到新的UE反馈后触发LA推理,并在后续下行时隙中复用该推理结果。然而,LA推理值仍必须在下一次下行传输之前可用,这最终限制了执行窗口的有效延长。

批处理推理提供了另一种手段:通过聚合多个推理请求,可以摊薄固定开销并提升硬件利用率。然而,只有在各个中间决策之间的推理结果相互独立时,批处理才可行。这一条件在某些场景下成立,例如L1信号检测和解码;但在多用户MIMO调度和LA等紧密耦合或顺序执行的任务中并不成立,因为中间决策会影响后续推理结果所需的输入。

总体而言,加速器集成、延迟推理和批处理能够缓解一些具体的部署挑战,但并不能作为通用解决方案。当AI用于替代实时RAN功能时,其可行性最终取决于:在最坏情况下,完整的端到端执行路径能否落在应用的时间预算内,以及是否超出底层平台的计算能力限制。

从这些限制中可以得出一个更根本的结论:RAN中实时AI推理的可行性,核心并不是硬件扩展问题,而是模型设计问题。因此,面向实时执行对模型维度进行显式设计,应成为一项基础性设计原则,而不能仅仅依靠提升计算能力或采用系统级折中方案来容纳更大规模的模型。

需要强调的是,模型规模设定并不意味着只能训练表达能力有限的小模型。恰恰相反,它将学习能力与部署可行性解耦:在训练阶段,可以使用规模更大、表达能力更强的模型来刻画RAN环境的复杂性;而在部署阶段,则采用紧凑型模型来满足实时执行要求。因此,关键问题在于,如何在不牺牲性能的情况下,将高容量模型
所具备的稳健性和泛化能力,系统性地迁移到满足时延约束的实现中。这一问题也自然引出了模型蒸馏等结构化方法。

知识蒸馏与策略蒸馏

模型蒸馏是一种通用的知识迁移框架,在这一框架中,学生模型通过模仿而非直接监督来学习复制一个或多个教师模型的行为。这一概念最初是为压缩模型而提出的,随后在监督学习(SL)中被形式化为知识蒸馏,并进一步扩展到强化学习(RL),形成策略蒸馏。

在知识蒸馏中,学生模型通过最小化散度损失,学习匹配表达能力更强的教师模型所输出的软化分布。这种方法能够在保持准确性的同时,将大模型压缩为较小模型。策略蒸馏则将同样的思想应用于强化学习:训练学生模型来模仿教师模型在不同环境状态下采取的策略。该方法可用于模型压缩,以及多任务知识迁移与统一,
使多个专用教师策略能够整合为一个通用型策略。

蒸馏的一个重要设计维度,在于单教师蒸馏与多教师蒸馏的区分。单教师蒸馏通过训练学生模型来复现某一个专家模型的行为,常用于模型压缩;而多教师蒸馏则将多个专用教师模型的知识汇聚到同一个学生模型中。这一范式已在多任务学习中得到广泛研究:多个针对不同环境或任务进行专门训练的教师模型,可被蒸馏为一个统一的多任务策略,从而能够在多样化任务或环境中运行。

面向RAN的AI规模设定

多种形式的模型蒸馏都可以用于设定AI模型规模,使其替代实时L1–L2RAN功能,并满足相应的执行时延和计算预算。

RAN应用中的监督学习

监督学习应用覆盖广泛的L1–L3功能,从信道估计一直到流量需求、资源利用率、小区负载和移动性的预测。由于监督学习模型训练不要求模型与实时运行的RAN环境进行交互,因此计算、内存和时延约束只在模型部署后的推理阶段适用。训练与推理的分离带来了灵活性:高容量模型可以离线训练,不受运行时限制约束。

在这一场景下,有几种蒸馏策略适合用于将高容量教师模型的泛化能力迁移到紧凑学生模型中,而这个学生模型的规模则被设定为满足RAN应用的执行时延和计算预算。单教师蒸馏可以将大模型压缩为较小的学生模型。或者,也可以使用多教师蒸馏,将多个在不同RAN条件下基于不同数据训练的专门化教师模型,组合成一个更小的统一学生模型。这使得构建紧凑模型成为可能:这些模型既能在异构和动态RAN环境中保持稳健性,又不超出实时RAN操作所施加的严格执行时延和计算预算。

RAN应用中的强化学习

强化学习通常可大致分为离线和在线两种设置。离线强化学习完全基于预先收集的数据集进行学习。在这种情况下,策略蒸馏遵循的原则与监督学习类似:在离线强化学习训练阶段,可以使用不受运行时约束限制的大容量模型;而在随后的蒸馏阶段,则根据目标RAN功能的计算能力和时延边界,对学生模型进行规模设定。

相比之下,在线强化学习训练中的策略评估要求模型持续与环境交互,以生成新的训练数据样本。因此,在实际运行的RAN中,在线强化学习要求模型在整个训练阶段都必须满足时延可行性要求。这一约束限制了在线强化学习设置中对任意高表达能力模型的使用。相反,必须将模型规模设定明确作为核心设计要素,以确保每一次策略迭代都满足实时可行性要求。

在这种情况下,同样可以通过策略蒸馏来实现模型规模设定,其核心思路是将策略学习过程与实时策略执行过程解耦。然而,根据强化学习过程生成训练数据的方式,策略蒸馏既可以以离线模式运行,也可以以在线模式运行。在离线蒸馏中,首先通过与环境交互来预训练一个或多个教师模型,随后生成蒸馏轨迹,用于训练学生模型。在在线蒸馏中,教师模型持续与环境交互并不断学习,而学生模型则持续从教师模型中接受蒸馏,利用新生成的轨迹跟踪教师策略的动态演进。因此,无论采用哪种方式,都需要教师模型与环境进行交互。

至关重要的是,在时延敏感型RAN系统中,无论采用离线蒸馏还是在线蒸馏,都不能假定实时控制环路中可以运行一个不受约束的大容量教师模型,然后再对其进行压缩。在这一场景下,任何用于数据生成的教师模型,都必须符合目标RAN功能在执行时延和计算资源方面的边界约束。因此,必须从一开始就将蒸馏机制纳入训练架构,并在整个在线强化学习过程中强制实施满足时延可行性要求的模型规模设定。

基于上述观察,我们提出了两条互补路径,用于为实时RAN操作中的在线强化学习应用设定模型规模。第一条路径侧重于策略聚合,而不是模型压缩。该路径依赖多教师离线蒸馏:每个教师模型都预先按照可用的推理执行时延预算完成规模设定,并针对特定RAN条件进行训练,例如不同的移动性模式或部署拓扑。尽管该路径
使用的是表达能力有限的小型教师模型,但离线多教师策略蒸馏可以将这些专门化行为融合到一个更通用的学生策略中。

第二条路径是时延感知型在线蒸馏。在这种路径下,大容量教师模型基于网络中多个执行者生成的数据进行集中训练,学习具有较强泛化能力的策略。规模较小的学生模型则按照RAN平台的约束进行规模设定,并在训练过程中遵循在线蒸馏框架持续从教师模型中接受蒸馏,以跟踪教师策略的动态演进;实际部署时,部署到嵌入RAN节点的分布式执行者中的,是这些学生模型,而不是教师模型,由其与环境进行交互。通过这种策略,系统从一开始就通过模型规模设定,确保推理过程满足时延可行性要求,同时生成能够继承强表达能力教师模型泛化能力的学生模型。

时延感知在线蒸馏过程的数值示例

为了说明在现实RAN约束下如何实际应用时延感知蒸馏,我们以一个基于强化学习的链路自适应(LA)示例为例。图4展示了在严格RAN时延和计算约束下,为在线强化学习训练设定AI模型规模的可行性。该图总结了使用所提出的时延感知在线蒸馏过程,针对5G RAN平台上LA的执行时延和计算预算定制强化学习模型时所实现的性能。

该设置采用一个八层多层感知机(MLP)教师模型(约11.5万个参数),其推理时延超过LA的实时执行预算;同时采用三个逐渐变小的学生模型,其中最小的一个由三层组成,每层32个神经元(约3500个参数)。这些学生模型可以在CPU平台上执行,并符合图3中确定的LA执行时延边界。为了对比,我们还使用标准强化学习流程训练了一个与最小学生模型规模相同的控制模型,以说明直接训练低容量策略的局限性。

教师模型基于分布式强化学习架构进行训练。该架构结合了分布式策略评估和域随机化方法,以提升模型面对RAN环境中部署差异、业务流量波动以及用户动态变化时的稳健性。训练期间,按照RAN约束进行规模设定的学生模型会定期接受蒸馏,并被部署到分布式执行者中生成数据,从而确保所有在线策略评估均满足RAN执行时延限制。

图4所示的结果表明,时延感知在线蒸馏可以生成紧凑的学生模型;这些模型既能较好地保留教师模型的性能和泛化能力,又能满足目标RAN平台对实时LA时延和计算预算的严格要求。泛化能力是在三个未见过的基准部署场景上进行评估的,结果显示蒸馏后的学生模型在所有场景中均能持续匹配教师模型。相比之下,直接训练低容量模型会导致10%至25%的性能损失,具体取决于测试环境。这突显了蒸馏对于生成既符合RAN要求又稳健的强化学习策略的必要性。

图 4

图4:使用时延感知在线蒸馏过程进行模型规模设定⸺性能与泛化 能力保持情况

从图4所示的结果中可以得出两个关键结论:

  1. 只要将高容量教师模型蒸馏为具备实时能力的学生模型,部署约束就不必限制训练模型的大小和表达能力。
  2. 在时延关键型RAN操作中,AI推理无法仅通过硬件扩展实现;它需要采用有原则的、约束感知的方法,将模型复杂度需求与最差情况下的端到端执行预算和平台约束对齐。

结论

将AI集成到实时无线接入网(RAN)中面临独特挑战:模型推理必须在微秒级执行时限内完成,同时还受到处理能力的严格约束。这些要求限制了可部署模型的复杂度,从而造成稳健泛化所需的模型表达能力与实时执行约束之间的不匹配。

因此,AI模型部署是否可行,并不只取决于硬件能力的扩展,而更取决于是否能够按照明确原则进行模型规模设定,使之与最坏情况下的端到端执行时限以及平台特性相匹配。对于拟替代时延敏感型L1–L2功能的AI系统,必须明确面向确定性实时运行进行设计。

在这一框架下,模型蒸馏提供了一种系统化机制,可将模型表达能力(即训练阶段的模型容量)与部署阶段的推理可行性相解耦。通过将高容量模型的泛化能力迁移到紧凑且符合RAN约束的模型实现中,蒸馏能够在严苛的实时约束下保持稳健性能,同时减少推理环节对通用AI加速器的依赖。

References

Authors

Pablo Soldati
Pablo Soldati
joined Ericsson in 2018 and is currently a principal researcher for AI in radio networks. His research interests include AI, optimization theory and wireless networks. Soldati holds a Ph.D. in telecommunications from KTH Royal Institute of Technology in Stockholm, Sweden.
Cristian Tatino
Cristian Tatino
joined Ericsson in 2021 and is currently a concept researcher whose work focuses on AI for RAN automation. His research interests include AI, optimization theory and wireless networks. Tatino holds a Ph. D. in telecommunications from Linköping University in Sweden.
Burak Demirel
Burak Demirel
joined Ericsson in 2020 and is currently a master researcher for AI in RAN. His work focuses on AI, RL, control theory and cyber-physical systems. Demirel holds a Ph.D. in automatic control from KTH Royal Institute of Technology.
Jacek Wszolek
Jacek Wszolek
bridges industry and academia as a senior specialist at Ericsson and an assistant professor at the AGH University of Krakow in Poland. Specializing in RAN compute machine learning architecture, he focuses on advancing machine learning (ML) capabilities within RANs. Since joining Ericsson in 2019, his work has centered on the intersection of ML and broadband wireless communications. Wszolek holds a Ph.D. in telecommunications from AGH University in Kraków, Poland.
Chakri Padala
Chakri Padala
joined Ericsson in 2007 and is part of the GFTL AIII (AI Innovation and Incubation) team in Bangalore, India. He specializes in building hardware-near software and infrastructure with a current focus on AI hardware. Padala holds an M.S. in computer science from the University of Louisiana, USA.