Skip navigation
Like what you’re reading?

生成式AI与大语言模型在电信中的应用评估

提供方式 English 简体中文
  • 大语言模型(LLM)已深刻改变了企业运营模式,尤其在电信行业。企业利用这些模型来改进客户服务、优化内部流程,获得显著优势(例如,快速准确地回答用户问题)。 
  • 本博文将深入探讨在电信领域应用大语言模型(LLM)面临的挑战,并阐述如何有效评估其应用成效。

Principal Data Scientist, AI Innovation and Incubation

Principal AI Technology Leader, Business area cloud and software services

Principal Data Scientist, Business area networks

Senior Data Scientist at Ericsson R&D

Senior Specialist, Language Modeling, Business area networks

Senior Data Scientist, Business area networks

Principal Researcher, Artificial Intelligence

标签
标签
#LLM
生成式AI与大语言模型在电信中的应用评估

Principal Data Scientist, AI Innovation and Incubation

Principal AI Technology Leader, Business area cloud and software services

Principal Data Scientist, Business area networks

Senior Data Scientist at Ericsson R&D

Senior Specialist, Language Modeling, Business area networks

Senior Data Scientist, Business area networks

Principal Researcher, Artificial Intelligence

Principal Data Scientist, AI Innovation and Incubation

投稿人 (+6)

Principal AI Technology Leader, Business area cloud and software services

Principal Data Scientist, Business area networks

Senior Data Scientist at Ericsson R&D

Senior Specialist, Language Modeling, Business area networks

Senior Data Scientist, Business area networks

Principal Researcher, Artificial Intelligence

标签
#LLM

什么是生成式AI?什么是LLM?

生成式A(I GenAI)是一项通过从现有数据中学习规律来创建新内容的技术。它可以处理多种数据类型,包括文本、图片、音频或结构化数据中的数值。

语言模型(LM)正在彻底改变我们与技术交互的方式。这些模型通过分析上文来预测语句中的下一个词,从而使交流变得更高效、更直观。某些模型采用简易统计方法,而另一些则运用名为神经网络的复杂系统。当模型参数量达到数十亿甚至上万亿规模时,即被称为大语言模型(LLM)。

 
在电信行业,LLM常用于聊天机器人、智能搜索,以及生成网络仿真所需的合成数据。这些场景的核心是回答用户关于电信服务的问题,也就是电信领域的问答(QA)任务。

目前基于电信领域数据专门训练的 LLM尚未普及。要让模型回答专业问题,一种有效方法是为模型提供与问题相关的领域知识。这种方法称为“检索增强生成”(RAG)。其核心在于,通过检索领域特定信息,并将其与用户查询组合成提示信息,为LLM生成回答提供上下文支撑。

电信场景的LLM评估主要分两步:
1. 筛选合适的模型;2. 评估其执行特定任务时的性能表现(即系统性能评估)。依据任务的复杂性及数据的可获取性,此过程可能需要迭代多次。

选择合适的LLM时,需要考量多重因素,包括可扩展性、稳定性、稳健性
( 低错误率),以及模型对电信领域的适应能力。为优化所选模型的性能,还需要依据其专项训练的任务类型来持续跟踪其性能。

此外,还需要系统地评估模型,确保其既能满足业务需求,也能保障理想的投资回报率(ROI)。

 
LLM主要基于互联网公开数据训练,虽然它们能生成新内容,但回答不一定可靠,尤其在电信等专业领域。它们有时会输出错误或不一致的内容,即“幻觉”(hallucination)现象。对企业尤其是对可靠性要求极高的电信行业而言,正确评估LLM的质量至关重要。因此,必须对模型进行电信领域专业化训练/调优。

在本篇博文中,我们将探讨针对电信领域问答任务选择与评估LLM时面临的三大关键挑战:数据、模型选择/适配以及问答任务LLM评估指标的选择,并重点关注适用于RAG方案的评估指标。

基于研究成果,我们总结出电信领域问答任务LLM选型的五大要点

  • 基于电信领域数据专项训练的模型(LLM),在问答任务中的表现显著优于通用模型。
  • 领域(如电信领域)专用模型需配备对应的基准测试数据集,以评估该模型的性能表现。
  • 模型评估通常需要使用同类LLM模型作为评估基准,这类模型被称作“专家LLM”(Oracle LLM)。该方法假定“专家LLM”熟知特定领域,故能对受训模型的性能做出判断。但需要指出的是,“专家LLM”并非绝对可靠。
  • 必须充分考虑LLM模型训练与部署阶段的成本与算力需求。
  • 生成式AI评估体系尚处发展阶段,应根据具体任务审慎选择评估指标。

 
在接下来的章节中,我们将深入探讨 AI系统如何处理各种类型的信息,包括文本、图片、音频和数值信息等。

解码AI核心技术:   词元(Token)、嵌入向量(Embedding)与RAG
方法

AI系统处理的数据种类繁多,比如语句中的词、图片中的像素、音乐中的音频,还有结构化数据中的数值。这些基本单元通常被称为“词元”(to- ken)。随后,词元会被转化为数值形式的向量。生成这些向量的模型称为“嵌入模型”(embedding model),而生成的向量则被称为“嵌入向量”(embedding)。嵌入向量通过计算这些向量之间的邻近度,来帮助模型识别语义上相似的内容。

在问答任务采用的RAG方案中,数据首先通过嵌入模型转化为向量,然后存入名为“向量数据库”的专用库中,如图1所示。当用户提问时,问题被转换为嵌入向量。通过比对嵌入向量的相似度,系统从向量数据库中检索出语义相近的数据块(data chunk)。这些被检索到的数据块与用户查询问题共同构成增强提示,交给LLM生成最终答案。该过程对应RAG方法中的三大核心环节:检索、增强与生成。

图1:基于电信领域适配模型的检索增强生成(RAG)基本流程

图1:基于电信领域适配模型的检索增强生成(RAG)基本流程

模型评估面临的挑战

选择LLM时的主要挑战之一是输出质量的评估,这涉及所用数据、评估指标,以及有没有可靠的“标准答案”可对比。下面几节将深入讨论其中几个挑战。

数据相关挑战

在评估机器学习模型时,必须严格防止训练集与测试集之间发生数据泄露,这样才能确保测试结果的准确性和可靠性。然而在评估许多LLM时,这个问题变得更为复杂:它们通常使用来自互联网的公开数据进行训练,根本无法完全分离这两个数据集。许多商用和开源LLM并未公开其训练数据的来源。虽然模型权重参数可能公开可用,但实际训练数据与具体流程通常不予公开。因此,在精确评估模型时,很难完全规避数据泄露的风险。此外,由于训练数据本身可能带有偏见,L LM的输出结果有时也会出现偏差。

要有效评估LLM的实际效能,我们需要构建与特定领域及任务相匹配的定制化评估数据集。虽然现有开源数据集和排行榜(如H ugging Face)为LLM性能提供了基准参考,且电信领域已有TeleQnA 、G SMA Open-Telco LLM Benchmarks等公开数据集,但这些往往无法满足所有业务场景下的特定需求。因此,创建针对特定领域和任务的专用数据集显得尤为重要且必要。理想的AI 数据集应覆盖多样化的数据来源、类型及任务变体。当特定应用缺乏现成数据集时,需通过人工方式构建。TeleQuAD就是这样一个定制化数据集,其内容源自3GPP标准文档中的问答对。尽管人工构建方式是首选方案,但存在耗时费力、难以扩展的问题。当前LLM 技术的发展为合成数据集的创建提供了新思路。具体而言,基于提示的指令设计、在提示中提供少量示例,或通过从分类体系的不同节点采样以创建基于分类体系的指令数据集,都在合成数据集的生成中发挥着重要作用。

指标相关挑战

基于LLM的RAG方案由多个AI模型组件构成。虽然检索模型组件的评估指标已相对成熟,但生成器的效能评估及整体系统的协同效果衡量仍是持续发展的研究领域。L LM评估需综合考量所生成答案的事实准确性、相关性和语义相似度。模型必须具备领域认知能力并经过针对性训练或适配,特别是在电信等专业领域。为此,在此项语义相似度评估中,我们采用经过电信领域适配的嵌入模型。无独有偶,当前学术文献也将规模更大的LLM视为专家评估器(或称“专家LLM”)来评判答案质量。同样,这些“专家LLM”同样必须具备领域感知能力。另一个挑战在于,L LM常常会产生“ 幻觉”并给出冗长的答案。因此,评估工作必须依据具体任务或应用所期望的详细程度来进行。

LLM评估标准

模型选型标准

Hugging Face等排行榜会报告LLM在各种任务上的宏观综合性能,并采用相应的标准化基准数据集。虽然开发者可参考这些评分进行LLM初步选型,但最终决策仍需综合考虑企业业务需求、风险评估和合规框架等因素。此外,一些重要的模型遴选标准还包括:许可证类型、数据处理方式、模型体量、再训练的便捷性,以及基础设施、时延、可配置性、可靠性、可扩展性、一致性和成本等部署需求。

系统(任务)评估标准

一般而言,为提升特定任务的性能,通常需要对LLM进行领域适配或微调。系统评估标准重点关注:模型对用户指令的响应质量,以及上下文变化时的输出稳定性与可靠性。模型筛选与评估往往需要经过多轮迭代,才能持续优化任务表现。

RAG评估指标

要评估基于LLM的问答RAG应用,
需要采用多维度评估指标(示例如图2)。这些指标可帮助衡量系统性能表现,可大致划分为传统(统计)方法和基于语言模型的方法两大类。对于检索、分类等传统任务,常使用准确率、精确率和召回率等指标;然而在评估R AG系统的问答能力时,我们还需要引入以下指标:

  • 词法(L exical)指标:通过编辑距离(ed it distance)、BL EU 、R OU- GE、WER等方法评估字符或词汇级相似度。
  • 基于嵌入向量的指标:包括衡量语句相似度的BERTScore和BARTS- core,以及其他语言类指标MEN - LI、BLEU-RT。
  • 基 于“ 专家LLM ”的 指标 :采 用 GPTScore和SelfCheck-GPT等评估事实准确性与相关性等维度。

我们建议组合使用多种指标,以全面评估模型在不同应用/ 任务中的综合表现。

下表1 展示了RAG系统各组件的评估方式及对应指标。在电信等技术领域,通用LLM 与经过领域适配的 R AG 模型给出的答案可能大相径庭,直接影响相关指标的度量值。

Evaluation components System/Task-based metrics
Retrieval   Prec@K, Recall@K, F-1Score, NDCG, MRR,…
Generation Lexical-based Edit distance, N-gram-BLEU, ROUGE, METEOR,…
Embedding and Language-based BERTScore, BARTScore, MoverScore, Cosine similarity, MENLI, BLEU-RT
Oracle LLM-based Faithfulness, answer relevancy, factual correctness, GPTScore, Summarization score, SelfCheckGPT,…

Table 1: Evaluation components and representative metrics for an exemplary QA task using RAG architecture

下图展示了一个示例问题及其对应的一个相关上下文和两个无关上下文,并提供了分别采用通用(公开)嵌入模型与电信领域适配嵌入模型所得出的相似度得分。

问题:Serving RNS何时向新RNS发送消息?

相关上下文:增强型SRNS 重定位。增强型SRNS重定位流程成功执行如下:当Serving RN S(RNS- A)决定执行增强型SRNS重定位程序时,将向新RNS(RNS-B)发送IUR-EN- HANCED-RELOCATION-REQUEST消息。该消息应包含在RNS-B 中建立CS无线接入承载所需的所有必要信息。

无关上下文1:若实施IMEI追踪功能,追踪设施的使用和管理方式(包括受国家法律法规限制的情形)将由 PLMN运营商自主决定。可追踪某个 IMEI,以通过EIR查得上报的故障或被盗设备的当前IMSI、位置或行为。本技术规范阐述了处理IMEI追踪的一种具体方法,即通过VLR进行追踪。

无关上下文2:移动电话通过监听主同步信号(PSS)与辅同步信号(SSS)实现与移动网络同步。水平间隔为 OFDM符号位。

 

相似度得分

图2:电信领域示例问题及上下文,以及使用领域适配模型和通用(公开)模型计算出的与问题的相似度得分

领域适配模型在相关上下文上得分更高(0.62),在无关上下文上得分更低
(0.21和0.22)。而通用模型虽然在相关上下文上得分更高(0.72),但对相关上下文(0.72)和无关上下文(0.57和0.60)的区分度很差。这可能导致无关内容被误选进前K条检索结果。这也说明,使用领域专用模型对提升准确率至关重要。

下表展示了几组示例问题对应的RAG评估指标(包括BLEU、BERTScore、事实准确性与答案正确性)。该表格列示了以下内容:问题、标准答案(标准答案)、未经电信领域适配的通用 LLM(GPT-4  Turbo)的答案、基于RAG架构的通用LLM的答案、经电信领域适配的LLM(未结合RAG)答案,以及采用电信领域适配检索器的RAG系统输出。

表2:使用LLM直接回答与RAG方法的两个电信领域问答实例,分别涵盖领域适配与非适配场景,其中部分指标采用Mistral 12B作为“专家LLM”。

表2:使用LLM直接回答与RAG方法的两个电信领域问答实例,分别涵盖领域适配与非适配场景,其中部分指标采用Mistral 12B作为“专家LLM”。

通用LLM生成的回答与标准答案偏差较大,导致各项指标得分普遍偏低。但当使用电信领域适配的RAG系统(即检索器或生成器都经过电信数据训练)时,输出答案更接近标准答案,各项得分也明显更高。这些例子说明,用电信数据专门训练模型,能显著提升电信相关问题的回答准确率。

有时,侧重于措辞贴近度的词法指标与相似度指标并不能真实反映所生成答案与标准答案的吻合程度(参见表2第一行中的BLEU与BERTScore)。然而在另一些情况下,回答与标准答案高度一致,这些指标的评分也会显著升高(参见表2第二行中的BLEU得分)。我们发现,像BERTScore这类指标未必总能体现答案的真实准确性。相比之下,着眼于事实正确性的“专家LLM”模型指标能更清晰地揭示回答的准确程度。因此我们得出结论:仅靠单一指标无法全面评估系统性能,必须综合运用多种指标,从不同维度评估回答质量。

上述结果清晰表明,领域感知模型能有效提升系统性能。但需注意,这些模型的适配、训练和微调需要投入大量精力与成本。在决定特定任务适合使用哪种模型和方法时,必须考虑这些因素。

总结

本系列博文第一部分聚焦于文本问答任务。我们讨论了科学评估LLM的重要性,以及这类模型带来的评估难点。由于不同应用需考量的因素各异,衡量RAG方案在问答任务中的有效性始终存在难度。同时,作为评估基准的“专家LLM”本身也存在幻觉问题,因此必须审慎选择评估指标体系。由此可见,生成器模型的评估难题尚未完全解决。在后续博文中,我们将继续探索其他任务(如文本转 SQL、代码生成)的评估指标以及新兴的生成式AI范式(包括AI智能体)。

The Ericsson Blog

Like what you’re reading? Please sign up for email updates on your favorite topics.

Subscribe now

At the Ericsson Blog, we provide insight to make complex ideas on technology, innovation and business simple.