已有 577 人访问
许祥 ID.17128
阅读(459)
博客(0)
许祥的阅读

如何分步拆解LLM的深度破解—核心技法与防御策略全解析
​​如果你曾听说过LLM红队演练,那么你可能已经遇到过几种著名的攻击方式:提示注入、数据投毒、拒绝服务(DoS)攻击等。然而,在利用LLM生成不良或有害输出方面,没有什么比LLM深度破解更强大的了。事实上,这项研究表明,像GPT-4这样的先进模型仅通过几次深度破解查询就被成功攻破。尽管如此,虽然LLM深度破解已成为广泛讨论的话题,但其定义在不同情境下可能有所差异,导致人们对其真正含义产生困惑。别担
112°/ 2025-08-12/1120 人阅读 / 0 人点赞 / 0 条评论

如何从零开始构建LLM评测框架
​​假设一个场景:当我正准备第44次修改我的提示模板时,收到了经理的消息:“嘿Jeff,希望你今天一切顺利。你看到新开源的Mistral模型了吗?听说它比你现在用的LLaMA-2效果更好,我想让你试试看。”哦不,我心里想,又来这一套。这种令人沮丧的打断(我指的是新模型的不断发布)正是为什么,我作为DeepEval的创建者,今天要教你如何构建一个LLM评测框架,来系统性地为你的LLM系统找出最佳超参
105°/ 2025-08-12/1058 人阅读 / 0 人点赞 / 0 条评论

可观测性究竟是什么? 终极实施指南
​​经过数月紧张的评测、红队测试以及对你LLM应用程序数百条提示的反复迭代,发布日终于到来。然而,随着最后倒计时的滴答声,那些熟悉的疑虑依然挥之不去:你真的考虑周全了吗?会有人发现漏洞吗?你的模型真的准备好面对现实世界了吗?不,说真的,它真的准备好了吗?事实是,无论准备多么充分,都无法测试部署后可能出现的每一个潜在问题。但好消息是——你并不孤单。借助正确的LLM监控、监督和可观测性工具,你可以有效
81°/ 2025-08-12/812 人阅读 / 0 人点赞 / 0 条评论

以LLM为评委的规模化LLM评测权威指南
​​最近,我听到“LLMasaJudge”这个术语的频率比以往任何时候都高。虽然这可能是因为我从事LLM评测领域的工作,但LLM评委正在接管,因为很明显,与速度慢、成本高且劳动密集型的人类评测者相比,它是LLM评测的更好替代方案。然而,LLM评委确实存在局限,不加谨慎地使用只会带来挫败。本文将分享我目前所知的关于利用LLM评委进行LLM(系统)评测的一切要点,包括:什么是作为评委的LLM,以及它为
151°/ 2025-08-12/1516 人阅读 / 0 人点赞 / 0 条评论

一步步指导如何评测LLM文本摘要任务
​​当你想象一篇10页研究论文的优秀摘要应该是什么样子时,脑海中很可能会浮现出一份简洁全面、准确捕捉原文所有关键发现和数据,并以清晰易懂形式呈现的概述。这对我们来说可能极其显而易见(毕竟,谁不知道好摘要长什么样呢?),但对于像GPT-4这样的大型语言模型(LLMs)而言,要准确可靠地把握这一简单概念来评测文本摘要任务,仍是一个重大挑战。本文将分享我们如何构建自己的LLM评测体系(使用LLMs评测的
112°/ 2025-08-12/1125 人阅读 / 0 人点赞 / 0 条评论

RAG 评估:CICD 中单元测试 RAG 的权威指南
​​检索增强生成(RAG)已成为为LLMs提供额外上下文以生成定制输出的最流行方法。这对于聊天机器人或AI代理等LLM应用来说非常有用,因为RAG能为用户提供比GPT-4等LLMs训练数据更为情境化的体验。不出所料,LLM从业者在开发过程中很快就遇到了评测RAG应用的问题。但得益于RAGAs的研究,在2024年评测RAG系统的通用检索器-生成器性能已是一个基本解决的问题。别误会,构建RAG应用仍具
56°/ 2025-08-12/566 人阅读 / 0 人点赞 / 0 条评论

LLM红队测试:LLM红队测试完整实战指南
​​还记得Gemini在生成图像时过于追求政治正确,将所有人类面孔都表现为有色人种的那次吗?虽然这对一些人(如果不是很多人)来说可能很滑稽,但显而易见的是,随着大型语言模型(LLMs)能力的提升,它们的漏洞和风险也在同步增加。这是因为模型的复杂度与其输出空间直接相关,这自然增加了出现不良LLM安全漏洞的机会,例如泄露个人信息、生成错误信息、偏见、仇恨言论或有害内容。以Gemini为例,其训练数据中
148°/ 2025-08-12/1488 人阅读 / 1 人点赞 / 0 条评论

LLM基准测试入门
​​想象一下,LLMs的参数规模从70亿到超过1000亿不等,一代更比一代强。其中包括巨头级模型:Mistral70亿、Mixtral8x70亿、Llama700亿,以及庞大的Falcon1800亿。同时也有像Phi1、Phi1.5和Falcon1B这样的模型,仅以10亿到40亿的轻量级架构追求相近的性能。无论规模大小,所有模型都怀揣共同目标:掌握语言艺术,在文本摘要、问答和命名实体识别等任务中表
49°/ 2025-08-12/491 人阅读 / 0 人点赞 / 0 条评论

LLMs驱动的合成数据生成:技术全解与实践权威指南
构建一个大规模、全面的数据集来测试LLM的输出可能是一个耗时、昂贵且充满挑战的过程,尤其是从零开始。但如果我告诉你,现在只需几分钟就能生成你花费数周精心打造的数千个高质量测试用例,会怎样呢?合成数据生成利用LLMs来创建高质量数据,无需手动收集、清理和标注海量数据集。借助如GPT-4这样的模型,现在可以在更短时间内合成出比人工标注更全面、更多样化的数据集,这些数据集可用于在LLM评测指标的帮助下对
119°/ 2025-08-12/1197 人阅读 / 0 人点赞 / 0 条评论

LLM 评测指标:终极 LLM 评测指南
​​尽管评测大型语言模型(LLMs)的输出对于任何希望部署稳健LLM应用的人来说都至关重要,但LLM评测对许多人而言仍是一项挑战性任务。无论你是通过微调提升模型准确性,还是增强检索增强生成(RAG)系统的上下文相关性,了解如何为你的用例开发和选定合适的LLM评测指标集,对于构建坚不可摧的LLM评测流程至关重要。本文将带你全面了解LLM评测指标,并附代码示例。我们将深入探讨:什么是LLM评测指标,它
129°/ 2025-08-12/1296 人阅读 / 0 人点赞 / 0 条评论