已有 577 人访问
许祥 ID.17128
阅读(459)
博客(0)
许祥的阅读

LLM 基准测试详解:全面解析 MMLU、HellaSwag、BBH 及其他
​​就在早些时候,Anthropic公司推出其最新Claude-3Opus模型;而一周前,Mistral的LeLarge模型刚刚面世;更早些时候,谷歌的GeminiUltra1.5在Ultra1.0发布后不久便接踵而至。面对LLM以惊人速度密集发布的现状,如何通过标准化任务集量化评测模型性能已成为当务之急。那么核心问题在于——究竟该如何实现?LLM基准测试为评测LLMs在多任务场景下的表现提供了结
233°/ 2025-08-12/2332 人阅读 / 0 人点赞 / 0 条评论

LLaMA 3微调终极指南:附大语言模型评测全解析
​​与依赖OpenAI的GPT等专有基础模型相比,微调大型语言模型(LLM)能带来诸多优势。想想看,推理成本降低10倍,每秒生成的令牌数提升10倍,还无需担忧OpenAI在其API背后进行的任何不透明操作。关于微调,大家的思考方向不应是如何超越OpenAI或替代RAG,而应是如何在特定应用场景下保持同等性能的同时,大幅减少推理时间和成本。​​可现实是普通开发者构建RAG应用时,对微调LLM的能力并
117°/ 2025-08-12/1172 人阅读 / 0 人点赞 / 0 条评论

2025LLM测试指南:前沿方法与实战策略解析
​​就在一周前,我与一位DeepEval用户通话时,她提到将大型语言模型(LLMs)的测试与评测视为两个不同的概念。当被问及她对LLM测试的定义时,她是这样回答的:对我们而言,评测LLMs更多是通过基准测试选择正确的LLMs,而LLM测试则更侧重于探索不同场景下可能出现的意外问题。鉴于我已撰写过一篇全面介绍LLM评测指标的文章,本文将转而深入探讨如何将这些指标应用于LLM测试。我们将解析LLM测试
77°/ 2025-08-12/775 人阅读 / 0 人点赞 / 0 条评论

评估 AI 项目管理框架
哪个框架才是真正能“拯救”你的AI项目?​​核心要点CRISP-DM已过时。Agile本身不够用。TDSP虽然流程好但绑定厂商。CPMAI是新兴选手。MLOps必不可少但不是万能钥匙。欢迎来到你的AI项目生存秘籍。1.为什么你的AI项目注定失败(以及该怎么做)AI已经不再是研究机构的专属,它已成为现代企业战略的核心。但现实是:近一半的AI项目未能创造真正的价值。为什么?因为大多数团队还在用传统软件
74°/ 2025-07-13/740 人阅读 / 1 人点赞 / 0 条评论

解码 LLM 基准测试:这些测试的真正含义
在研究自主代理及其背后的LLM(大型语言模型)时,我一直对文章和技术论文中频繁提及的基准测试充满好奇。虽然我很快就能理解模型开放性的重要性(我对此极为坚定),但我仍需要更清晰地了解这些基准测试实际测量的内容,以及如何正确解读它们的结果。我想,如果我都在努力搞懂这些基准测试,可能其他人也有同样的困惑。下面是我目前为止了解到的LLM基准测试生态,以及为什么最终:“开放性”可能比任何性能分数都更重要。为
69°/ 2025-07-13/699 人阅读 / 0 人点赞 / 0 条评论

测试人员的 LLM 理事会
欢迎回来!今天我们来聊点新的。这是一个新鲜的概念,甚至带点未来感。我自己也在试验它。我称之为“LLM理事会(CouncilofLLMs)”。这个新颖的想法可能会从根本上改变我们在工作和测试中头脑风暴、制定策略、生成关键想法及其优化的方式。什么是“LLM理事会”?想象一个值得信赖的顾问团,总是随时待命、保持警觉。里面有各种各样的智慧,每个成员都能提供独特的见解,帮助你解决难题。但这个“理事会”不是由
61°/ 2025-07-13/617 人阅读 / 0 人点赞 / 0 条评论

测试人员提示词备忘单
我最近正在通过MinistryofTesting推出的30天AI测试挑战(30DaysofAIinTestingChallenge)学习AI在测试领域的应用。这个备忘单就是我与另一位挑战参与者、出色的测试人员JoyzNg一起合作的成果。我们结合了对提示词工程(PromptEngineering)的学习、各种提示技巧以及我们自己使用AI大语言模型(LLMs)时的实际经验,共同总结出这份清单,帮助测试
88°/ 2025-07-13/886 人阅读 / 0 人点赞 / 0 条评论

大型语言模型的成功秘诀:打造一致性 AI 的系统提示词
​​想象你雇佣了一位专家,却从不告诉他你需要什么。最好的结果是得到一些随机建议,最坏的情况则是一团糟。在AI的世界里,“系统提示词(SystemPrompt)”就像是这份“职位描述”——它是每条用户指令之上的元指令,定义AI的人格、范围、规则和风格,在AI“听”到用户之前就已设定好。用户提示词(UserPrompt):处理即时请求,如“翻译这段”、“讲个笑话”、“修复我的SQL”。系统提示词(Sy
109°/ 2025-07-13/1095 人阅读 / 0 人点赞 / 0 条评论

为测试人员准备的 AI 模型选择指南
这是一个旨在帮助软件测试人员根据任务复杂度和输出质量需求选择合适大语言模型(LLM)的实用指南。​​文中提到的图表将测试任务按“推理深度”与“输出质量”两个维度划分为四个象限,每个象限中都列出了适用的AI模型图标以及对应的测试活动,例如生成测试数据、头脑风暴、编写自动化代码和设计全面测试策略等。🔍为什么要选对AI模型?市面上的AI模型五花八门:有的免费有的响应快有的则拥有深度洞察力,对测试人员至
86°/ 2025-07-13/862 人阅读 / 0 人点赞 / 0 条评论

LLM-D:企业代理式 AI 缺失的关键环节
​​每个传奇都需要它的“大师之剑”——那把将潜力转化为力量的关键神器。在实现企业AI自主化的征途中,我们已经收集了各种组件,组建了工具箱,但一直缺失一样关键的东西。就像林克没有标志性圣剑就去面对盖侬,我们的代理式AI(AgenticAI)愿景也一直缺少一把真正能在大规模落地中大放异彩的武器:高效的分布式推理能力。在《AgentOps时代》中,我曾谈到未来的自主基础设施将像生物体一样运作——自我维持
65°/ 2025-07-13/657 人阅读 / 0 人点赞 / 0 条评论