软件测试文章

LLM 数据泄露、提示注入等多重防护机制

无论你是管理敏感用户数据、避免有害输出，还是确保符合监管标准，构建恰当的LLM防护机制对于安全、可扩展的大型语言模型（LLM）应用至关重要。防护机制具有前瞻性和规范性——旨在处理边缘情况、限制故障并维护实时系统的信任。建立坚实的防护机制基础，确保你的LLM不仅在理论上表现优异，更能安全高效地在用户手中发挥作用。虽然LLM评测侧重于提升准确性、相关性和整体功能性，但实施有效的LLM防护机制则是为

2025-04-20/1179 人阅读/0 人点赞

2025 年大众评选的顶级LLM评测工具

直入主题吧。市面上有大量LLM评测工具，它们看起来、用起来、听起来都大同小异。“自信交付你的LLM”、“告别LLMs的猜测游戏”，说得轻巧。为何如此？原来，LLM评测是每个构建LLM应用的人都会面临的难题，而且确实令人头疼。LLM从业者依赖“氛围检查”、“直觉”、“第六感”，甚至不得不“编造测试结果让经理满意”。因此，市面上已有大量高质量的LLM评测解决方案供过于求。作为DeepEval—这个

2025-04-20/980 人阅读/0 人点赞

轻松入门LLM评测

大多数开发者构建LLM应用时并未设置自动评测流程——即便这可能引入未被察觉的破坏性变更，因为评测本身极具挑战性。本文中，你将学习如何正确评测LLM输出。目录LLM是什么？为何评测如此困难？用Python评测LLM输出的不同方法如何使用DeepEval评测LLMLLM是什么？为何评测如此困难？要理解LLM为何难以评测且常被称为“黑箱”，需先拆解其本质与运作原理。以GPT-4为例，这个大型语言模型

2025-04-20/946 人阅读/0 人点赞

Java测试自动化一个关于Java测试自动化框架、工具、库和软件的综合精心整理的列表，帮助软件工程师在Java上轻松启动测试自动化。由SDCLabs赞助。如果有问题/想法/疑问，可以加入这里的聊天讨论:https://gitter.im/atinfo/awesome-test-automation目录xUnit框架TDD/ATDD/BDD模型驱动测试(Model-BasedTesting)代码分析

2025-04-20/1111 人阅读/0 人点赞

用大语言模型生成合成数据

"用AI凭空生成数据"的能力听起来美好得令人难以置信——想想看，你无需手动收集、清洗和标注海量数据集就能获得优质数据。但正如预期，合成数据并非没有缺陷。尽管其具备便捷性、高效性和成本优势，但合成数据的质量完全取决于生成方法的选择：若采用简陋的生成技术，最终将得到无法有效反映现实数据的低质量数据集。在本文中，我将分享ConfidentAI如何生成逼真的文本合成数据。让我们直接进入主题。什么是合成

2025-04-20/524 人阅读/0 人点赞

现在是2025年，停止使用快照测试！

我记得快照测试刚出现时的情景，那时是Enzyme的时代。它是最新的酷技术，许多人纷纷开始在他们的React应用程序中广泛使用它。从表面上看，快照测试似乎提供了很多好处，但在我看来，它们只是前端的一时风潮，其使用方式并没有被充分理解。在许多情况下，它们实际上降低了应用程序的测试质量……现在已经是2025年了，我仍然看到一些例子，快照测试仍然是应用程序组件测试覆盖率的一个重要部分。以下是我认为快照

2025-04-20/378 人阅读/0 人点赞

基于 GPT-3.5 与 lLamaIndex 构建客服聊天机器人

在本教程中，我们将使用OpenAIAPI提供的GPT-3.5。GPT-3.5是一个机器学习模型，如同OpenAI打造的超级智能计算机伙伴。它通过互联网上的海量数据训练而成，能够进行对话、回答问题，并协助完成各类语言任务。但关键问题来了：未经改造的GPT-3.5能理解企业私域数据吗？答案是否定的，因GPT模型仅训练于截至2021年的公开数据。这正是我们需要像lLamaIndex这类开源框架的原因

2025-04-20/414 人阅读/0 人点赞

关于提示词的艰难教训

人们常常讨论“完美的提示语”——讨论是否几行精心编写的文字可以带来近乎神奇的效果。还有人争论生成型人工智能（GenAI）是否真正进行推理，还是仅仅模仿模式。我们不会在这里解决这个辩论。相反，请把自己当作一名分析师：观察生成型模型（GenAI）在现实需求下的行为，记录它们的优势，发现它们的怪癖，并记录每一个红旗。在过去的12个月里，我将生成型人工智能部署到质量工程和测试（QET）领域——任务包括

2025-04-20/380 人阅读/0 人点赞

从 overwhelmed 到专家：测试人员持续学习的路线图

如今，成为一名软件测试人员既可以是令人兴奋的，也可能是令人疲惫的。新工具和框架发布的速度快得让你难以想象🤷‍♀️🤷🏻‍♂️。虽然学习资源的丰富是一个福音，但它也可能让人感到超负荷。你可能发现自己陷入困境，要么在等待有人指导你，要么在无尽的教程、博客和课程中迷失自己，在信息过载的混乱中无法自拔。但事实是，你不需要等待导师、培训计划或“完美时机”来提升你的技能。提升和发展职业生涯的力量已经掌

2025-04-20/366 人阅读/0 人点赞

什么是检索增强生成（RAG）？

像GPT-4这样的大型语言模型（LLM），虽然能生成强大且通用的自然语言，但也严重受限于训练数据的边界。为解决这一问题，近期业界热议基于RAG（检索增强生成）的系统——但究竟什么是RAG？它能做什么？为何值得关注？本文将深入解析：RAG的核心原理如何实现基于RAG的LLM应用（附完整代码示例）什么是RAG？检索增强生成（RetrievalAugmentedGeneration,RAG）是一种自

2025-04-20/448 人阅读/0 人点赞