Mastra vs LangChain：构建AI智能体开发流程并分析相关数据

一周前，我看到了这样一条推文：

推文图片：@omaroubari_ 提问“有没有人尝试过使用Mastra和LangChain来进行代理协调？哪个更好？”

我当时刚刚发布了SupportMesh，这是一个基于Mastra构建的多租户AI支持平台，因此我对它的实际使用效果有着切身的了解。

我觉得.dowhile()循环、类型化的步骤结构，以及createWorkflow将协调逻辑集中在一起的设计很棒。不过我不喜欢token带来的开销：无论是否真的需要使用工具，每个代理步骤都会初始化Mastra的工具循环管理器，这样一来，在一个包含四个步骤的流程中，就会产生几秒钟的额外延迟，而且每次运行还会消耗数千个额外的token。

同时，我还在为另一个项目研究LangChain。它的设计方式与Mastra完全不同——LangChain不是使用类型化的步骤契约来构建工作流，而是通过有向图来实现功能，其中节点代表普通的异步函数，状态则由一个共享对象来管理。

LangChain承诺能够实现更高效的执行，并且能更精确地控制每次模型调用所使用的具体参数。鉴于我在使用Mastra时遇到的token开销问题，这些特点正是我想要深入了解的。

因此，我没有仅仅根据文档或主观感觉来选择其中一个工具，而是在两种技术上分别构建了相同的流程，并对所有数据进行了详细的测量。同样的五步研究与合成流程被重复进行了两次，每一环节都被详细记录下来：每一步消耗的token数量、延迟时间、在每个阶段发送给Claude的具体提示内容、Tavily搜索得到的原始结果，以及一个真正能给出不同评分的生产级评估系统。

之后，我还使用Convex和Next.js搭建了一个实时网页仪表板，这样大家就可以自己运行这些流程，并查看这两个框架在实现相同目标的过程中所做出的所有决策。

Mastra与LangChain的对比仪表板，同时展示了两种技术的执行结果：Mastra在25.2秒内使用了9,846个token，得分为9/10；而LangChain在19.8秒内使用了7,875个token，也得分为8/10。测试主题是“在生产环境中运行AI代理的实际成本是多少？”

先决条件
我们使用的工具
选择这个流程的原因
项目结构
构建Mastra流程
构建LangChain流程
那个给所有结果打7分的评估系统
- 生产级评估系统的实际运作方式
- 从思维链输出中提取JSON数据
差点就发布的带有评估偏差的系统
实时仪表板
数据实际上反映了什么

亲自试一试

先决条件

要想自行完成这些操作并运行相关测试，你需要准备以下四样东西：

Node.js 22或更高版本：这些测试流程所使用的包依赖于现代TypeScript功能，因此需要较新的Node.js版本。
Anthropic的API密钥：你可以在console.anthropic.com获取该密钥。Claude Haiku 4.5的成本相当低廉，因此进行十几次测试所花费的费用仅为几美分而已。
Tavily的API密钥：你可以在tavily.com获取该密钥。免费账户每月可使用1,000次搜索功能，这完全足以满足重复进行测试的需求。
Convex账户：你可以在convex.dev注册账户。免费账户可以满足所有需求。

准备好这些工具后，本文末尾的设置指南会详细说明每样工具的具体使用方法。

我们使用的工具

在开始构建相关系统之前，了解我所使用的各种工具的功能及其被选中的原因会很有帮助。如果你已经熟悉这些工具，可以直接跳过这一部分。

Mastra是一个以TypeScript为基础的框架，专门用于开发基于人工智能的应用程序和智能体。它的核心理念是：你可以通过定义带有类型化的输入输出结构的各个步骤，将这些步骤串联成工作流程，而该框架会负责处理这些步骤之间的数据流转。Mastra对代码结构有着明确的要求，这些要求有时会成为开发中的优势，有时则会成为限制因素，具体取决于你所要构建的应用类型。

LangChain是目前最常被用于开发大语言模型应用程序的框架之一。它最初是用Python开发的，后来也推出了TypeScript版本。

在智能体协调方面，LangGraph是至关重要的工具。它是LangChain基于图结构的执行层：与使用类型化步骤契约的工作流程不同，LangGraph是通过有向图来组织各个操作。其中，节点代表异步函数，状态则是一个所有节点都会读取和写入的共享对象，而节点之间的逻辑关系则由边来控制。

Claude Haiku 4.5是驱动所有智能体运行的模型。这是Anthropic最快且最具成本效益的模型，因此非常适合用于本次测试。

Tavily是一个专为人工智能智能体设计的网页搜索API。与普通的搜索API不同，它返回的结构化结果中包含了相关性评分和内容片段，这些数据可以直接用于模型输入。免费账户的使用权限已经足够满足进行本次测试的需求，无需支付任何费用。

我选择使用Tavily，是因为它提供了简洁的TypeScript SDK，既可以在Mastra框架中使用，也可以直接与LangChain节点配合使用，而无需额外的适配层。此外，它的搜索结果质量稳定，因此两个测试流程都能获得相同质量的输入数据。

Convex是一种实时数据库，它使用了React的钩子函数useQuery，每当底层数据发生变化时，该钩子会自动重新渲染你的组件。无需进行轮询，也无需配置WebSocket或手动同步状态。当两个处理流程在执行过程中都在写入步骤数据时，页面就会自动更新。

Next.js则是用于构建仪表盘的Web框架。它包含了应用路由器、用于处理流程执行的API路由，以及适合在服务器端使用的组件。

为什么选择这种处理流程

简单的对比并不能让我了解到什么有用的信息，因为只有在实际使用这些框架时，它们之间的差异才会显现出来。

我最终选择的这个处理流程包含五个步骤：

步骤
  ↓
1. 研究      (通过Tavily进行网络搜索，获取5个相关结果)
2. 分析      (提取5个关键发现、3个主题及1个核心论点)
3. 撰写报告   (起草一份约400字的结构化报告)
4> 评估质量  (对草稿进行评分，并提供具体反馈)
5> 修订      (如果评分低于7分，则进行修改；如果通过评估或经过3次迭代后，即可完成最终版本)

我选择这些步骤，是因为它们能够充分体现不同框架的特点。

研究环节需要使用具体的工具来执行相关操作，而Mastraka的Agent抽象层在此环节发挥了重要作用；分析环节要求输出结构化的JSON数据，这可以用来测试各种框架在输出格式方面的表现；撰写报告环节有严格的内容要求，这些要求主要是通过提示设计来实现的；评估质量环节则需要进行逻辑推理，并同时生成结构化的JSON数据，这一过程其实比听起来要复杂得多；最后，修订环节则体现了这两种框架之间最根本的差异：它们在处理条件循环时的方式不同。

综合来看，这些步骤涵盖了在实际开发中使用代理框架时可能会遇到的大部分场景：工具调用、结构化输出、多步骤流程协调、质量评估以及反馈机制。

项目结构

所有代码都存储在一个单一的monorepo中，而且通过npm工作区来管理这些代码。这意味着所有的包都在根目录下共享同一个node_modules文件夹，并且可以互相直接导入。

mastra-vs-langchain/
├── packages/
│   ├── mastra-pipeline/          # Mastra实现代码
│   ├── langchain-pipeline/       # LangChain/LangGraph实现代码
│   ├── web/                      # Next.js 16应用框架及仪表盘代码
│   └── shared/                   # 公共的TypeScript类型定义文件
├── convex/                       # 实时后端服务代码
└── package.json                  # 工作区根目录配置文件

在所有共享包中，最重要的部分就是PipelineCallbacks接口，这两个处理流程的实现都必须满足这个接口的要求。正是这个接口使得仪表盘能够接收到来自任意一个框架的实时事件信息：比如步骤开始、步骤完成、令牌计数结果，以及Tavily搜索的结果——而无需了解关于Mastraka或LangChain的具体细节。

// packages/shared/src/types.ts
export interface PipelineCallbacks {
  onPipelineStart: () => Promise;
  onPipelineComplete: (id: string, data: PipelineCompleteData) => Promise;
  onPipelineError: (id: string, error: string) => Promise;
  step: {
    onStepStart: (stepName: string, iteration: number, input: string) => Promise;
    onStepComplete: (stepId: string, data: StepCompleteData) => Promise;
    onStepError: (stepId: string, error: string) => Promise;
  };
}

所有的写入操作、实时日志记录以及代币数量的变化都会通过这个接口进行处理。未来如果想要在基准测试中添加新的功能框架，只需要实现这个接口并将其插入到API路由中即可，其他部分无需做任何修改。

构建Mastra管道

如果你之前没有使用过Mastra，那么它的核心工作原理是这样的：你需要为每个步骤定义明确的输入和输出结构，然后将这些步骤串联起来形成一条工作流程，而Mastra会负责管理这些步骤之间的数据流动。

该框架对数据结构有明确的要求，但这种结构能够确保整个管道中的数据类型安全性，并且使协调逻辑更加易于理解。

搜索工具

Mastra的工具是通过`createTool`函数创建的，这个函数会接收一个Zod格式的输入结构以及一个可以直接处理经过验证后的输入数据的`execute`函数：

// packages/mastra-pipeline/src/tools/search.ts import { createTool } from "@mastra/core/tools"; import { z } from "zod"; import { tavily } from "@tavily/core";


const client = tavily({ apiKey: process.env.TAVILY_API_KEY! });
export let lastTavilyCapture: { query: string; results: any[] } = {

  query: "",

  results: [],

};
export function resetTavilyCapture() {

  lastTavilyCapture = { query: "", results: [] };

}
export const searchTool = createTool({

  id: "web-search",

  description: "在网络上搜索有关某个主题的信息",

  inputSchema: z.object({ query: z.string() }),

  execute: async ({ query }) => {

    lastTavilyCapture = { query, results: [] };

    const results = await client.search(query, {

      maxResults: 5,

      searchDepth: "basic",

    });

    lastTavilyCaptureresults = results.results;

    return { results: results(results);

  },

});


`lastTavilyCapture`这个模块级别的变量其实是一种为了解决实际开发中遇到的限制而采取的临时解决方案。Mastra的工具执行过程是在代理程序的内部工具循环中进行的，而这个内部循环位于工作流程步骤的下一层。
由于我需要将Tavily搜索的结果保存下来以便在仪表板上展示，让用户能够看到每次搜索的实际URL以及相关度评分，但如果通过代理程序的执行上下文来传递这些数据，就需要对Mastra的内部代码进行修改。而在模块级别进行数据捕获，并在每个搜索步骤开始时调用`resetTavilyCapture()`函数，虽然这种方式不够优雅，但确实非常可靠，而且能够有效防止之前搜索的结果影响到当前的搜索过程。
代理程序
Mastra流程中的每个步骤都是作为独立的代理程序实例来运行的。如果你刚开始使用Mastra，需要了解的一点是：这些代理程序不仅需要有一个名称，还需要有一个明确的标识符字段。如果你忽略了这个要求，TypeScript会抛出一个关于“缺少必备字段”的错误，但这个错误实际上并不能指明真正的问题所在：
// packages/mastra-pipeline/src/agents/researcher.ts
export const researcherAgent = new Agent({
  name: "Researcher",
  id: "researcher",           // v1.41版本起为必备字段——很容易被忽略
  instructions: `你是一名研究代理程序。当收到一个主题时，请使用网络搜索工具找到5个相关的结果。需要返回所有原始的搜索结果，包括标题、URL以及内容片段，并将它们格式化为字符串形式。`,
  model: anthropic("claude-haiku-4-5"),
  tools: { searchTool },
});

而“写作代理程序”则将其所有的内容要求直接写在指令中，而不是通过单独的验证环节来处理这些要求。这样，所有的约束条件都集中在一个显而易见的地方，当批评者指出草稿违反了哪些具体要求时，这种设计就显得非常有用：
// packages/mastra-pipeline/src/agents/writer.ts
export const writerAgent = new Agent({
  name: "Writer",
  id: "writer",
  instructions: `你是一名为技术类读者撰稿的研究分析师。

严格遵循的要求：
- 开篇句必须明确指出研究得出的具体结论。
- 绝不要以“X正变得越来越重要”这样的句子开头。
- 每一段文字都必须只阐述一个观点，并首先明确说明这个观点，然后用具体的证据来支持它。
- 必须提到具体的工具、框架、公司名称、数字以及日期。
- 结论部分必须提出明确的建议或预测，而不能重复引言中的内容。
- 最终稿的字数应在350到450字之间。

禁止使用的表达方式：
“值得注意的是……”、“值得强调的是……”、“各组织必须考虑……”、“总之……”、“展望未来……”、“发展迅速的环境……”；或者任何可以用替换主题后仍然成立的句子。
  model: anthropic("claude-haiku-4-5"),
});

为什么“写作步骤”和“批评步骤”要放在同一个流程中
在实现Mastra的过程中，我做了一个与大多数教程不同的架构决策，了解其中的原因是很重要的。
Mastra中的.dowhile()结构会重复执行某个步骤，直到满足某个条件为止。当只需要重复执行一个操作时，这种设计确实很简洁。但修改流程实际上需要两个步骤：首先是写作步骤，然后是批评步骤。你可以将这两个步骤合并成一个步骤，也可以构建一个嵌套的工作流程，让内部的工作流程同时包含这两个步骤。
然而，在这种情况下，嵌套工作流程只会增加复杂性，并不会带来任何实际的好处，因此“写作步骤”和“批评步骤”就被放在了writeCriticStep这个流程中。该流程首先会运行写作程序，然后立即对草稿进行批评分析，最后返回一个包含草稿内容及评分结果的组合输出。
const writeCriticStep = createStep({

  id: "write-critic",

  inputSchema: z.object({

    topic: z.string(),

    research: z.string(),

    analysis: z.string(),

    keyFindings: z.array(z.string()),

    mainThemes: z.array(z.string),

    centralArgument: z.string(),

    draft: z.string().optional(),       // 在第一次迭代后填充内容

    score: z.number().optional(),       // 在第一次迭代后填充内容

    feedback: z.string().optional(),    // 在第一次迭代后填充内容

    iterations: z.number().optional(),

  }),

  outputSchema: z.object({

    // ... 所有输入字段，以及draft、score、feedback、iterations这些字段

  }),

  execute: async ({ inputData }) => {

    const iteration = (inputData.iterations ?? 0) + 1;

    // 写作阶段

    let writerPrompt = `主题：\({inputData.topic}\n\n研究内容：\n\{inputData.research}\n\n分析结果：\n${inputData.analysis}`;

    if (inputData.feedback && inputData.draft) {

      // 在进行修改时，作者会看到之前的草稿以及具体的反馈意见

      writerPrompt += `\n\n之前的草稿：\n\({inputData.draft}\n\n反馈意见：\n\{inputData_feedback}\)n`;

    }
    const writeStepId = await callbacks.step.onStepStart("write", iteration, writerPrompt.slice(0, 500));

    const writerResult = await writerAgent.generate(writerPrompt);

    const draft = writerResult.text;

    await callbacks.step.onStepComplete(writeStepId, { output: draft, /* 令牌数据 */ });
    // 评论阶段：在写作阶段结束后立即开始，使用相同的草稿

    const criticPrompt = `研究内容：\n\{inputData.research}\n\n分析结果：\n\{inputData.analysis}\n\n草稿：\n${draft}`;

    const criticStepId = await callbacks.step.onStepStart("critic", iteration, draft.slice(0, 500));

    const criticResult = await criticAgent.generate(criticPrompt);

    const parsed = extractJson(criticResult.text);

    const score = parsed?.score ?? 4;

    const feedback = parsed?.feedback ?? "分数解析失败";

    await callbacks.step.onStepComplete(criticStepId, { output: criticResult.text, criticScore: score });

return { ...inputData, draft, score, feedback, iterations: iteration }; }, }); .dowhile()条件用于判断是否需要再次循环。它将上一次writeCriticStep的执行结果作为inputData参数接收，因此可以直接获取评分结果：
const workflow = createWorkflow({ id: `research-pipeline-${Date.now()}`, // 添加时间戳可以避免同时运行时出现冲突 inputSchema: z.object({ topic: z.string() }), }) .then(researchStep) .then(analysisStep) .dowhile( writeCriticStep, async ({ inputData }) => inputData.score < 7 && inputData.iterations < 3 ) .commit();
在工作流ID中添加Date.now()这个时间戳，是为了确保当两个任务同时运行时，系统能够为每个任务生成唯一的实例，从而避免冲突。

令牌捕获

在任何调用`agent.generate()`之后，使用数据都会保存在结果对象中。由于Mastraka不同版本的实现细节存在差异，因此检查所有可能的字段名称才是稳妥的做法：

const inputTokens =
  (result as any).usage?.promptTokens ??
  (result as any).usage?.inputTokens ??
  0;
const outputTokens =
  (result as any).usage?.completionTokens ??
  (result as any).usage?.outputTokens ??
  0;

构建LangChain管道

LangChain/LangGraph采用完全不同的思维模式来解决相同的问题。

虽然Mastraka提供了具有明确定义的步骤契约的工作流程，但LangGraph则使用有向图来组织各个步骤。图中的节点其实就是普通的异步函数，状态则是通过整个图传递的一个共享的可变对象，而执行顺序是由图中的边决定的，而不是由一系列`.then()`调用所决定的。

状态注解

在创建任何节点之前，你需要使用`Annotation.Root`来定义这个共享状态的结构。图中的每个节点都会读取和写入这个对象：

// packages/langchain-pipeline/src/graph/state.ts
export const PipelineState = Annotation Root({
  topic: Annotation,
  research: Annotation,
  analysis: Annotation,
  draft: Annotation,
  score: Annotation,
  feedback: Annotation,
  iterations: Annotation.number),
  finalReport: Annotation,
  criticDimensions: Annotation

数据实际显示的内容

亲自尝试一下

Related Posts:

Mastra vs LangChain：构建AI智能体开发流程并分析相关数据

目录

先决条件

我们使用的工具

为什么选择这种处理流程

项目结构

构建Mastra管道

搜索工具

代理程序

为什么“写作步骤”和“批评步骤”要放在同一个流程中

令牌捕获

构建LangChain管道

状态注解

工厂模式

图结构与节点命名冲突的问题

重试处理机制

那个给所有内容打分7分的“批评者”

真正的生产级评估应该是怎样的

从思维链输出中提取JSON数据

我差点就发布出来的那个评估偏差问题

实时监控面板

凸架构式

订阅实时更新

在重试后去除重复的步骤记录

实时日志的自动滚动功能