博客

  • 配置MCP

    对于cc我让ai帮我配置了一个可以理解WPS office的mcp工具。claude很快就理解了我的意图,并帮我完成了可用的配置。但是,当我准备让gemini也这么配置时,我发现他对于mcp的理解不是非常深刻,或者说他的数据库根本就无法理解mcp的概念。后来我一问才知道MCP(Model Context Protocol)是Anthropic提出的概念,也难怪cc能这么顺利的完成配置。

    当前ai属于蓬勃发展的阶段,最新的数据不能更新可以理解。于是我让cc帮gemini写一个mcp:agents help agents。

    • 环境: WSL Ubuntu + Node.js v25.2.1
    • Gemini CLI 版本: 0.17.1

    依赖包

    {
      "@modelcontextprotocol/sdk": "MCP SDK 核心库",
      "mammoth": "Word 文档解析",
      "xlsx": "Excel 表格解析"
    }

    配置

    1. Gemini CLI 配置文件

    位置: ~/.gemini/settings.json

    {
      "security": {
        "auth": {
          "selectedType": "gemini-api-key"
        }
      },
      "general": {
        "previewFeatures": true
      },
      "mcpServers": {
        "wps-reader": {
          "command": "node",
          "args": ["/home/huyang/mcp-servers/wps-server.js"]
        }
      }
    }

    2. 服务器文件

    \home\huyang\mcp-servers

    • wps-server.js: MCP 服务器主文件
    • package.json: Node.js 项目配置

    参考资料

    综上

    实际运行示例

    # 1. 用户启动 AI 客户端

    gemini

    # 2. 客户端自动启动 MCP server

    node /home/huyang/mcp-servers/wps-server.js # 后台运行

    # 3. 用户输入

    "读取 ~/document.docx 的内容"

    # 4. AI 判断需要调用工具

    AI → MCP Server: read_wps_file({file_path: "/home/huyang/document.docx"})

    # 5. MCP Server 返回内容

    MCP Server → AI: "文件内容:\n这是文档内容…"

    # 6. AI 整合结果回复用户

    "文档内容如下:这是文档内容…"

  • Gemini

    试了一下比较火的gemini。图像能力确实不错。不知道编程能力怎么样,刚刚用gemini cli写的:your 拆尼斯 good

    夜阑人静,我独卧窗前,
    忽入梦境,佳人现眼前。
    巧笑倩兮,美目盼兮,
    似曾相识,却又影难寻。
    执手相看,无语泪涟涟,
    只愿此刻,永驻在人间。
    奈何好梦,终究易醒来,
    醒来怅然,伊人已不见。
    枕边余香,徒留空惆怅,
    唯有相思,萦绕我心房。
    梦里佳人,何时再相逢?
    愿入梦乡,与君共此生。

  • 模型选择

    尝试过编辑器和命令行ai工具后,我个人认为还是像codex或者是claude这样的终端工具好用一些,主要还是穷订阅不起,只能买第三方代理的api,如下所示,终端直接运行,这样的话,无论是便利性还是实用性都非常nice

    如果对于日常的计科的学生来说完成作业是再合适不过了,我尝试过几次,对于完成几次编写代码的实验,在有指导任务书的情况下,大概只用花费1块钱左右,这个还与选择的代理商有关,我后面会提到。可能价格来说还是有点贵,但是我是考虑到人工成本,而并非只是就编写任务难度来判定的,我通常只用把任务书和项目文件放在一起,AI就会自动读写,而并非网页版或者客户端的Ctrl+c/v。这就大大节省了我的时间和经历。当然,这只是以小见大,我们作业的难度其实是可以忽略不记的。

    还有一个优点,就是规范性,自己使用ai往往是碎片化的。可能只是不会的时候或者即使全部都是复制的,对于ai也是难以理解。对话的上下文长度也是很有限。但终端会系统化的规划,是得对于项目有更好得理解,结构文档也有着十分不错的提升。这也使得的后期维护跟便捷。

    但还是有我不习惯的地方。现在的编辑器已经十分成熟了,各种插件已经有了非常完整的生态,终端毕竟只有文本对话,对于项目结构和配置文件的直观呈现和使用还是不行。我往往要开idea,Trae,claude来改代码,一方面是idea是我熟知的软件,我能很好的测试项目,一方面Trae代表的这类编辑器,对于项目整体的修改很直观。还有就是可以薅羊毛,这些厂商一天出一个模型,总有那么几天试用期。然后就是claude&codex,这些很方便的编辑器。所以对我来说现在的基本要在几个软件之间来回跳转,还不包括浏览器上的页面。

    我说完成本学期的一门实验大概费用是1元,但这只是理想情况下的。如果每天日常还有其他使用的话几块钱还是要的,这当然不包括改项目,而我发现市面上的api价格也是良莠不齐,同一段对话甚至有着几毛钱的差距,但经过我仔细对比之后,便宜的大概率是降智版本的。但在某些方面,便宜的还好一点。比如都是写一个星空页面,便宜的api写出来的效果甚至要好,这就够了。即使可能是巧合。但我需要这样的巧合作为使用他的理由,毕竟我确实没钱。

    说到底我其实对ai没有特别大的需求,只是好玩。毕竟谁不想有一个贾维斯呢。


其他文章