LLM辅助小团队开发的探索与实践

背景

五月在公司做了一次简单分享

https://ruhuang2001.github.io/talks/aigc-dev

因为听众是公司全体，所以内容主要是科普介绍。半年过去后，模型和工具的能力都发生了很大的变化。在我们团队的实际工作中，LLM 辅助开发几乎成为日常。自 2022 年底我开始使用 ChatGPT 算起，转眼已过三年。记录下近期在公司开发中的使用体验与心得，同时也希望通过分享来了解更多的可能性。

封面图来源：《名侦探柯南：贝克街的亡灵》1:17:03

基础设施（?）

作为一家研发个位数，总人数还没有其他公司部门人数多，资金也不充裕的公司，实在很难说有基础设施，更准确的应该是现实情况。考虑到不要到贷款上班的地步，我们很多工具只能选择自部署，并且也没有多的显卡来部署大模型来内网调用，AI 预算理所应当是没有的，性价比也是自费需要考虑的点。

目前我们用 ONES 做需求管理和 Bug 追踪，由于是免费版无法使用 API ，所以 GitLab 基本上只用来 push 代码，issue 功能几乎没用过…至于 CICD 其他同事用的是 Jenkins ，我主要负责客户端和网关等相关 Go 开发，兼任一些其他 Android/iOS/Linux 开发杂活，当全栈（干）工程师。因为用Docker 打包 Windows 安装包一直存在问题，选择了自部署 TeamCity ，支持在 3 台机器上部署 TeamCity Agent来用于构建，正好满足了三个平台的桌面端。

目前主要使用的工具和服务

Claude Code

自从用了 Claude Code ，编辑代码的时间都明显减少了。轻量、速度快、效果好，随时都能开终端使用，而且很好的融入了 IDE 中方便调试。最开始使用的时候，每次更换模型都要手动编辑配置文件。后来发现了像cc-switch这样的快速切换工具，能配置多个模型且随时切换，体验立刻提升不少。

GitHub - farion1231/cc-switch: A cross-platform desktop All-in-One assistant tool for Claude Code, Codex & Gemini CLI.

A cross-platform desktop All-in-One assistant tool for Claude Code, Codex & Gemini CLI. - farion1231/cc-switch

http://github.com/farion1231/cc-switch

主要现在使用的有几家供应商：

GLM: GLM-4.5 出现直接扭转了我对国内模型在编程方面的刻板印象，API调用速度也很快。虽然有一段时间输出慢想放弃，好在后面恢复了正常水平，黑五48/季的 lite 的量足够我日常用了。

MiniMax: 在他们 M2 免费时了解到的，输出速度相当快，而且效果还不错。后面出了9.9首月计划后买了日常使用。因为有其他的订阅所以40 prompts/5h也够用。

Kimi: 听说 K2 thinking 效果好充了10块钱在 API 账户打算试试，后来发现充50块钱才能并发大于1，Claude Code 一直没法用。后面出了砍价0.99一个月的会员送的1024次/周终于能用上了，速度快效果好。一般是每周最先用的。

至于 ModelScope 和 DeepSeek 在 Claude Code 中不怎么使用了。前者是没有订阅时免费调用 GLM 时使用的，现在订阅足够了。后者自从出名后调用官网 API 速度就没快过，要不是余额还有点钱真不打算用了...想念 DeepSeek V2 在沉浸式翻译中使用的幸福时光。

当然了 Claude Code 的功能还有很多，不过在我的场景下没能明显感受到这些功能的效果，也就基本没用过了。自己用的较多的小技巧有：

Esc 按两次回到之前的会话来撤销修改

在提问加入 ultrathink ，会出现彩色文字，心理上感觉更好了虽然觉得和 Tab 开启的thinking on 没太大区别（可能是任务简单）

使用 Shift+Tab 切换为 Plan 模式来规划比较复杂的功能，再用 Bypass Permissions On模式来实现。

Windsurf

早期付费用户，10刀能有500次credit + 无限免费模型，在常用 IDE 中也能使用，而且免费用户能使用无限使用Tab补全很良心了。其他附带功能中用的比较多的是 Generate commit message 能生成符合之前提交风格的总结信息，因为我们采用Angular提交信息规范，生成的效果非常好。以及用 DeepWiki 看代码。至于 CodeMaps 则暂时没有找到使用场景。

在我的工作场景下以下模型比较好用：

Grok Code Fast 1: 简单的修改替换，查bash命令等基础任务。免费速度快。

GPT-5.1 (high reasoning): 找bug用，一般是其他模型都无法定位bug后尝试的模型，时间久但是效果不错。问了会去做别的等结果。

GPT-5.1-Codex Max High: 功能在Plan模式/已有明确实现思路，无需发散只需要准确实现时使用。速度中等。

Claude Opus 4.5(Thinking): 无思路实现大规模代码时使用，能力比较有保障，效果好速度中等。

其他模型类似Gemini在我的工作场景中并未体现出与credit相匹配的价值，平时几乎不用，只有上述模型全部失败时才会尝试。另外，最近发现一个不知是模型还是工具的坑：改完代码常被自动commit+push，于是加了一条Rule，禁止改动后立即提交，防止污染提交历史。

注：在写这篇文章时GPT-5.2也发布了，短时间使用下来体感上除了xhigh思考时间超久，并无明显提升，不过最近限免还在深度体验中。

GitLab Code Review

由于是自部署 GitLab ，很多基于 GitHub 的Code Review（后文简称CR）工具我们都无法使用。在找了一圈后最先尝试部署的是qodo-ai/pr-agent

GitHub - qodo-ai/pr-agent: 🚀 PR-Agent: An AI-Powered 🤖 Tool for Automated Pull Request Analysis, Feedback, Suggestions and More! 💻🔍

🚀 PR-Agent: An AI-Powered 🤖 Tool for Automated Pull Request Analysis, Feedback, Suggestions and More! 💻🔍 - GitHub - qodo-ai/pr-agent: 🚀 PR-Agent: An AI-Powered 🤖 Tool for Automated Pull Request An...

http://github.com/qodo-ai/pr-agent

用下来有一些我们的问题和局限。

效果不好。可能是因为部署时候是今年上半年早期，当时用的模型Leader看了几次CR结果后觉得没啥用。

不够直观。这个主要是我们采用 Ones 和企微的原因，GitLab的评论基本上没有人会看，导致即便有CR的评论大家都不会上去细看，工具成了摆设。

两个月前找到了一个更合适我们的场景的工具，随着下半年模型能力普遍提升显著，较好的解决了上面的问题。

GitHub - sunmh207/AI-Codereview-Gitlab: 基于大模型(DeepSeek,OpenAI等)的 GitLab 自动代码审查工具；支持钉钉/企业微信/飞书推送消息和生成日报；支持Docker部署；可视化 Dashboard。

基于大模型(DeepSeek,OpenAI等)的 GitLab 自动代码审查工具；支持钉钉/企业微信/飞书推送消息和生成日报；支持Docker部署；可视化 Dashboard。 - sunmh207/AI-Codereview-Gitlab

http://github.com/sunmh207/AI-Codereview-Gitlab

我们CR的模型用的是ModelScope的GLM4.6，部署这个项目并接入企微消息推送后，能很好的做到每次提交后，有专门构建群发送CR结果的内容，便于大家能看到并查看是否有必要采纳建议。

原项目的输出分数看起来太过KPI化我们不太需要。调整了一下conf/prompt_templates.yml 中System Prompt词和改了部分文件来适配输出。

但随着使用更加频繁后，我们发现新的工具也有一些局限性。

输出太长。一多就容易群里刷屏大家不想看/忘记看。

上下文偏少不够准确。经常关注一些不太重要的细节，再加上这个项目核心是基于 git diff 返回来做的，当修改内容过少缺少上下文就容易误报问题。

不过目前对我们这个小团队来说有 CR 还是比没有强一点，后期看有没有更好的工具来尝试一下。

CodeRabbit

如果说基于自部署GitLab的CR工具中，要找到好用的有一定难度。相比之下基于 Git 的 CR 工具则容易得多。CodeRabbit 的 VSCode 插件是我用起来非常顺手且满意的一款，即使是免费版本功能也足够用。支持每次提交代码后自动触发评审，并且能够直接定位代码位置、查看对应评论。我最喜欢的功能是 Fix with AI 按钮，它可以生成清晰的问题描述，方便复制后向其他AI做进一步提问，从而更精准地确认问题（如图）。

另外值得一提的是，CodeRabbit 最近获得了一笔大额融资，并推出了 CodeRabbit CLI ，能够结合 Claude Code 使用，目前也在积极尝试中。

未来准备的尝试

将 Codex/Claude Code 整合进 TeamCity 的 CICD 中来做上下文更丰富的 CR ，规范化输出后通过企微消息推送。

Claude Code 的MCP 和 Skills 在我们场景下的使用。