LLM辅助小团队开发的探索与实践

date
Dec 14, 2025
slug
llm-explore
status
Published
tags
技术
summary
一些AI的探索
type
Post
notion image

背景

五月在公司做了一次简单分享
因为听众是公司全体,所以内容主要是科普介绍。半年过去后,模型和工具的能力都发生了很大的变化。在我们团队的实际工作中,LLM 辅助开发几乎成为日常。自 2022 年底我开始使用 ChatGPT 算起,转眼已过三年。记录下近期在公司开发中的使用体验与心得,同时也希望通过分享来了解更多的可能性。
封面图来源:《名侦探柯南:贝克街的亡灵》1:17:03

基础设施(?)

作为一家研发个位数,总人数还没有其他公司部门人数多,资金也不充裕的公司,实在很难说有基础设施,更准确的应该是现实情况。考虑到不要到贷款上班的地步,我们很多工具只能选择自部署,并且也没有多的显卡来部署大模型来内网调用,AI 预算理所应当是没有的,性价比也是自费需要考虑的点。
目前我们用 ONES 做需求管理和 Bug 追踪,由于是免费版无法使用 API ,所以 GitLab 基本上只用来 push 代码,issue 功能几乎没用过…至于 CICD 其他同事用的是 Jenkins ,我主要负责客户端和网关等相关 Go 开发,兼任一些其他 Android/iOS/Linux 开发杂活,当全栈(干)工程师。因为用Docker 打包 Windows 安装包一直存在问题,选择了自部署 TeamCity ,支持在 3 台机器上部署 TeamCity Agent来用于构建,正好满足了三个平台的桌面端。

目前主要使用的工具和服务

Claude Code

--dangerously-skip-permissions 起手
--dangerously-skip-permissions 起手
自从用了 Claude Code ,编辑代码的时间都明显减少了。轻量、速度快、效果好,随时都能开终端使用,而且很好的融入了 IDE 中方便调试。最开始使用的时候,每次更换模型都要手动编辑配置文件。后来发现了像cc-switch这样的快速切换工具,能配置多个模型且随时切换,体验立刻提升不少。
cc-switch
cc-switch
主要现在使用的有几家供应商:
  • GLM: GLM-4.5 出现直接扭转了我对国内模型在编程方面的刻板印象,API调用速度也很快。虽然有一段时间输出慢想放弃,好在后面恢复了正常水平,黑五48/季的 lite 的量足够我日常用了。
  • MiniMax: 在他们 M2 免费时了解到的,输出速度相当快,而且效果还不错。后面出了9.9首月计划后买了日常使用。因为有其他的订阅所以40 prompts/5h也够用。
  • Kimi: 听说 K2 thinking 效果好充了10块钱在 API 账户打算试试,后来发现充50块钱才能并发大于1,Claude Code 一直没法用。后面出了砍价0.99一个月的会员送的1024次/周终于能用上了,速度快效果好。一般是每周最先用的。
至于 ModelScope 和 DeepSeek 在 Claude Code 中不怎么使用了。前者是没有订阅时免费调用 GLM 时使用的,现在订阅足够了。后者自从出名后调用官网 API 速度就没快过,要不是余额还有点钱真不打算用了...想念 DeepSeek V2 在沉浸式翻译中使用的幸福时光。
当然了 Claude Code 的功能还有很多,不过在我的场景下没能明显感受到这些功能的效果,也就基本没用过了。自己用的较多的小技巧有:
  • Esc 按两次回到之前的会话来撤销修改
  • 在提问加入 ultrathink ,会出现彩色文字,心理上感觉更好了虽然觉得和 Tab 开启的thinking on 没太大区别(可能是任务简单)
  • 使用 Shift+Tab 切换为 Plan 模式来规划比较复杂的功能,再用 Bypass Permissions On模式来实现。

Windsurf

Windsurf
Windsurf
早期付费用户,10刀能有500次credit + 无限免费模型,在常用 IDE 中也能使用,而且免费用户能使用无限使用Tab补全很良心了。其他附带功能中用的比较多的是 Generate commit message 能生成符合之前提交风格的总结信息,因为我们采用Angular提交信息规范,生成的效果非常好。以及用 DeepWiki 看代码。至于 CodeMaps 则暂时没有找到使用场景。
Windsurf DeepWiki
Windsurf DeepWiki
在我的工作场景下以下模型比较好用:
  • Grok Code Fast 1: 简单的修改替换,查bash命令等基础任务。免费速度快。
  • GPT-5.1 (high reasoning): 找bug用,一般是其他模型都无法定位bug后尝试的模型,时间久但是效果不错。问了会去做别的等结果。
  • GPT-5.1-Codex Max High: 功能在Plan模式/已有明确实现思路,无需发散只需要准确实现时使用。速度中等。
  • Claude Opus 4.5(Thinking): 无思路实现大规模代码时使用,能力比较有保障,效果好速度中等。
其他模型类似Gemini在我的工作场景中并未体现出与credit相匹配的价值,平时几乎不用,只有上述模型全部失败时才会尝试。另外,最近发现一个不知是模型还是工具的坑:改完代码常被自动commit+push,于是加了一条Rule,禁止改动后立即提交,防止污染提交历史。
注:在写这篇文章时GPT-5.2也发布了,短时间使用下来体感上除了xhigh思考时间超久,并无明显提升,不过最近限免还在深度体验中。

GitLab Code Review

由于是自部署 GitLab ,很多基于 GitHub 的Code Review(后文简称CR)工具我们都无法使用。在找了一圈后最先尝试部署的是qodo-ai/pr-agent
用下来有一些我们的问题和局限。
  • 效果不好。可能是因为部署时候是今年上半年早期,当时用的模型Leader看了几次CR结果后觉得没啥用。
  • 不够直观。这个主要是我们采用 Ones 和企微的原因,GitLab的评论基本上没有人会看,导致即便有CR的评论大家都不会上去细看,工具成了摆设。
两个月前找到了一个更合适我们的场景的工具,随着下半年模型能力普遍提升显著,较好的解决了上面的问题。
我们CR的模型用的是ModelScope的GLM4.6,部署这个项目并接入企微消息推送后,能很好的做到每次提交后,有专门构建群发送CR结果的内容,便于大家能看到并查看是否有必要采纳建议。
原项目的输出分数看起来太过KPI化我们不太需要。调整了一下conf/prompt_templates.yml 中System Prompt词和改了部分文件来适配输出。
CR结果
CR结果
但随着使用更加频繁后,我们发现新的工具也有一些局限性。
  • 输出太长。一多就容易群里刷屏大家不想看/忘记看。
  • 上下文偏少不够准确。经常关注一些不太重要的细节,再加上这个项目核心是基于 git diff 返回来做的,当修改内容过少缺少上下文就容易误报问题。
不过目前对我们这个小团队来说有 CR 还是比没有强一点,后期看有没有更好的工具来尝试一下。

CodeRabbit

CodeRabbit
CodeRabbit
如果说基于自部署GitLab的CR工具中,要找到好用的有一定难度。相比之下基于 Git 的 CR 工具则容易得多。CodeRabbit 的 VSCode 插件是我用起来非常顺手且满意的一款,即使是免费版本功能也足够用。支持每次提交代码后自动触发评审,并且能够直接定位代码位置、查看对应评论。我最喜欢的功能是 Fix with AI 按钮,它可以生成清晰的问题描述,方便复制后向其他AI做进一步提问,从而更精准地确认问题(如图)。
另外值得一提的是,CodeRabbit 最近获得了一笔大额融资,并推出了 CodeRabbit CLI ,能够结合 Claude Code 使用,目前也在积极尝试中。

未来准备的尝试

  • 将 Codex/Claude Code 整合进 TeamCity 的 CICD 中来做上下文更丰富的 CR ,规范化输出后通过企微消息推送。
  • Claude Code 的MCP 和 Skills 在我们场景下的使用。

© ruhuang 2024 - 2025