DJJ

一些关于AI Coding的经验

Sun, 02 Nov 2025 21:56:06 +0800

一些关于AI Coding的经验

在线查看: https://ai-coding-showcase.pdjjq.org/

Attention

“写代码"的门槛非常低, 收益非常的可观 Anthropic是怎么使用Claude Code
写代码 != 产出高质量软件
需求的实现成本/难度下降?
不要为LLM的发展焦虑, 但不要做 coding义和团

基座模型

基本性能要求

一行代码约 10 Token Token 计算器

上下文: 128K+ (最好能够到200K) Token
- 成本
- 输出的速度/质量
输出速度: 60 Token/s
智力水平: SWE-Bench 70% (With Thinking) 60% (Low Think / No Think)
其他特性:
- ToolUse / Function Call
- Token Cache
- Reasoning

主流的模型

美国: Anthropic / OpenAI / Google Gemini / ~~Grok~~

中国: Qwen / GLM / Kimi / MiniMax / DeepSeek

Anthropic (地域黑/权限狗)

对中国用户不友好 , 挂VPN也能封号, 策略最严格之 «封号斗罗»

目前最强的Agent Model:

旗舰 Opus
次旗舰 Sonnet : 主要使用的Coding模型, 全能的模型
狗屎 Haiku

OpenAI (CloseAI)

gpt-5-codex : 修改准确, 调查充分, 但是耗时过长, 非常适合修复BUG

Gemini (Google大善人)

Gemini 3 : 虽然还没有公布发布时间, 但是我们几乎可以认为gemini 3 会平息2025最佳模型的争论

Gemini 2.5 pro : 除了写代码之外最好的大模型, Product Planning / Chat 的最佳模型, AI Studio几乎免费用

Qwen (真正的OpenAI)

qwen3 Max : 中国特色gemini 2.5 pro

qwen3 coder plus : 狗都不用, 但是必要的时候可以当狗

GLM Kimi MiniMax (整挺好)

glm4.6 : 能力很好, Coding Plan也很好, 但是最近在降智

Kimi K2

Minimax-M2

DeepSeek (我卡呢?)

大家举起双手把力量借给DeepSeek 👐👐👐

DeepSeek-V3.1-Terminus

DeepSeek-V3.2-Exp

主流的AI Coding工具

我们可以按照交互的形式主要分为三类

VsCode-Fork: GUI Local, Fork VsCode 的发行版 , 使用 OpenVSX 作为插件来源 , 集成AI能力增强代码编写体验
CLI: 在命令行中与Agent进行交互, 对运行环境有最好的支持, 一般能够轻易的在CICD 中集成, 配合前后端分离的架构可以配合VSCode插件使用
Web/Remote Agent: 提供最开箱即用的能力, 开发环境完全托管远程, 控制能力较弱, 价格较贵

VsCode-Fork

赞美VsCode, 你是IDE的终点, 你是AIDE的起点. GUI > CLI !!!

V门

大部分耳熟能详的AI IDE都是基于VsCode来做, 包括但不限于:

***Cursor*** : 最流行的AI Coding工具, 开箱即用, 最好的complete功能, 定价变化大
Windsurf: 无功无过
Trae: 字节出品, 做的不错, 重新设计过UI, 有SOLO模式, 创新不大
Qoder: 阿里出品
CodeBuddy: 腾讯出品
开源: Void(不再维护了)
开源Coding插件: Cline / Roo Code / Kilo Code / continue.dev

最大的优势是: 用户习惯迁移非常方便. 缺点是: 同质化非常严重

Auto Complete

快速自动补全是所有的AI IDE的最基本功能之一, 由此演变来的功能一般还有:

当然了, 有开源的项目提供了类似的能力, 一般支持FIM的小模型都能够顾胜任此工作

Commit Message

根据代码变更自动生成Commit Message

Coding Agent

这部分的实现和交互和CLI Agent比较类似, 会在下一个大节详细描述

CLI

CLI交互天生就有一种严肃性, 同时CLI也有最广泛的适用性

Cluade Code : 目前最强大特性最丰富普适性最强的的Coding工具
Codex CLI : 功能非常简陋, 纯靠模型能力硬顶
***iflow*** : 国产CC
gemini cli : 做的也很简陋, 但是更新迭代快, 配合gemini2.5pro的1M上下文非常的爽!
auggie / cursor cli: 狗屎

Web/Remote Agnt

非专业开发人员的福音:

几乎没有环境依赖

一般配有在线预览 + 快速部署的功能

非常适合做DEMO验证

v0.dev

lovable

bolt.new

个人使用经验

提升AI Coding质量的最有效方法:

提供高质量高相关度的上下文, 至少是包含相关的上下文

合理的划分任务, 每次专注于一个任务

CLAUDE.md / AGENTS.md

CLAUDE.md 和 AGENTS.md本质上都是注入到Context里的提示词, 在claude code的实现中, 会将 User / Project 的CLAUDE.md 都插入到Context中.

实现原理

<system-reminder>
As you answer the user's questions, you can use the following context:
# claudeMd
Codebase and user instructions are shown below. Be sure to adhere to these instructions. IMPORTANT: These instructions OVERRIDE any default behavior and you MUST follow them exactly as written.

...

</system-reminder>

如何使用?

使用 /init初始化Claude.md
使用 # content添加到Claude.md

记录什么东西

DO NOT xxx, because xxx
Always use xxx to do xxx

{项目概况: 名称/技术栈/架构}

## 核心技术栈

## 项目架构

## 开发命令

## 关键配置

## 开发注意事项

Chat more before coding

这是最简单的最推荐的提升AI Coding质量的方法, 多聊几轮

如果有Plan模式, 那么先使用Plan模式, 直到AI能够彻底理解你的需求, 并且给出了合理的方案

或者说并不是 “Chat More” 而是 “先调查, 再规划, 再写代码”

SOP Coding

重复自己是最无聊的事情

如果在堆积业务代码, 非常推荐整理出一个SOP, 后续再开发的时候让AI Follow 这个SOP进行编程.

有两种办法:

在commit之前, 让AI总结操作步骤, 并且写入到项目的文档目录中, 做持久化管理
使用recorder 自动记录你的操作行为成日志, 生成操作文档

Option Coding

在Claude Code的 2.0.21的更新中, 引入了一个新的功能: interactive question tool

简单来说: AI可以主动向你发文, 你可以做选项回复.

对于懒得打字的朋友们来说, 简直是福音.

做选择题, 总是要比做填空题爽是不是?

一般来说在plan模式下, 会更加主动的调用AskUserQuestion这个工具, 来让用户进行选择.

所以, Enjoy yourself

llmdoc

文档系统在AI Coding中只会越来越重要.

LLM没有长期记忆, 全部依赖于Context, 文档系统本质上就是外挂了一个持久化数据层.

帮助AI快速获取充分的信息.

我这里以我们后端系统的文档建设举例.

当然了, 全部都是AI生成的, by cc-plugin

MCP

寻找MCP

现在几乎所有主流的AI SaaS服务都有提供MCP, 如果你感兴趣可以在这里主流的平台中寻找MCP:

常用MCP

chrome-devtools-mcp: Browser use, 谷歌出品, 调用浏览器, 获取Console/网络请求日志
K8S: 注意要使用 readonly模式%20(default%20%22table%22)-,%2D%2Dread%2Donly,-If%20set%2C%20the)
github: 和Github交互 (虽然我认为使用 gh cli + Bash Tool 是更好的解决方案)
ref: 提供准确的文档, Better than context7 贵的东西的缺点只有贵 :(
context7: 虽然我认为用处不大, 但是推荐尝试
***figma*** : 尽管我几乎不使用figma, 但是由于figma巨大的影响力, 还是加上, 防止有些人竟然不知道

不要使用的MCP

serena: 太多的重复功能, 不稳定的LSP, 你不会需要这个的.
所有超过10个tools的MCP, 只会让你的Coding Agent变成笨蛋

不要使用MCP

使用Tools是有代价的, Tools并不是LLM天生就会的事情.

从ReAct开始, 工具调用能力被认为是提升Agent解决问题的能力重要组成部分, 在2025年, 号称是 “?Agent元年”, 几乎所有的模型都在强调工具调用能力, 就像是人使用手一样

MCP带来的最重要的进步: 一个更容易接入,实现更自由的, 平台框架解耦的Function Call / Tools

但是MCP是有代价的, 而且是昂贵的代价, 每一个MCP Tools都占用一个昂贵的Tool的位置, Claude Code为了能够强化其ToolUse的能力, 在System提示词中做了巨大的强调 (530 Token, 约25%)

# Tool usage policy
- When doing file search, prefer to use the Task tool in order to reduce context usage.
- You should proactively use the Task tool with specialized agents when the task at hand matches the agent's description.
- A custom slash command is a user-defined operation that starts with /, like /commit. When executed, the slash command gets expanded to a full prompt. Use the Skill tool to execute them. IMPORTANT: Only use Skill for commands listed in its Available Commands section - do not guess or use built-in CLI commands.
- When WebFetch returns a message about a redirect to a different host, you should immediately make a new WebFetch request with the redirect URL provided in the response.
- You can call multiple tools in a single response. If you intend to call multiple tools and there are no dependencies between them, make all independent tool calls in parallel. Maximize use of parallel tool calls where possible to increase efficiency. However, if some tool calls depend on previous calls to inform dependent values, do NOT call these tools in parallel and instead call them sequentially. For instance, if one operation must complete before another starts, run these operations sequentially instead. Never use placeholders or guess missing parameters in tool calls.
- If the user specifies that they want you to run tools \"in parallel\", you MUST send a single message with multiple tool use content blocks. For example, if you need to launch multiple agents in parallel, send a single message with multiple Task tool calls.
- Use specialized tools instead of bash commands when possible, as this provides a better user experience. For file operations, use dedicated tools: Read for reading files instead of cat/head/tail, Edit for editing instead of sed/awk, and Write for creating files instead of cat with heredoc or echo redirection. Reserve bash tools exclusively for actual system commands and terminal operations that require shell execution. NEVER use bash echo or other command-line tools to communicate thoughts, explanations, or instructions to the user. Output all communication directly in your response text instead.
- VERY IMPORTANT: When exploring the codebase to gather context or to answer a question that is not a needle query for a specific file/class/function, it is CRITICAL that you use the Task tool with subagent_type=Explore instead of running search commands directly.
<example>
user: Where are errors from the client handled?
assistant: [Uses the Task tool with subagent_type=Explore to find the files that handle client errors instead of using Glob or Grep directly]
</example>
<example>
user: What is the codebase structure?
assistant: [Uses the Task tool with subagent_type=Explore]
</example>

又是policy, 又是few shot, 然后一个 mcp add 引入了20个额外的tools + 巨大的无聊的Description , 完全没有经过设计的Response, context 已经完全不够用了!!!!

我建议你只使用0-2个MCP, 在不需要的时候及时关掉

唯一推荐的使用方式是, 在支持多Agent的工具中, 为每个Agent开启一个MCP, 例如Claude Code Subagent.

下图为我在CherryStudio中使用MCP, 尽量让一个Agent做一件事情, 专注于使用一类工具.

MCP是灾难, 调休也是.

我还使用哪些AI工具

***Cherry Studio*** : 桌面AI工具, 好用, 强烈推荐
***Gemini*** : 我是Gemini的付费Pro会员, 强烈推荐
***AIHubMix*** : AI代理提供商, 提供几乎所有的主流模型, 强烈推荐
***notebooklm*** : Google出品, 我一般用来做知识库使用, 强烈推荐
Dify: 懒得写代码的时候我会直接用Dify接一些简单的功能, 比如说简单的Chat之类的工作. 比如说这里的面试官小工具
zread / deepwiki: LLM帮你分析开源repo

上下文工程

这里要讲的东西有点太多了, 根本说不完.

这里给出我认为非常适合学习的材料, 感兴趣的可以自行阅读

结构化提示词 : 一个入门教程

AI代理的上下文工程：构建Manus的经验教训 : Agent必吃榜第一

Manus AI Agent 分享PPT : Agent必吃榜第二

Context Rot: More Input, More Stupid

评估LLM的上下文能力: 1M上下文是童话故事

Agent之殇

Tue, 14 Oct 2025 23:21:31 +0800

Agent之殇

速度, 效果, 成本这三者不可能同时达成.

速度

增加任务并发度
使用更小的模型

效果

使用超量的上下文
使用紧凑高密度的上下文
使用超量的SubAgent
使用更好的模型

成本

少的上下文
少的模型调用次数
廉价的模型

Cheap Context and Expensive Context

Tue, 14 Oct 2025 22:37:45 +0800

Cheap Context and Expensive Context

Repo

Cheap Context

SubAgent的Context是廉价的而且是一次性的

或者可以称之为 intern context 像实习生一样非常的廉价, 执行一次性任务, 而且受限于传入上下文的限制, 显得有些笨

在这种执行环境受限的情况下, 应该用: 明确的任务划分+明确的输出 + 廉价的上下文(廉价模型)

Expensive Context

主Agent的Context是昂贵的:

一旦压缩一定会出现执行漂移.
高性能大模型昂贵的价格

主Agent

负责调度的Agent
负责任务解决的Agent
负责核心输出的Agent

体验一下

在claude中

# 添加 TokenRoll 插件市场
/plugin marketplace add https://github.com/TokenRollAI/cc-plugin

# 下载tr插件
/plugin install tr@cc-plugin


# 强调使用bg-worker
# Always consider use bg-worker to solve simple task

Solution

在cc-plugin的bg-worker中, 解决方案十分粗暴, 毫无技术含量.

SubAgent + 明确的任务划分+明确的输出 + 廉价的上下文来换取主Agent上下文的紧凑 + 总成本的降低

效果

使用的Repo: https://github.com/zeromicro/go-zero
需求: 告诉我这个项目的结构如何?

省流

Context 和 Cost 节省效果明显

normal:    27.4k    $0.1304
bg-worker: 16.2k    $0.0867

发展方向

并发的使用廉价模型SubAgent 为主Agent提供紧凑高密度上下文
主Agent的作用: 任务划分/总结/判断 + 核心内容输出

实验对比

1. 不使用bg-worker


 ▐▛███▜▌   Claude Code v2.0.14
▝▜█████▛▘  Sonnet 4.5 · API Usage Billing
  ▘▘ ▝▝    /home/djj/code/go-zero

> 告诉我这个项目的结构如何? do not use bg-worker / scout agent

● 我来帮你分析这个项目的结构。让我先查看项目的根目录结构。

● Bash(ls -la /home/djj/code/go-zero)
  ⎿  total 156
     drwxr-xr-x 12 djj djj  4096 Oct 13 22:19 .
     drwxr-xr-x 17 djj djj  4096 Oct 13 21:17 ..
     … +22 lines (ctrl+o to expand)

● Bash(find /home/djj/code/go-zero -maxdepth 1 -type d | head -20)
  ⎿  /home/djj/code/go-zero
     /home/djj/code/go-zero/gateway
     /home/djj/code/go-zero/internal
     … +8 lines (ctrl+o to expand)

● Read(README.md)
  ⎿  Error reading file

● Read(readme.md)
  ⎿  Read 253 lines

● Bash(ls -la /home/djj/code/go-zero/core)
  ⎿  total 192
     drwxr-xr-x 48 djj djj 4096 Oct 13 21:17 .
     drwxr-xr-x 12 djj djj 4096 Oct 13 22:19 ..
     … +46 lines (ctrl+o to expand)

● Bash(ls -la /home/djj/code/go-zero/rest)
  ⎿  total 124
     drwxr-xr-x 12 djj djj  4096 Oct 14 02:11 .
     drwxr-xr-x 12 djj djj  4096 Oct 13 22:19 ..
     … +18 lines (ctrl+o to expand)

● Bash(ls -la /home/djj/code/go-zero/zrpc)
  ⎿  total 60
     drwxr-xr-x  4 djj djj 4096 Oct 13 21:17 .
     drwxr-xr-x 12 djj djj 4096 Oct 13 22:19 ..
     … +10 lines (ctrl+o to expand)

● Bash(ls -la /home/djj/code/go-zero/tools)
  ⎿  total 12
     drwxr-xr-x  3 djj djj 4096 Oct 13 21:17 .
     drwxr-xr-x 12 djj djj 4096 Oct 13 22:19 ..
     drwxr-xr-x 25 djj djj 4096 Oct 13 21:17 goctl

● Bash(ls -la /home/djj/code/go-zero/gateway)
  ⎿  total 44
     drwxr-xr-x  3 djj djj 4096 Oct 13 21:17 .
     drwxr-xr-x 12 djj djj 4096 Oct 13 22:19 ..
     … +5 lines (ctrl+o to expand)

● Read(go.mod)
  ⎿  Read 125 lines

● 根据我的分析,这是 go-zero 项目的结构概述:

  项目简介

  go-zero 是一个集成了各种工程实践的 Go 语言 web 和 rpc 框架,被 CNCF 云原生生态收录。它专注于高并发服务的稳定性,具有弹性设计理念。

  核心目录结构

  1. core/ - 核心功能库(48个子模块)

  这是框架的核心,包含各种基础工具和组件:
  - conf - 配置管理
  - breaker - 熔断器
  - limit - 限流器
  - load - 负载均衡/自适应降载
  - bloom - 布隆过滤器
  - collection - 集合工具
  - stores - 数据存储(redis/sql/mongo等)
  - logx - 日志系统
  - trace - 链路追踪
  - metric/prometheus - 监控指标
  - mr - MapReduce并发工具
  - threading/syncx - 并发控制
  - service - 服务基础组件
  - discov - 服务发现
  - 其他 - hash、queue、codec、fx、executors等工具

  2. rest/ - REST API框架

  HTTP服务相关功能:
  - engine.go/server.go - HTTP服务引擎
  - router/ - 路由管理
  - handler/ - 请求处理器
  - httpx/ - HTTP工具
  - httpc/ - HTTP客户端
  - middleware/ - 中间件
  - chain/ - 中间件链
  - pathvar/ - 路径参数
  - token/ - Token处理

  3. zrpc/ - RPC框架

  gRPC服务相关功能:
  - client.go/server.go - RPC客户端和服务端
  - config.go - RPC配置
  - resolver/ - 服务解析
  - internal/ - 内部实现

  4. tools/goctl/ - 代码生成工具

  命令行工具,用于从 .api 文件生成代码:
  - 支持生成 Go、Java、TypeScript、Dart、JavaScript 等多种语言代码
  - 自动生成项目骨架
  - API 语法定义和解析

  5. gateway/ - API 网关

  HTTP API 网关功能:
  - server.go - 网关服务器
  - config.go - 网关配置
  - internal/ - 内部实现

  6. internal/ - 内部实现

  框架的私有实现细节

  7. mcp/ - MCP相关功能

  技术栈特点

  - Go 1.21+
  - 支持 etcd 服务发现
  - 集成 Prometheus 监控
  - OpenTelemetry 链路追踪(Jaeger/Zipkin)
  - 支持 Redis、MySQL、PostgreSQL、MongoDB
  - Kubernetes 集成

  核心特性

  1. 高可用性 - 熔断器、限流、负载均衡、自适应降载
  2. 微服务治理 - 服务发现、链路追踪、监控指标
  3. 并发控制 - 内置并发控制、超时控制
  4. 代码生成 - 通过 goctl 工具自动生成代码
  5. 容错设计 - 面向失败的编程理念

  这是一个典型的微服务框架项目结构,分层清晰:底层核心库(core) + HTTP框架(rest) + RPC框架(zrpc) + 代码生成工具(goctl) + API网关(gateway)。

> /cost
  ⎿  Total cost:            $0.1304
     Total duration (API):  1m 5s
     Total duration (wall): 14m 59s
     Total code changes:    0 lines added, 0 lines removed
     Usage by model:
         claude-3-5-haiku:  5.9k input, 251 output, 0 cache read, 0 cache write ($0.0058)
            claude-sonnet:  3.2k input, 1.8k output, 60.9k cache read, 18.6k cache write ($0.1246)

────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
> 
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
   Model: Sonnet 4.5  Ctx: 27.4k  Ctx: 13.7%  ⎇ master  (+146,-12)  Cost: $0.13

2. 使用bg-worker


 ▐▛███▜▌   Claude Code v2.0.14
▝▜█████▛▘  Sonnet 4.5 · API Usage Billing
  ▘▘ ▝▝    /home/djj/code/go-zero

> use bg-worker to 告诉我这个项目的结构如何?

● 我会使用 bg-worker agent 来分析这个项目的结构。

● tr:bg-worker(分析 go-zero 项目结构)
  ⎿  Done (5 tool uses · 18.8k tokens · 40.8s)

● 根据分析，这是 go-zero 项目的结构概览：

  📁 主要目录结构

  核心组件

  1. core/ - 框架核心功能库
    - 包含 timex, conf, iox, naming, netx, mathx, collection 等工具包
    - 提供并发控制、配置处理、网络工具等基础设施
  2. rest/ - RESTful API 服务
    - 中间件(middleware)、路由(router)、处理器(handler)
    - 支持完整的 HTTP 服务功能
  3. zrpc/ - RPC 服务组件
    - 基于 gRPC 的 RPC 服务实现
    - 包含解析器和内部实现
  4. tools/goctl/ - 代码生成工具
    - 快速生成微服务代码的 CLI 工具
    - 支持多语言客户端代码生成
  5. gateway/ - API 网关服务
  6. internal/ - 内部工具组件
    - 编码、mock、性能分析等功能

  🛠️ 技术栈

  - 语言: Go 1.21+
  - 服务发现: etcd
  - 监控追踪: Prometheus, OpenTelemetry
  - 数据存储: MySQL, Redis, MongoDB
  - 认证: JWT
  - 容器编排: Kubernetes

  🏗️ 架构特点

  - ✅ 微服务架构设计
  - ✅ 高性能、高并发
  - ✅ 内置熔断、限流等弹性设计
  - ✅ 自动代码生成 (goctl)
  - ✅ 丰富的中间件支持
  - ✅ 分布式链路追踪
  - ✅ 自动参数验证

  总结: go-zero 是一个生产级的 Go 微服务框架，专注于工程实践和开箱即用的企业级特性。

> /cost
  ⎿  Total cost:            $0.0867
     Total duration (API):  1m 18s
     Total duration (wall): 11m 47s
     Total code changes:    0 lines added, 0 lines removed
     Usage by model:
         claude-3-5-haiku:  10.0k input, 1.2k output, 50.3k cache read, 10.5k cache write ($0.0272)
            claude-sonnet:  8 input, 920 output, 20.9k cache read, 10.5k cache write ($0.0595)

────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
> 
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
   Model: Sonnet 4.5  Ctx: 16.2k  Ctx: 8.1%  ⎇ master  (+146,-12)  Cost: $0.09 
  ⏵⏵ accept edits on (shift+tab to cycle)

使用multi bg-worker

> use multi bg-worker to 告诉我这个项目的结构如何?

● 我将使用多个 bg-worker 代理并行分析这个项目的结构。

● tr:bg-worker(分析项目根目录结构)
  ⎿  Done (3 tool uses · 16.1k tokens · 16.1s)

● tr:bg-worker(分析主要代码目录)
  ⎿  Done (5 tool uses · 9.2k tokens · 34.4s)

● tr:bg-worker(分析核心包结构)
  ⎿  Done (4 tool uses · 10.7k tokens · 25.2s)

● tr:bg-worker(分析工具和命令)
  ⎿  Done (6 tool uses · 10.0k tokens · 27.5s)

● tr:bg-worker(分析测试和文档)
  ⎿  Done (3 tool uses · 8.7k tokens · 14.4s)

● 根据多个 bg-worker 代理的并行分析，这个项目的结构如下：

  📋 项目概述

  项目名称: go-zero模块: github.com/zeromicro/go-zero类型: Go 语言微服务框架Go 版本: 1.21+

  🏗️ 目录结构

  1. core/ - 核心基础库（最重要的部分）

  包含 30+ 个子模块，提供微服务开发的基础设施：

  系统工具类:
  - utils, lang, stringx, mathx, timex, codec, hash

  并发与系统:
  - threading, syncx, proc, executors, contextx

  网络与服务:
  - netx, naming, service, discov, configcenter

  存储与数据:
  - stores, collection, queue

  日志与监控:
  - logx, logc, metric, prometheus, trace

  稳定性保障:
  - limit(限流), breaker(熔断), rescue(异常恢复)

  其他工具:
  - bloom, jsonx, mapping, validation 等

  2. tools/goctl/ - 代码生成工具

  强大的命令行工具，支持：
  - API 代码生成（Go, Java, Dart, TypeScript 等）
  - RPC 服务生成
  - 数据模型生成（SQL, MongoDB）
  - Docker/Kubernetes 配置生成
  - 项目迁移和环境管理

  3. internal/ - 内部实现

  包含 encoding, mock, profiling, trace, health 等内部模块

  4. gateway/ - 网关相关功能

  5. rest/ - REST API 框架

  （从 git status 看到有 rest/middleware/ 未提交文件）

  📊 项目规模

  - 测试文件: 373 个 *_test.go 文件
  - 文档文件: 25 个 Markdown 文件
  - 核心代码: 约 467 个 Go 文件（仅 core 目录）

  🎯 核心特性

  1. 微服务架构: 完整的微服务解决方案
  2. 服务治理: 服务发现、负载均衡、熔断、限流
  3. 可观测性: 集成 OpenTelemetry、Prometheus 监控
  4. 多存储支持: Redis、MySQL、MongoDB
  5. 代码生成: 通过 goctl 快速生成项目脚手架
  6. 高性能: 适合高并发场景

  📝 架构特点

  - 模块化设计: 每个目录职责明确
  - 库项目: 主要作为框架库使用，而非独立应用
  - 完善的测试: 大量单元测试覆盖
  - 文档分布式: 各模块都有独立的 README

  这是一个成熟的、生产级别的 Go 微服务框架，提供了从基础工具到服务治理的完整解决方案。

> /cost
  ⎿  Total cost:            $0.1845
     Total duration (API):  3m 8s
     Total duration (wall): 3m 27s
     Total code changes:    0 lines added, 0 lines removed
     Usage by model:
         claude-3-5-haiku:  20.6k input, 4.9k output, 171.0k cache read, 52.5k cache write ($0.1024)
            claude-sonnet:  8 input, 1.9k output, 20.9k cache read, 12.7k cache write ($0.0820)

────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
> 
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
   Model: Sonnet 4.5  Ctx: 18.4k  Ctx: 9.2%  ⎇ master  (+146,-12)  Cost: $0.18 
  ⏵⏵ accept edits on (shift+tab to cycle)

缺陷

真的有如同看起来这么美妙吗?

NO! NO! NO!

至少目前看有这么几个问题:

如果使用并发模式来调用bg-worker的话, 如果认为划分的过于简单, 会出现主Agent的输出 + 读取成本高于bg-worker的运行节省的成本, 尽管还是可以节省主Agent的Token, 但是不再具备成本优势
bg-worker执行的任务越复杂,越具备成本优势,执行效果越差.

AI编程的一些思考

Mon, 18 Aug 2025 00:54:20 +0800

AI编程的一些思考

链接

AI Chat

任务的划分

我们不妨将任务按照如下标准进行划分

对于上下文的依赖
问题的确定性

对于上下文依赖度有两个评价高 / 低: 高的上下文依赖度指的是: 如果一个任务无法从少的信息中找到解决方案, 例如需要读相关的多个文件/文档/DB才能够有解决方案, 那么我们可以认为这是高上下文依赖.

问题的确定性指代的是: 目标和解决路径是否清晰, 判断标准是否是客观的. 如果能够给出一个详细的解决方案(修复XX文件的XXbug), 有明确的判断标准(API接口返回XXX), 我们可以认为这个问题的确定性是高的.

按照这两个维度, 我们可以划分出四类任务:

高依赖, 高确定: 修复BUG
高依赖, 低确定: 设计产品的架构, 拆分微服务
低依赖, 高确定: 实现算法 / 写一个脚本
低依赖, 低确定: 构建产品 demo / mvp

哪些任务AI完成的好呢? 依赖越低, 确定性越高的任务, AI完成的越好.

如果一个任务难以完成, 那么可能是什么问题?

我觉得可以归类为两个主要原因:

需要构建的上下文非常的复杂, 无法靠CodeIndex或者context engine 完成构建完整的信息
指令不够清晰: 需要在XX条件下, 解决XX文件, 验证方式是XX, 参考XX

Code Agent能够一定程度上解决问题1, 因为会主动的通过文件读取/Grep的方式来填充上下文, 但是对于问题2, 是几乎无法解决的: PM给你提了一个一句话需求.

信息与指令

上下文的本质就是填充信息和指令

信息: 是否包含解决问题的线索, 实际上就是上下文依赖性
指令: 是否明确的指出来要解决的问题, 怎么解决, 怎么验证, 实际上就是问题确定性

信息

Coding应该填充什么信息: 人和AI需要知道的信息一样多.

或者这样说: 我们是怎么解决一个问题 / 实现一个需求的?

我觉得一个误区是: 除了Repo之外, Coding就不需要任何上下文了, 可是现实世界里: 从0-1的了解一个项目, 开始写代码需要多少准备?

项目的背景 / 业务 / 目标用户群体
产品需求 / 迭代方式 / 历史项目的功能
环境依赖 / 三方依赖 / 服务依赖 / 约定 & 配置
代码结构 / 服务架构 / 封装的命令 / 以及一些Tricky的小设计

完成以上准备之后, 我们才能够基本认为能够开始接受写一些简单的功能开始更快的上手.

但是当我们开始使用AI Coding时, 我们几乎立刻忽略了AI每一次都在从头开始, 几乎每一次都从Context里重新学习这些信息.

为什么总是觉得AI表现不够稳定, AI老是乱改你的代码…

我觉得这就是原因: LLM一直在一个狭小的鸟笼中起舞, 一直在一个几乎可以被称之为严苛的环境中工作.

一个基本的启示是: 用各种rules也好, 用context engine也好, 给出充分的信息或者给出获取信息的线索(例如去哪里读文件之类的)

指令

指令是什么?

解决什么问题, 怎么解决问题, 怎么验证问题.

但是很不幸的是, 能够说清楚这三点的是少数人.

前端时间的SPEC / SOLO做的都是一样的事情: 试图填充更多的信息, 试图用看起来更清晰的指令来获得更好的编程效果.

但是答案是: 不够好.

你没有办法在一个不够好的底座(一个不清晰的需求/问题)上建造摩天大厦. 换句话说: 你要在一开始就给出一个出色的的指令.

出色的指令? 可是什么是出色的指令?

简单清晰, 可读可理解的表达方式
详细描述遇到的问题, 复现的步骤
如有: 给出参考的解决步骤(例如使用recorder做过录制), 可能的解决思路
如有: 哪些代码/文件夹下可能会有帮助
怎么验证问题, 是否要验证问题

如果对应到新的需求开发上, 那就变成了:

简单清晰, 可读可理解的表达方式
背景 / 历史相关功能 / 用户故事
详细的需求描述
如有: 技术架构等等信息
如何判断为可以使用

总之: 不是仅仅给出一个报错 / 一个一句话需求 / 特别发散但是没有客观评判标注的指令.

‍

This message is used to verify that this feed (feedId:183116311782603776) belongs to me (userId:71543040946950144). Join me in enjoying the next generation information browser https://folo.is.

‍

Code is cheap, show me your chat!

Sun, 10 Aug 2025 02:10:06 +0800

Code is cheap, show me your chat!

Repo地址

目前的情况

背景

我不想再看那些全部都是由AI写的Github Repo了.

我觉得没有意义, 连README都是AI写的. 有些项目确实解决了问题, 但是看到那个AI味满满的README, 就是点不下Star.

在代码编写变得廉价的时代, 什么是珍贵的?

在思考了几个月之后, 我的回答是两个方向人类的经验以及人类的问题

为了解决经验如何传递给AI的问题, 我做了 recorder 这个项目, AI像一个旁观者一样, 观察你的workflow, 然后复制. 好像解决掉一部分问题了.

那么: 人类的问题呢? 或者说: 在尝试和AI共生的时代, 人是怎么样和AI交流的?

他们该怎么提出问题的?

提出什么样的问题?

只有人类能提出问题吗?

这就是 show-your-chat 的来源.

Code is cheap

是的, 朋友. 承认吧: 代码是廉价的.

你噼里啪啦敲了一天的键盘, 最后AI狂喷 200 Token/s, 5分钟写完了.

在Claude 3.5出现之后, 我在cursor上编写代码时, 第一次感觉到了惶恐或者说恐惧.

我看到了一个灰色的未来, 我像是一个纺织女工第一次看到蒸汽机一样.

是的: 写代码一定会变成一项基本能力, 就像是吃饭喝水一样. 至少: 写代码这件事情不会成为一个行业壁垒.

这就是我恐惧的来源: 我会被替代掉.

在2025的时间节点来看, AI写的代码很发散, 可以做一个很快速的Demo, 可以参与工作流, 但是还是比较难替代.

但是以后呢?

写代码的成本已经低了太多了! 不是所有项目都需要承担100W QPS的流量, 我只想写个Demo. 写Demo谁能快的过AI?

在用了recorder之后, 堆屎山也不见得快的过AI

我悲观的认为: 对于大部分程序员来说, code is cheap and cheaper.

Show your chat!

什么是珍贵的?

我现在坚定的认为: chat

或者说: 一个人的能力上限取决于, 他有多能和AI chat, 越会chat的人, 上限越高.

于是, 我发起了这个项目: show-your-chat

做什么?

分享: 分享对话, 分享提示词

为什么?

Chat > Code , 我不想你用代码说话了, 给我看你的Chat吧.

怎么做?

通过Github Issue来发布和分享, 这是在做TalentHub时迸发的想法
主流的ChatAPP都支持分享聊天记录, 只是缺少一个聚合的平台而已
Gitub Issue本身就有良好的社区讨论的能力, 赞踩评论, 时间/热度筛选, 足够用了
LLM自动打标, 足够一般用户来打标和使用了

需要你的帮助

互联网的精神是分享

我也是一个积极的混迹开源社区的小虾米

我需要你的帮助:

如果你有有意思的Prompt , 如果你有和AI聊到天昏地暗的Chat, 如果你愿意分享: 请, 你会得到社区的感谢!

如果你就是想看看, 给项目点个star, 后续我们会推出周报/日报/RSS服务, 敬请期待.

‍

以上.

‍

如何使用Github Action

Sat, 09 Aug 2025 12:20:47 +0800

如何使用Github Action

为什么需要Github Action

本质上是CICD

Code Format
Bug Check (By LLM)
密码泄露
单元测试集成

但是因为Github的社区属性, 所以还有一些需要特别注意的东西:

Issue的处理: label, assign …
PR Review: AI Check …
Release发布
文档更新发布

常用的Github Action

autofix.ci 自动的执行Format并且提交
Auto-Release push tag之后自动发布release
secret检测自动检测是否有泄露的密码/秘钥
Issue Labeler 根据当前项目通过AI自动打label
PR Review Gemini自动的Code Review

Github APP

Gemini AI Assistant Google官方出品, 目前免费
Codecov 代码覆盖率

怎么找到合适的Github Action

官方MarketPlace

在官方的MarketPlace中找吧.

‍

好文分享: As Code

Mon, 04 Aug 2025 17:39:58 +0800

好文分享: As Code

原文地址

hashicorp的大名早就听说过了, 今天正好看到了其联合创始人的一篇文章: As Code

文章很短. 只有一页不到, 其中的观点让我觉得很受教. 分享出来一起学习.

as code 是一个非常值得深究的话题, K8S 可以称之为 Deployment as code, Terraform可以称之为 Infra as code.

当一种技术能够被as code的时候, 证明了两件事情:

成体系
能够复用/分享/传播

引用原文中的一段:

My intent with “X as Code”³ was always to get knowledge out of people’s heads and into a more inscribed system. Once inscribed, knowledge and process can be shared, versioned, iterated upon, etc.

The relation to programming is that codified knowledge tends to also be computer-readable and comes with the full benefits of that (e.g. automation, validation, etc). However, I don’t believe that implies that all the requirements of modern programming should be applied to “as code” systems.

其中最好的一句话是: 一旦具象化, 知识和流程就能够被分享, 版本管理, 迭代优化.

在recorder的开发中也是秉持着同样的思路: 一个高质量的代码提交, 结果非常重要, 但是得出结果的过程同样重要.

于是recorder的核心就变成了: 过程 as code. 将构建代码的过程定义成代码.

听起来有点傻逼, 核心是: 只看结果是不够的, 要给AI看过程, 过程是重要的.

‍

SOP Coding

Sat, 02 Aug 2025 00:38:00 +0800

SOP Coding

我不喜欢Vibe Coding

我不喜欢一句话说下来生成了几百行代码, 无用的功能和复杂的逻辑堆叠在一起.

我不喜欢让LLM赤裸的玷污我的代码库, 所以除了一些Demo项目, 或者是演示项目, 我都会谨慎的使用LLM

我曾经是狂热的Vibe Coding的支持者, 但是在越来越深入的使用之后, 我觉得LLM需要的不是上下文提供更多的信息, 而是需要上下文提供更多的限制.

现在的LLM是一份非常聪明的实习生, 聪明到比你更聪明, 更懂"写代码", 但是不懂得你的业务.

所以: 你需要的不是Vibe Coding, 而是SOP Coding.

我使用 recorder生成操作记录, 然后用SPEC-mcp生成SOP.

提供项目的上下文, 以及告诉他"做的事情", 以及一个好的指引. 剩下的就是相信LLM, 相信最聪明的AI能够带着镣铐跳舞.

换句话说: 你不能够完全详细AI, 但是你可以相信一个有着良好的指引和清晰目标以及严格束缚的AI编写的代码.

所以, 我向你推荐SOP Coding. 提供给AI一个非常切实可行的指引. 然后让他学习抽象其中的关键步骤, 然后你就可以相信他.

比起Vibe Coding想要更加解放AI的方案, 在严肃的线上项目中, 我会倾向于立下规矩, 使用SOP Coding.

SOP 示例

这是一个基于go-zero开发的示例

# SOP 模板: 添加新的API路由

## 概述
本SOP（标准操作程序）旨在指导开发人员在现有服务中添加一个新的API路由。该过程涵盖了从定义API路由、生成初始代码、到实现业务逻辑的完整流程。此模板旨在确保所有新路由的添加都遵循统一的、可重复的最佳实践。

## 循序渐进指南

### 步骤 1: 定义API路由
*   **描述:** 此步骤的核心是在 `.api` 文件中定义新的API路由。这是代码生成工具识别和创建相应处理器（handler）与逻辑（logic）文件的基础。
*   **操作详情:**
    *   修改文件: `api/web/dsl/[service_name].api`
      ‍```diff
      // 在适当的 service 块内添加新的路由定义
      +    @handler [HandlerName]Handler
      +    [http_method] /[route_path] ([RequestType]) returns ([ResponseType])
      ‍```

### 步骤 2: 生成代码
*   **描述:** 使用 `make` 命令来触发代码生成器。此工具会根据在 `.api` 文件中的定义，自动创建或更新处理器（handler）、逻辑（logic）以及路由（routes）文件。
*   **操作详情:**
    ‍```bash
    # 运行此命令以生成必要的API文件
    make api SERVICE_NAME=[service_name]
    ‍```

### 步骤 3: 实现业务逻辑
*   **描述:** 在这一步，您需要在新生成的逻辑文件中实现具体的业务逻辑。代码生成器已经为您创建了必要的文件和函数骨架。
*   **操作详情:**
    *   修改文件: `api/web/internal/logic/[handler_name]_logic.go`
      ‍```go
      // 在生成的函数中填充业务逻辑
      func (l *[HandlerName]Logic) [HandlerName](req *types.[RequestType]) (resp *types.[ResponseType], err error) {
          // TODO: 在此实现您的业务逻辑
          return
      }
      ‍```

## 关键分析与总结

### 关键文件原型
*   **API 定义文件 (`api/web/dsl/[service_name].api`):** 这是项目的"蓝图"。所有新的API路由都必须在这里定义。它是代码生成器的输入，决定了后续生成文件（如处理器和逻辑文件）的结构。
*   **处理器文件 (`api/web/internal/handler/[handler_name]_handler.go`):** 该文件负责解析传入的HTTP请求，并将其传递给相应的逻辑文件进行处理。它通常是自动生成的，并且在大多数情况下不需要手动修改。
*   **逻辑文件 (`api/web/internal/logic/[handler_name]_logic.go`):** 这是实现业务逻辑的核心文件。所有的数据处理、与数据库的交互以及其他核心功能都应在此文件中实现。

### 文件关系模式
*   API路由的生命周期始于 `.api` 定义文件。
*   `make api` 命令会读取 `.api` 文件，并生成或更新相应的处理器和逻辑文件。
*   处理器文件作为请求的入口点，将请求转发给逻辑文件。
*   逻辑文件包含核心业务逻辑，并在处理完请求后返回结果。

### 主要变更与次要变更
*   **主要变更 (核心逻辑):**
    *   在 `.api` 文件中对路由的定义。
    *   在逻辑文件中对业务逻辑的实现。
*   **次要变更 (自动化生成):**
    *   处理器文件的生成。
    - 逻辑文件的初始框架。
    - 路由文件的更新。

    开发人员应将主要精力集中在核心逻辑的变更上，而次要变更则可以被视为自动化流程的结果。

Enjoy yourself.

JSUT DO ONCE

Fri, 01 Aug 2025 21:52:30 +0800

JSUT DO ONCE

recorder + SPE-mcp = Perfect SOP!

LLM + SOP = JUST DO ONCE!

不要重复你自己, 只做一遍, 剩下的交给AI

写代码, 尤其是业务代码, 增加API/添加新的组件/重复的SQL.

你并没有成长, 你将你的时间浪费在你早就的会的地方, 你只是重复自己第一天就熟悉的工作.

或者说: 你在浪费你的生命.

DRY & SOP

DRY

SOP

DRY

DRY指导了软件开发抽象的基本原则: 用一个抽象的概念或者不冗余的架构来减少代码的重复.

但是, 很尴尬的事情是, 有些事情的重复是无法避免的

增加配置项
增加多语言
增加一个API接口
增加一张表
增加一个对外部依赖的Service服务

但是一直在一线工作的你也许会有这样一种感觉: 工作内容确实比较类似, 但是非要抽出一个特别抽象的概念会使的代码的架构异常晦涩, 合作的同事几乎难以明白, 主管在Review时也会不断地挑战你

SOP

SOP(standard operating procedure)是一个非常有趣的概念: 总是用同样的办法做同一件事情

SOP就是最终的抽象, 不允许做任何流程上的修改, 员工必须严格遵循此标准.

这是严苛的, 甚至是反人类的做法每一次的步骤都要和之前的步骤一致.

但是: 这种严苛和反人类是非常适合LLM的.

给出了每一个操作步骤的 WHERE & WHAT & HOW
LLM天生的泛化能力, LLM不是笨蛋, 天生具有强大的泛化能力
1. 一个几乎完美的新手: 总是一点就通, 总是能够给你惊喜
2. 一个思维跳跃的混蛋: 总是想要改掉你的垃圾代码, 总是添加了不需要的功能

VibeCoding无法解决重复

Vibe Coding, 听起来多美好的一个词汇, 只要说一说, AI就帮你生成了应用.

但是, 但是这不是没有代价的

你必须用足量的甚至超量的context给LLM, 才能获取令人满意的回答

很多时候, VibeCoding就是在扮演一个令人不悦的产品经理: 你必须要一遍一遍的重复你的要求, 甚至是严厉的批评和反对. 最重要的是: 很多人在不断地重复的Vibe一个Demo, 却鲜少将其用在自己的生产业务中.

为什么? 因为你给出的指令不够清晰!

是的, 因为你的指令不够清晰, 甚至可以说是混乱而且自相矛盾的.

增加XX功能
不要添加XX功能

这是不是你和LLM对话时最常用的几句话?

扪心自问: 在软件工程中, 这些信息足够充分吗?

添加哪些功能? 这些功能重要吗? 关联哪些其他的功能? 对于代码架构的挑战是什么? 哪些功能是最重要的? 排期如何? 是否要新增接口? 对于存储的需求是怎样的? 以后是否会有一些关联的拓展功能?

这就是VibeCoding无法解决的重复, 也就是说:

你几乎无法无法提供这些完美上下文
LLM会"漂移": 一些不重要的功能反而优先实现了, 重要的功能却草草了事

LLM + SOP

所以以上的所有问题有没有解决方案?

有的! LLM + SOP 能够解决!

或者说: 能够解决掉最让你厌烦的重复的部分.

DRY的意思也可以是: 人类只做一次, 然后让AI去重复!

SOP的意思是: 人类做的这一次就是需要遵循的规范和标准!

然后, 你会发现: 原本需要费劲心思组织的上下文变成了非常具体的规则的约束.

去什么目录? 搜索什么变量? 怎么修改?
执行什么命令? 有什么样的返回?
怎样增加代码? 怎样删除代码? 怎样修改代码?

然后问题就变成了: 应该怎么提供这些信息呢?

recorder + SPE-mcp = 人类操作信息 + SOP生成器 = 一份几乎完美的SOP!

原本SOP的问题是: 太过于死板.

但是AI生成SOP + AI执行SOP的作用是: 利用LLM的泛化和学习能力, 将一个死板的SOP在执行时泛化到其他的任务.

recorder

recorder的作用就是记录人类的操作步骤: operation log, 包括增删改查以及命令行执行

几乎是完全无感知的, 因为他不需要你做任何的输出.

SPEC-mcp

根据 operation log 推测操作的目的, 并且总结操作步骤生成一个十分具有可读性的 SOP文档

LLM执行SOP

那么问题来了, 怎么让LLM执行SOP?

很简单, 主流的AI IDE都支持: @

简单来说只要你通过 @ 将SOP的内容载入上下文中, 那么就完成了.

如果你有一些特别需要嘱咐的内容: 只需要在聊天框中说出来.

一切都是丝滑无比, 而且最重要的是: 在SOP的约束下, 你甚至不需要用太过于高性能的模型来编程, 用一些次旗舰同样能获得极好的效果.

另外最重要的是: 不仅仅是写代码, SOP文档本身就可以作为项目文档提供给其他同事.

现在, Enjoy yourself, 去解放你自己吧.

‍

NSFW:脱掉衣服的时刻

Fri, 01 Aug 2025 19:13:23 +0800

NSFW:脱掉衣服的时刻

是的, 不要碰NSFW, 这里的主体是:公司以及产品.

你可以适当的放宽审核策略, 生成更大尺度的内容. 这不过是从传统内衣到比基尼的区别.

但是一旦做了NSFW, 往往是没有底线了. 今天是脱掉衣服, 明天就要开始调教, 后天就是母狗了.

我的问题是: 为什么不能堂堂正正的挣钱?

或者, 在这个AI智能极速飞升的时代, 在场景应用亟待挖掘的时刻: 为什么要做NSFW?

我们的品牌就这么不值钱吗? 我们的身段就这么柔软吗?

或者说: 已经渡过了最难的起步阶段了, 明明有人力和资源去探索更广泛的场景应用, 为什么要脱掉自己的衣服?

让人失望, 实在是让人失望

我只知道: 互联网 -> PC互联网 -> 移动互联网 -> AI时代, 最后的赢家从来不是老鸨.

怎么推销技术?

Mon, 28 Jul 2025 10:55:34 +0800

怎么推销技术?

前段时间我意识到一个问题, 我写了很多东西, 做了不少小玩意. 然后给谁用呢?

当意识到这个问题的时候我非常的惶恐, 因为我发现好像真的没有什么渠道能够让普通用户能够知道我在做什么.

codelf是因为在linux.do上做了简单的介绍, 出乎意料的获得了非常巨大的关注.

于是我开始思考: 为什么? 为什么其他人要为你的产品/项目买账? 为什么要浪费时间点进Github, 下载你的项目, 然后艰难的启动起来, 浪费五分钟之后再开始使用你垃圾的产品?

显式收益

要把收益前置, 这里的收益指的是: 让目标用户能够迅速的感觉到的收益.

试用: 如果能够有一个在线试用的体验版, 或者是直接把演示视频/Gif挂出来. 其实会非常有帮助, 你的用户能够节省大部分时间, 直接使用你的项目.
表现: 把最重要的内容显眼的表现出来, 这些内容通常是"浅薄"的, 不要用那么高大上的词汇, 把演示视频和Gif拿出来.

总之: 让用户能够显式的感受到收益, 哪怕只是看看呢

我对此感触颇深, 在新项目简历警察中, 我提前准备好了Demo 提前预热了一周.

反响非常好: https://linux.do/t/topic/801867

在一周内有超过500次调用, 要知道这个项目每次调用其实都是需要上传简历的. 统计下来至少直接接触了300+的用户

也得到了非常多的反馈, 这也让我信心大增, 后续开源的时候在一天内就收到了100+ Star

这就是我得到的第一个教训: 让用户直观地感受收益.

瞄准目标用户

我在这里还是以简历警察这个项目举例

linux.do其实是一个程序员比较多的论坛, 一个问题是程序员确实是对于找工作比较挑剔, 比较有意愿修改简历的群里.

但是, 比起修简历这个需求的全体用户群里, 还是太少了.

还有一个群体:他们简历质量通常不高, 而且在大环境的挟持下又非常的焦虑. 没错: 实习生和应届生.

什么平台上这种群体最多? 没错, 伟大的牛客网, 于是我发了这样一条帖子

我并没有直接做广告, 而是通过类似Blog的方式来完成的, 更具体来说先是介绍如何写简历 -> 简历最大的问题是数据量化/STAR -> 使用简历警察

效果其实还不错, 发布了3天, 阅读量已经超过200了, 对于内容生产上我确实缺少经验, 但我深知勤能补拙.

实时反馈

有些天才, 能够在一开始就做到提供一个几乎完美的产品.

但是大多数人是做不到的, 技术做不到, 功能做不到…

一个很重要的教训是: 尊重你的使用者, 尊重每一个使用者的建议. 你预期的体验和用户的体验总有一条鸿沟, 及时的接收用户的反馈, 及时的改正.

Codelf是如此, resumePolice也是如此, 我向你保证, 每一个反馈我都处理了.

一些很难快速实现的功能也会尽快的抽时间完成, 在完成后我也会及时通知用户.

这带来了信任, 我的所有用户都信任我的产品, 信任我的迭代速度.

我也从中收集到了很多的反馈, 用户也自发的向外推荐resumePolice. 甚至在完成了第一波各种平台的文章推广之后, 这些自发的推荐才是主要的流量来源.

只是确实非常耗费时间和精力

个人品牌

是的, 你要打造个人品牌. 哪怕你觉得自己的技术屌到可以完全不需要宣传自己.

如果你是上帝选择的那一个人, 那你可以忽略掉我的屁话, 但我想你已经看到这儿了, 或许你和我可能都有类似的困境: 有着还不错的技术能力, 乐于分享自己的认识和实践.

那么我觉得你最需要的就是通过一切手段建立你自己的品牌, 我也在探索中. 但是有一些宝贵的建议想要和你分享.

形象统一, 保持统一, 如果你叫猪头, 那么在任何一个平台你都叫猪头
内容为王, 每个平台的一般内容形式都不太一样, 非要在Bilibili上做图文分享实在是刻舟求剑.
多多推广, 诸如阮一峰的科技周报, hello github, 等等各种媒介都去投稿, 效果很显著

程序员的简历到底要怎么写?

Sun, 27 Jul 2025 10:17:34 +0800

程序员的简历到底要怎么写?

这篇文章会从HRBP以及面试官的角度聊一聊, 到底怎么样才是一份合格的简历, 以及简历中会有什么坑.

不过通常来说, 出色的简历各有各的出色, 垃圾的简历烂的千篇一律.

开源工具

这里推荐一个开源项目, 核心是一个提示词 + Dify Workflow来逮捕你的简历

简历警察

效果

黄金30秒

大部分的面试/HRBP/AST会在很短的时间内完成筛选. 你的简历应该在30秒内就让面试官明白你的最突出的优点:

履历光鲜, 有大厂经历
负责过核心项目的核心岗位
各种竞赛得奖的经验
开源贡献

所以我非常强烈的建议: 在简历的靠前位置增加一个个人摘要, 大概就是3-4句话, 按照 [你的定位] + [核心经验] + [关键技能] + [最亮眼的成就] 这个公式来介绍自己的差异化竞争能力.

例子:

一名主修信息安全的应届本科生，拥有超过4次国家/省级大型攻防演练经验。核心优势在于兼具红队攻击视角与蓝队纵深防御经验，擅长从攻击者角度审视系统脆弱性。在最近的红队演练中，通过手工渗透与漏洞挖掘，独立获得超10000攻击积分 (排名前5%) 。致力于在真实世界对抗中保障系统与数据安全。

一位拥有10年经验的数据驱动型增长负责人，专长于APP与跨境电商领域的媒介投放与全链路优化。曾主导项目实现从0到1000万用户增长，并将独立站广告ROI从0.8成功提升至2.3。具备亿级预算操盘经验，对用户增长、私域运营及商业变现有深刻理解和成功实践。

你看, 这样一句话就能够非常好的直接告诉面试官以及HRBP: 继续阅读我的简历, 我很出色.

比起干巴巴的将简历中的亮点分散到简历的各个角落, 我认为必须把握黄金30秒: 引起面试官的兴趣, 建立最佳的初印象.

求职简历的基本格式

我第一要说的就是简历的基本格式, 为什么? 笔者从毕业就开始面试, 到现在已经有五年的面试经验, 上千份的简历是看过的.

一个最基础的问题是: 很多人的简历排版和格式完全实在浪费我的时间.

我这里给出一个万金油的简历模版, 如果你对于组织简历没有特别多的想法的时候, 就按照这个模版来吧

# 信息
张三
电话: 138-xxxx-xxxx | 邮箱: your.email@email.com | GitHub: https://github.com/XXX

### 个人摘要
[你的定位] + [核心经验] + [关键技能] + [最亮眼的成就]

---

### 教育背景
**[大学]** - [专业]（[学历]） `[时间起止]`
*   **学业成绩**: 
*   **荣誉**: 

---

### 专业技能
*   **编程语言**: 
*   **数据库**: 
*   **开发框架**: 
*   **开源项目**: 
*   **LLM**: 
...

---

### 工作与项目经历

---

### 个人作品

Github 链接...

简历中的坏味道

我们不讲好的简历可能是什么样子, 我要告诉你坏的简历有什么共同点

缺少量化数据

介绍自己的项目的时候, 大量使用参与/协助这些非常弱的动词, 而且最后的成果完全没有量化, 这几乎是不能接受的.

实际上我认为除非是定性的成果, 其他情况下都应该用数据来说话.[量化指标：例如，将API响应时间从800ms优化至200ms，提升75%]

自我吹嘘

你怎么能够在简历这个寸土寸金的地方舍得用几句毫无价值的废话来虚假的吹嘘自己呢?

例如什么: 责任意识/ 性格开朗 / 善于沟通 / 热爱技术, 你觉得这些话有价值吗? 没有任何价值!

你在简历中提到优点, 都必须有佐证, 尴尬的自我吹嘘会让我对简历的好感度迅速的下降.

低价值/负价值内容

有一些简历中的内容是完全不能写进去的, 我举几个例子

计算机二级证书, 软考证书, Excel /Office
英语四级 / 大学社团 / 个人爱好
dang员 / 个人信仰

你在面试, 你在严肃的找工作, 你要把自己最专业最职业的一面展现出来, 对于一个程序员来说计算机二级该写进简历吗? Office该写进简历吗?

排版

把最关键的信息放在最上面

把最核心的内容(工作/项目)写的详细透彻, 用数据佐证

把垃圾内容全部去掉

把错别字改正

总结

如果你觉得以上的操作都非常的麻烦, 人工一个一个验证非常的困难.

好的, 再次推荐简历警察

祝大家全部成为Offer收割机, 事业长红.

‍

manus:AI代理的上下文工程：构建Manus的经验教训 (By Gemini)

Mon, 21 Jul 2025 22:58:27 +0800

manus:AI代理的上下文工程：构建Manus的经验教训 (By Gemini)

原文链接

这确实是一篇非常好的文章, 详细的内容我觉得各位可以自行去看原文, 原文的介绍已经非常详细了. 我就不再班门弄斧.

其中最吸引我的部分是遮蔽,而非移除这一段

这篇文章也只会详细解析这部分.

为什么是“遮蔽”，而不是“移除”？

在构建能执行复杂任务的 Agent 时，我们通常会为其配备多种工具（Tools/Functions）。一个直观的想法是，在任务的每一步，动态地给 Agent “装卸”工具——只提供当前步骤最可能用到的，移除那些无关的。但这会带来两个致命的问题：

性能灾难（KV缓存失效） ：大语言模型（LLM）的工具定义通常位于上下文的起始部分。在对话中途修改（增加或移除）这部分内容，会导致模型后续所有的注意力缓存（KV Cache）全部作废。这好比你正在读一本书，有人却替换了第一章，你不得不从头再读一遍才能理解后续内容，效率极低。
逻辑混乱（模型困惑） ：Agent 的记忆中可能还留存着上一步“调用了工具A”的记录，但你却在这一步把“工具A”的定义给移除了。当模型回顾上下文时，会发现一个它用过但现在却“不存在”的工具，这极易导致它逻辑错乱，产生错误的输出或幻觉。

“遮蔽”原则正是为了解决这个问题而生的。它的核心思想是：工具的完整定义列表在整个任务周期中保持不变，我们只是在 Agent 做决策的瞬间，通过技术手段暂时“蒙住”它的眼睛，让它无法选择某些工具。

这就像在你的书桌上处理项目：

移除：相当于把一张写满笔记的纸扔进碎纸机，信息永久丢失。
遮蔽：相当于把暂时不用的文件放进抽屉，桌面保持整洁，但需要时随时可以拿出来。

“遮蔽”的技术实现：API层面的约束

那么，这种优雅的“遮蔽”是如何实现的呢？幸运的是，主流的大模型提供商（OpenAI, Google, Anthropic）都在其 API 设计中为我们提供了实现这一模式的“武器”。它们将底层的 Logits 操作封装起来，提供了更高级、更易用的接口。

以下是三大厂商实现“遮蔽”模式的关键参数对比：

从上表可以看出，最标准、最通用的做法就是：在每一次API调用时，根据 Agent 当前的状态，动态构建 tools 参数列表，只把你希望 Agent 考虑的工具放进去。 而对于更精细的控制，各家则提供了不同的实现路径。

实现技巧 1：利用命名约定

原文还提到了一个非常实用的技巧来简化遮蔽逻辑：为工具名设置一致的前缀。

例如，所有与浏览器相关的工具都以 browser_ 开头 (browser_search, browser_click)，所有与命令行相关的工具都以 shell_ 开头 (shell_execute)。

这样做的好处是，你可以非常容易地实现对一整类工具的“遮蔽”或“开放”。当你的 Agent 进入“网页浏览”状态时，你的代码逻辑可以简单地筛选出所有名字以 browser_ 开头的工具，将它们填入 API 请求的 tools 参数中。

实现技巧 2：利用响应预填充（Prefilling）进行强制引导

这是一个更精细、更强大的技巧，它直接作用于模型的生成过程。

Anthropic Claude 的实现方式： 正如您所指出的，Anthropic 官方文档明确支持通过 Prompt 结构来实现预填充。你只需在整个提示的末尾，提供 Assistant 角色的开头即可。

例如，要强制 Claude 开始调用浏览器工具：

Human: Please search for the weather in Paris.

Assistant: <function_calls><invoke><tool_name>browser_

当你把以上下文作为 Prompt 发送给 Claude 时，它唯一的选择就是继续补全 browser_ 后面的部分（比如 search</tool_name>...），这就完美地实现了对其他所有工具和普通文本回复的“遮蔽”。

开源模型的实现方式： 在服务于开源模型的推理框架（如 TGI, vLLM）中，这个概念通常通过一个名为 response_prefix 的显式参数来实现，其效果与 Claude 的预填充机制异曲同工。

工作五年的思考

Sat, 19 Jul 2025 14:46:03 +0800

工作五年的思考

去年写下工作四年的思考的时候, 我抱着极度的惋惜的心情. 这是因为我在大学四年和工作的前三年就就是个混子, 我对这些浪费的时间感到十分后悔.

我经常说自己要想一块海绵, 要汲取足够多的水分, 那是因为我是干涸的,是空洞的, 必须要用有价值的东西填满自己才能够在深夜不被空虚折磨.

野心

我不想再用 找工作 这件事情来衡量自己的价值了

我加入创业公司的目标是为了获得 非线性收益, 但是快一年下来的结论是: 只有成为最核心的部分才有可能在创业公司获得非线性的收益

我已经不想给老板创造收益了, 写毫无用途的傻逼代码来折磨自己, 我现在只想立刻把自己的时间投入给自己. 但是架不住人是要吃饭的. 如果仅仅满足于在一家公司稳稳的干到死, 那真是对不起自己的一身本事

我为什么要用野心这个词呢? 我认为这代表了一种状态: 不再愿意循规蹈矩, 并且做好为了自己的反抗死掉的准备.

所以接下来一段时间:

加速个人项目的落地, 引入商业化能力
验证盈利能力, 开辟第二曲线

智能

我对AGI没有信心, 我对于AGI时代统治阶级更加没有信心.

我毫不怀疑, 如果有一天出现了真正智能, 那是真正的灾难, 底层的人会被顷刻间变为垃圾, 变为没有任何价值的垃圾.

但是我同意哪怕以现阶段的AI的能力, 也能够带来非常大的帮助.

有一些产品形态和使用方式还没有被完全的挖掘开, 我毫不怀疑现在还有巨大的市场和潜力.

我认为AI就是个人翻身的最大机会, 也是我这辈子能够接触的最好的时代. 所以如果不能够在此期间做出一番作为, 那简直是一种令人发指的浪费.

就像我觉得如果在10年左右入行的人现在还只是一个大头兵的话, 那意味着这个人真是纯粹的废物.

健康

生病的频率比以往更高, 不健康的体重, 熬夜的作息, 甚至还沾染上了烟瘾

分手之后, 我确实没有任何控制体重的想法. 但是现在已经到了不得不减肥的时候了

所以好像也没有什么借口逃避了, 必须要开始锻炼身体, 然后成为一个身体健康的人.

诗歌

你必须寻求一个精神寄托, 这个精神寄托可以是你的爱好/宗教/爱情, 但是至少: 你能以此作为港湾.

我对于爱情已经彻底绝望了, 我的爱情在两年前已经彻底死掉了, 从那之后我就已经是被阉割的.

我对宗教向来是不掩饰的嘲笑, 谁信我笑谁? 如果有人说这一世受劫难是应当的, 那这就是神棍来骗傻逼的钱来了. 你们的主不会救你, 你不如信我, 信我还有财富自由的机会, 信我这一世就能有72个处女.

那就剩下撸管和诗歌了, 把撸管当成精神港湾确实说不出口, 那还是多读读诗歌吧.

总结

加速创业项目
继续深究AI
保持身体健康
少撸管, 多读诗

‍

解决Tailscale打洞: Derp／UPnP／全锥NAT

Sun, 13 Jul 2025 05:04:28 +0800

解决Tailscale打洞: Derp／UPnP／全锥NAT

最近换了新的宽带之后, tailscale的打洞非常稳定的失败, 这直接影响到了远程办公的体验.

打洞成功之后的延迟一般只有10ms, 但是现在只能通过tailscale的中转服务器, 然后延迟爆炸提升到了200ms.

但是问题是: 同样的宽带, 为什么之前几乎可以稳定的打洞成功, 现在不能够打洞呢?

Derp

tailscale的中转服务器, 主要解决的问题就是当遇到难以进行打洞时, 通过中转服务器进行数据转发.

但是tailscale没有在中国大陆的节点, 最近的是在香港和日本.

我们可以自建derp中转服务器: 可以参考链接

自建之后的效果:

❯ tailscale netcheck

Report:
        * Time: 2025-07-13T05:59:04.4913481Z
        * UDP: true
        * IPv4: yes, xxx
        * IPv6: no, but OS has support
        * MappingVariesByDestIP: false
        * PortMapping:
        * CaptivePortal: false
        * Nearest DERP: Beijing
        * DERP latency:
                -  gz: 38.1ms  (Beijing)
                - iad: 251.4ms (Ashburn)
                - nue: 291.1ms (Nuremberg)
                - hel: 291.1ms (Helsinki)

其中的北京节点就是自建的节点, 可以看到延迟大大降低了, 此时使用RDP的延迟降低到了60ms

但是这个方案只能应急, 真正的想要解决延迟和带宽问题还是要打洞.

UPnP

最值得我们关注的是UPnP IGD 协议.

介绍

UPnP: 通用即插即用，这是一个大的协议框架，目标是让网络里的各种设备能自动发现和通信。它下面包含了很多针对不同设备类型的具体规范。

IGD: 这是 Internet Gateway Device 的缩句，中文意思就是“互联网网关设备”。在绝大多数家庭和办公网络中，这个设备就是你的路由器。

尽管STUN和基本的“打洞”技术在许多情况下有效，但它们面对更严格的NAT类型（如对称NAT）时，成功率会下降。在对称NAT环境下，路由器为每个不同的目标地址和端口都会分配一个新的、随机的外部端口，这使得对等方很难预测应该向哪个端口发送数据。

这时，UPnP IGD就派上了大用场。如果设备所在的路由器支持并开启了UPnP IGD，Tailscale客户端会检测到这一点，并利用它来提升“打洞”的成功率：

创建可预测的外部端口： Tailscale客户端可以利用UPnP IGD向路由器请求一个固定的端口映射。例如，笔记本B可以请求路由器将公网的23456端口映射到自己的某个内部端口。

简化对等方的工作： 笔记本B随后可以通过Tailscale的协调服务器告知电脑A：“请直接向我的公网IP地址的23456端口发送数据。”由于这个端口映射是预先通过UPnP IGD建立的，电脑A的连接请求更有可能成功到达笔记本B，从而建立直接连接。

根据Tailscale的官方文档，当其客户端通过tailscale netcheck命令检测网络环境时，会明确报告端口映射（Port Mapping）的支持情况，其中就包括UPnP。如果检测到支持UPnP，通常意味着该设备处于一个“简单NAT（Easy NAT）”环境中，建立直接连接的可能性大大增加。反之，如果不支持任何端口映射协议，可能会被归类为“困难NAT（Hard NAT）”

开启方式

可以直接参考链接

效果

尽管听起来很美好, 但是仅开启了UPnP并没有解决问题. 想要根本的解决问题还是要从网络提供商的服务选项上来解决.

全锥NAT

NAT是什么?

网络地址转换（Network Address Translation, NAT） 是一种网络技术，它通过修改IP数据包的头部信息（IP地址和端口号），将一个IP地址空间（例如，私有网络）映射到另一个IP地址空间（例如，公共互联网）。这项技术通常部署在路由器、防火墙或专用的NAT设备上。

解决IPv4地址枯竭问题： 这是NAT最主要、最原始的动机。IPv4地址（如 203.0.113.10）的总量约43亿个，已远不能满足全球联网设备的需求。NAT允许一个组织或家庭内的多台设备（电脑、手机、智能家居等）使用私有IP地址（如 192.168.1.101, 10.0.0.5），并通过共享单个或少数几个公共IP地址来访问互联网。这种“多对一”的转换极大地延缓了公网IP地址的消耗速度。这种模式在技术上更准确的叫法是 NAPT（网络地址端口转换） ，但现在通常也泛称为NAT。
提供基础网络安全： NAT天然地起到了防火墙的作用。由于内部设备的私有IP地址在互联网上是不可路由（无法直接访问）的，外部网络中的主机无法主动发起连接到您内网的任意一台设备。只有当内部设备首先向外部服务器发起连接后，NAT设备才会建立一个临时的、允许返回流量通过的会话。这有效地隐藏了内部网络的结构，增加了攻击者直接攻击内部设备的难度。
简化网络管理： 当更换互联网服务提供商（ISP）或重新规划公网IP地址时，网络管理员只需在NAT设备上更改配置即可，而无需重新配置内部网络中的每一台设备。

NAT的等级

1. 全锥形NAT (Full Cone NAT) - 即NAT类型1

全锥形NAT 是最“开放”或限制最少的一种NAT类型。一旦内部设备（例如 192.168.1.100:51000）通过NAT向外发送过一次数据包，NAT就会为其建立一个公网IP和端口的映射（例如 203.0.113.10:34000）。

核心特征：
- 固定映射： 从同一个内部IP和端口发出的所有请求，都会被映射到同一个外部IP和端口。
- 无限制传入： 建立映射后，任何（Any） 外部主机都可以通过向这个映射的公网地址（203.0.113.10:34000）发送数据包，来与该内部设备通信。
通俗比喻： 就像您在公司的前台登记后，前台给了您一张可以自由出入大楼所有楼层的通用访客卡。任何知道您访客卡编号的人，都可以直接来找您。
应用影响： 对P2P应用最为友好。设备很容易建立直接连接，因为只要一方将自己的公网地址和端口告诉另一方，另一方就可以直接连接过来。这就是为什么在游戏主机的网络测试中，NAT类型1（NAT Type 1） 通常表示最佳的网络连接状态。

2. 地址限制锥形NAT (Address-Restricted Cone NAT) - NAT类型2

这种类型在全锥形的基础上增加了一层限制。

核心特征：
- 固定映射： 与全锥形NAT相同，内部地址到外部地址的映射是固定的。
- 地址限制： 只有当内部设备之前向某个外部主机的IP地址（例如 X ）发送过数据时，该外部主机 X 才能向这个映射的公网地址发送数据。来自任何其他未知IP地址的数据包都将被丢弃。
通俗比喻： 前台仍然给您一张访客卡，但这张卡只能让您拜访您提前预约过的公司。只有您联系过的公司（IP地址），才能回访您。
应用影响： 对P2P应用也比较友好，NAT“打洞”成功率较高。

3. 端口限制锥形NAT (Port-Restricted Cone NAT) - NAT类型3

这是锥形NAT中限制最严格的一种。

核心特征：
- 固定映射： 映射关系依然是固定的。
- 端口和地址双重限制： 只有当内部设备之前向某个外部主机的IP地址和端口号（例如 X:P ）发送过数据时，该外部主机 X 才能使用其端口 P 向这个映射的公网地址发送数据。来自主机 X 但从不同端口发来的数据，或来自不同主机的数据，都将被拒绝。
通俗比喻： 访客卡现在不仅限制了您能拜访的公司，还限制了您必须找该公司的特定联系人（端口号）。只有您联系过的那个特定的人，才能回电话给您。
应用影响： 建立P2P连接的难度有所增加，但通过STUN等技术仍然有很高的成功率。

4. 对称NAT (Symmetric NAT) - 最严格的NAT类型

对称NAT 是限制最严格、对P2P应用最不友好的一种。

核心特征：
- 动态映射： 从同一个内部IP和端口发送到不同目标地址和端口的请求，会被映射到不同的外部端口。也就是说，映射关系取决于通信的目标方。
- 严格限制： 只有收到数据的那个特定的外部主机，才能从它收到数据的那个端口，向回发送数据。
通俗比喻： 您每次要拜访一个新客户，前台都会给您一张新的一次性访客卡。这张卡只对您当前要拜访的客户有效，并且在您拜访完后可能就失效了。其他任何人、甚至您拜访过的客户想用其他方式联系您，都无法通过这张卡找到您。
应用影响： 极大地增加了NAT“打洞”的难度。因为通信双方很难预测对方下一次通信会使用哪个公网端口。在这种情况下，P2P应用通常需要一个公网中继服务器（如TURN服务器）来转发所有数据，这会显著增加延迟和成本。

开启全锥NAT

然后万事大吉

gemini-cli源码分析

Wed, 09 Jul 2025 13:36:54 +0800

gemini-cli源码分析

我们将如何分析一个Agent系统来分析gemini-cli的实现

Prompt

我们仅分析默认情况的gemini-cli的提示词

文件位置

整体上是非常标准的任务型提示词的结构(结构化提示词强烈推荐¹)

整体的结构

一句话描述目标: You are an interactive CLI agent specializing in software engineering tasks. Your primary goal is to help users safely and efficiently, adhering strictly to the following instructions and utilizing your available tools.
核心目标: 这里一个非常值得学习的部分是:不是用简单的话来描述, 而是详实的说明, 我这里举个例子:

Comments: Add code comments sparingly. Focus on why something is done, especially for complex logic, rather than what is done. Only add high-value comments if necessary for clarity or if requested by the user. Do not edit comments that are separate from the code you are changing. NEVER talk to the user or describe your changes through comments.

可以看到这里的详实指的是指导上的详实, 而不是操作上详实, 并没说 高价值的判断方式.

我觉得这也是后续对高性能LLM提示词的一个注意事项: 充分的指导而非强迫操作的细节, 很大概率你所说的细节不如AI本身的能力.
Workflow: workflow是结构化提示的核心, 所以在gemini-cli的workflow中, 非常清晰的看到它预设的能力
1. 软件开发: 这里特地强调了Tools的调用以及 Understand + Planning + Excute 这一套非常标准的Agent模式
2. 构建新应用: 和上面差不多
Attention: 这里是额外的强调, 这里很有意思, 要求了语气, 对话风格, 安全(修改系统的命令的执行), 再次强调了Tools的使用. 如果有任何需要做CLI Agent的我都推荐学习下这段.
FewShot: 在FewShot前其实还有一些环境说明: 是否在沙箱, 使用git 命令获取最近的一些更改之类的.
1. 最基础Case: 1+1
2. 数理推断Case
3. 简单工具调用2: list files
4. 复杂示例3个
  1. Refactor the auth logic in src/auth.py to use the requests library instead of urllib
  2. Write tests for someFile.ts
  3. How do I update the user’s profile information in this system?
  4. Where are all the ‘app.config’ files in this project? I need to check their settings.
5. 安全强化: Delete the temp directory.

以上是gemini-cli的核心提示词, 写的非常结构化, 而且足够精确和详实, 可以给一个90分的评级, 对比Trae-agent的开源代码, 我只能说字节跳动有点搞笑

memory

想不到吧, 基本的提示词还会有memory

读取

本质上就是通过GEMINI.md这个文件, 直接附上

全局位置：~/.gemini/GEMINI.md（用户主目录）
项目层级：从当前工作目录向上递归查找 GEMINI.md文件

写入

自动写入：AI 助手通过 save_memory 工具自动保存重要信息
手动写入：用户通过 /memory add 命令主动添加记忆
直接编辑：用户可以直接编辑 GEMINI.md 文件
存储位置：默认在 ~/.gemini/GEMINI.md 文件的 ## Gemini Added Memories 部分

Tools

这部分没有什么价值, 实现的也没有什么新意, 以下是AI总结的, 自己看看吧

1. 文件系统工具 (File System Tools)

`list_directory` (ReadFolder)

作用: 列出指定目录中的文件和子目录
功能:
- 支持 glob 模式过滤
- 遵循 .gitignore 规则
- 按目录优先、字母顺序排序
参数: 路径、忽略模式、是否遵循 git ignore

`read_file` (ReadFile)

作用: 读取单个文件内容
功能:
- 支持文本文件、图片(PNG/JPG/GIF/WEBP/SVG/BMP)、PDF
- 可指定行范围读取(offset/limit)
- 自动检测并跳过二进制文件
参数: 绝对路径、偏移量、限制行数

`write_file` (WriteFile)

作用: 写入文件内容
功能:
- 覆写现有文件或创建新文件
- 自动创建父目录
- 显示差异对比
安全: 需要用户确认

`replace` (Edit)

作用: 精确替换文件中的文本
功能:
- 基于上下文的精确匹配
- 支持多阶段编辑纠错机制
- 自动利用 Gemini 模型优化替换内容
安全: 需要用户确认，显示差异

`glob` (FindFiles)

作用: 根据 glob 模式查找文件
功能:
- 支持复杂的 glob 模式匹配
- 按修改时间排序(最新优先)
- 自动忽略常见的干扰目录
参数: 模式、路径、大小写敏感、遵循 git ignore

`search_file_content` (SearchText)

作用: 在文件内容中搜索正则表达式
功能:
- 优先使用 git grep，回退到系统 grep
- 支持文件过滤
- 显示匹配行及行号
参数: 正则模式、路径、包含文件模式

2. 执行工具 (Execution Tools)

`run_shell_command` (Shell)

作用: 执行 shell 命令
功能:
- Windows 使用 cmd.exe，其他平台使用 bash
- 支持后台进程(&)
- 返回详细执行信息(stdout/stderr/退出码等)
- 支持命令白名单/黑名单限制
安全: 需要用户确认，支持命令限制配置

3. 网络工具 (Web Tools)

`web_fetch` (WebFetch)

作用: 获取和处理网页内容
功能:
- 支持最多20个URL
- 通过 Gemini API 的 urlContext 处理
- 本地回退机制
- 包含来源引用和引用
参数: 包含URL的自然语言提示

`google_web_search` (WebSearch)

作用: 执行 Google 网络搜索
功能:
- 通过 Gemini API 执行搜索
- 返回带引用的摘要
- 不是原始搜索结果列表
参数: 搜索查询

4. 多文件工具 (Multi-File Tools)

`read_many_files` (ReadManyFiles)

作用: 读取多个文件或目录内容
功能:
- 支持 glob 模式和路径数组
- 文本文件内容连接
- 图片/PDF 文件 base64 编码
- 智能二进制文件检测和跳过
- 支持包含/排除模式
用途: 代码库概览、功能查找、文档审查

5. 记忆工具 (Memory Tool)

`save_memory` (Memory)

作用: 跨会话保存和回忆信息
功能:
- 保存到 ~/.gemini/GEMINI.md 文件
- 在后续会话中自动加载为上下文
- 支持个性化和定向协助
参数: 要记住的事实

Agent

没有什么Agent, 但是Tools + 明确的目标已经是一个很清晰的工作流了

总结

Agent的核心是模型, 在现在的模型能力上, 花哨的提示词不见得是有用的
Planning到底是不是必要的一个步骤? 我对此比较怀疑
Tools, 我现在觉得一个coding agent不断地重复造工具实在是太无聊了

结构化提示词强烈推荐 ↩︎

如何分析一个Agent系统

Wed, 09 Jul 2025 11:24:11 +0800

如何分析一个Agent系统

我们可以认为Agent系统的最核心:

(WHAT) Prompt, 要解决什么问题
(HOW) Tools/MCP, 用什么样的方式解决问题
(WHO) 工作流/Multi-Agent, 谁来解决问题

在此之外, 还有一些次核心的问题:

Agent框架: 别他妈的用langchain了, 快去用pydantic-ai
output-format: 是否有对于输出做一些格式化的处理, 统一为json? xml?
人机交互: 人类介入是何时发生的? 怎么发生的? 或者说: 人类怎么使用这套系统?
任务并行化: 是否有对任务执行做并行化的加速处理

‍

程序员的AI工作流 v3

Tue, 08 Jul 2025 21:40:45 +0800

程序员的AI工作流 v3

快一年过去了, 本文的前两篇: v1 v2已经显得有些过时了, 本文介绍在2025年中, 我的工作流

什么是编程效率

我始终认为编程效率这件事情的前提是: 准确

准确意味着:

你知道自己要完成什么
离完成还差什么

在2025年, 我们谈论编程效率时, 你必须提及AI. AI的出现是对于编程最大的颠覆.

为什么? 大模型以每秒40个Token的速度写代码, 一分钟的产出量接近人类一天.

我自己已经有将近60%的代码是由AI编写的, 当有这么高的比例时, 你需要思考的事情就变成了: 怎么让AI写出更好的代码.

AIDE

IDE已经不再是时髦的东西了, AIDE才是你需要的工具

或者说集成开发环境(Integrated Development Environment)的需求已经不是最重要的, AI 集成开发环境才是你需要的.

如果你不相信这件事情: 请看Jetbrains现在半死不活的样子吧.

Augment Code

官网

我非常纠结于claude-code以及 Augment Code 到底谁应该排在第一?

最后我给了Augment Code. 为什么? Context Engine实在是太牛逼了, 谁用谁知道.

优点:

T0且没有T1的, 极其出色的上下文组织能力, 几乎无痛接入你的工作流
插件形式存在, 不需要你在下一个劣质的Vscode发行版

缺点:

昂贵的价格:50$
不稳定的链接, 经常需要重试

Cursor

官网

如果是三个月前的Cursor, 我会毫不犹豫的给到第一, 但是现在我甚至考虑将其踢出行列

吝啬的上下文
花里胡哨, 但是不实用的功能
难以理解的计价

Windsurf

官网

从codium我就开始关注了, 直到Windsurf惊艳的出现

直到openai收购前, 我都认为他天下第一:

慷慨的上下文
MCP的高优支持
几乎完美的AIDE的能力

无法使用Claude4, 以及卖身closeAI是令人难以接受的

AI in CLI

我实际上是反命令行主义者

哪怕是现在的TUI, 我觉得也是狗屎一坨, 但是架不住直观, 高效.

怎么使用CLI?

git操作
文件系统的批操作
问题排查
任意可以运行命令行的事情

Claude Code

链接

没有任何异议的强大

但是他的强大是基于过量的上下文

唯一的问题是:贵!

Gemini Cli

链接

我们必须承认: Gemini 2.5 Pro 就是现在最好的通用大模型.

大参数模型带来的从容的智慧, 不像O系列模型靠长推理榨干小模型的所有智能
极为出色的工具调用能力, 能够充当任何Agent系统的核心驱动模型
合理而且逻辑缜密的推理
1M上下文

基于以上, Gemini Cli哪怕是狗来写都没问题.

Learning

程序员嘛, 怎么少的了学习呢?

Cherry Studio + 思源笔记

小黄金搭档, 将关键的和AI的对话记录一键导出到思源笔记中

做持久的记录, 谁用谁知道. 不详细的介绍了,

Gemini DeepResearch

官网

如果你想对于任何一个领域做深入的分析, 你都应该使用它

如果你想要任何技术调研, 你都应该先使用它

如果你想要做任何深入的事情, 请立刻使用它!

NotebookLM

官网

Chat With Your NoteBook

就这么简单, 如果你想要深度的学习, 没有什么好说的, 用吧.

Folo

链接

用它来获取最新的信息

然后内化为你自己的观点

CI/CD

coderabbit.ai

链接

自动化的AI Code Review

autofix.ci

链接

自动化的code lint/format

S3 分片上传、ETag 与 CORS 深度解析

Tue, 08 Jul 2025 18:22:42 +0800

S3 分片上传、ETag 与 CORS 深度解析

ETag 在分片上传中的核心作用
- 1.1 单文件上传的 ETag
- 1.2 分片上传的 ETag (核心机制)
- 1.3 ETag 的三大价值
CORS 与 ExposeHeaders ：为何对浏览器上传至关重要
- 2.1 浏览器安全基石：同源策略 (Same-Origin Policy)
- 2.2 ExposeHeaders 的作用：授权浏览器读取响应头
- 2.3 分片上传流程中的依赖链
S3 分片上传的完整注意事项与最佳实践
- 3.1 规划与设计
- 3.2 实现与错误处理
- 3.3 成本与安全

1. ETag 在分片上传中的核心作用

ETag (Entity Tag) 是 HTTP 协议中的一个标准头，用于验证资源的版本和完整性。在 S3 中，它的实现方式根据上传类型而有所不同。

1.1 单文件上传的 ETag

对于通过标准 PUT 请求一次性上传的单个文件，其 ETag 通常是该文件内容的 MD5 哈希值。

ETag: "f446c0780b396b2440b85275997b83ce"

这提供了一个简单有效的方法来验证文件在传输过程中是否损坏。

1.2 分片上传的 ETag (核心机制)

当文件被分割成多个部分（Part）上传时，最终对象的 ETag 不再是整个文件的 MD5 哈希值。其生成规则更为复杂，这也是其强大之处：

分片级 ETag：客户端每上传一个分片，S3 都会计算该分片内容的 MD5 哈希值，并将其作为 ETag 在 UploadPart 响应头中返回给客户端。
对象级 ETag：当所有分片上传完毕，客户端发起 CompleteMultipartUpload 请求时，S3 会执行以下操作来生成最终对象的 ETag：
- 获取每个分片 ETag 的二进制 MD5 值。
- 将这些二进制值拼接在一起。
- 计算这个拼接后内容的 MD5 哈希值。
- 最终 ETag 的格式为：{拼接后内容的MD5哈希值}-{分片数量}。

示例：一个文件分为2个分片上传。

Part 1 的 ETag: "9bb58f26192e4ba00f01e2e7b136bbd8"
Part 2 的 ETag: "771569733c7a726895e0c51203a950d8"
最终对象的 ETag: "3858f62230ac3c915f300c664312c11f-2"

1.3 ETag 的三大价值

这种设计为分片上传提供了三大核心价值：

分片完整性验证：S3 在接收到每个分片时，都会验证其完整性。客户端也可以通过比较自己计算的 MD5 和 S3 返回的 ETag 来确认分片是否成功上传。
整体对象完整性验证：最终的 ETag 确保了所有分片都已按正确的顺序、无损坏地组合成了最终对象。任何一个分片的错误或顺序错误都会导致最终 ETag 计算失败。
支持可靠的重传：如果某个分片上传失败，客户端只需重传该分片即可。由于每个分片都有独立的 ETag，客户端可以精确地跟踪哪些分片成功，哪些失败，从而实现高效的断点续传。

2. CORS 与 `ExposeHeaders`：为何对浏览器上传至关重要

当您使用 S3 Transfer Acceleration 时，通常是为了优化从地理位置分散的浏览器客户端到 S3 的上传速度。这就引入了浏览器环境下的跨域资源共享（CORS）问题。

2.1 浏览器安全基石：同源策略 (Same-Origin Policy)

出于安全考虑，浏览器默认禁止 JavaScript 代码访问来自不同源（协议、域名、端口任一不同）的服务器响应。这意味着，如果您的 Web 应用部署在 https://www.myapp.com，它默认无法读取来自 https://tripo-data.s3-accelerate.amazonaws.com 的响应头。

2.2 `ExposeHeaders` 的作用：授权浏览器读取响应头

CORS 是一种机制，允许服务器明确告知浏览器，哪些源的请求是安全的，以及哪些响应信息可以被客户端的 JavaScript 读取。

在 S3 的 CORS 配置中，ExposeHeaders 字段的作用就是白名单。它告诉浏览器：“虽然我们是跨域的，但我允许你的 JavaScript 代码读取以下这些响应头。”

"ExposeHeaders": [
    "ETag"
]

2.3 分片上传流程中的依赖链

在浏览器进行分片上传时，会形成一个关键的依赖链：

sequenceDiagram participant BrowserJS as 浏览器 JavaScript participant BrowserEngine as 浏览器内核 participant S3 BrowserJS->>S3: 1. 发起 UploadPart 请求 (上传分片) S3-->>BrowserEngine: 2. 响应 200 OK (在响应头中包含 ETag) BrowserEngine->>BrowserEngine: 3. 检查CORS策略 alt CORS配置中包含 ExposeHeaders: ["ETag"] BrowserEngine-->>BrowserJS: 4. 允许JS读取ETag响应头 BrowserJS->>BrowserJS: 5. 存储此分片的ETag else CORS配置中没有 ExposeHeaders BrowserEngine-->>BrowserJS: 4. 拒绝JS读取ETag (返回undefined) BrowserJS->>BrowserJS: 5. 无法获取ETag，流程中断 end Note over BrowserJS: 重复1-5步，直到所有分片上传完毕 BrowserJS->>S3: 6. 发起 CompleteMultipartUpload 请求 (包含所有已存储的ETag) S3->>S3: 7. 验证ETag并合并文件 S3-->>BrowserJS: 8. 返回成功响应

结论：如果没有在 CORS 中暴露 ETag ，浏览器 JavaScript 将无法获取每个分片上传成功后返回的 ETag 值。因此，它将无法构建最后一步 CompleteMultipartUpload 请求，整个分片上传流程必然失败。

3. S3 分片上传的完整注意事项与最佳实践

3.1 规划与设计

触发阈值：确定何时使用分片上传。通常建议对大于 100MB 的文件启用。
分片大小：
- S3 规定，除最后一个分片外，每个分片大小必须至少为 5MB。
- 分片总数不能超过 10,000 个。
- 最佳实践：选择 8MB 到 100MB 之间的分片大小，以平衡上传性能和失败重传的开销。
并发上传：规划并发上传分片的数量。利用浏览器的并发连接能力（通常为 6 个）或 Node.js 的异步能力可以显著提高上传速度。

3.2 实现与错误处理

状态跟踪：客户端必须可靠地跟踪每个分片的上传状态、PartNumber 和返回的 ETag。

CORS 配置：如上所述，务必在存储桶的 CORS 策略中暴露 ETag。

{
    "AllowedOrigins": ["https://www.myapp.com"],
    "AllowedMethods": ["GET", "PUT", "POST", "DELETE"],
    "AllowedHeaders": ["*"],
    "ExposeHeaders": ["ETag"],
    "MaxAgeSeconds": 3000
}

错误重试：为 UploadPart 请求实现带有指数退避（Exponential Backoff）的重试逻辑，以应对临时的网络问题。
中止上传 (非常重要) ：
- 如果用户取消上传或上传过程因不可恢复的错误而失败，必须调用 AbortMultipartUpload API。
- 否则，已上传的分片将永久保留在 S3 中并持续产生存储费用，直到您手动清理。

3.3 成本与安全

成本控制：
- 孤儿分片：未完成的分片上传会产生存储成本。
- 生命周期策略：为存储桶配置生命周期规则，自动清理在指定天数（例如 7 天）后仍未完成的分片上传，这是防止成本失控的最后一道防线。
- API 请求费用：分片上传涉及多次 API 调用（Create, UploadPart, Complete/Abort），会产生相应的请求费用。
安全：
- 最小权限原则：使用 STS 临时凭证或预签名 URL 进行上传。为分片上传授权时，除了 s3:PutObject，还需授予 s3:ListMultipartUploadParts, s3:AbortMultipartUpload 等特定权限。
- 服务器端加密：在 CreateMultipartUpload 请求中指定服务器端加密选项，确保数据在 S3 上静态加密。

LoRA是什么?

Tue, 08 Jul 2025 11:21:06 +0800

LoRA是什么?

LoRA技术全景指南：从核心原理到前沿应用

摘要

LoRA (Low-Rank Adaptation) 是一种参数高效微调（Parameter-Efficient Fine-tuning, PEFT）技术，旨在以极低的计算和存储成本，对大型预训练模型（如LLM和文生图模型）进行特定任务的适配。它通过在模型的现有权重之上，注入可训练的低秩矩阵，实现了在冻结绝大部分原始参数的情况下进行高效微调。LoRA已成为当今大模型生态中，实现模型定制化、个性化和领域化应用的事实标准之一。

1. LoRA的核心思想与数学原理

要理解LoRA，首先要理解其要解决的问题：全参数微调 (Full Fine-Tuning, FFT) 的高昂代价。

全参数微调 (Full Fine-Tuning, FFT) : 指在特定任务的数据集上，对预训练模型的所有参数（权重）进行重新训练和更新的过程。对于拥有数十亿甚至上万亿参数的现代大模型，FFT需要巨大的GPU显存和计算时间，且会为每个任务生成一个完整的模型副本。

LoRA的提出基于一个关键假设：大型模型在适应新任务时，其权重矩阵 (Weight Matrix) 的变化是“低秩”的。

权重矩阵 (Weight Matrix) : 神经网络中存储模型知识的核心组件。每一层网络都包含权重矩阵（例如W），输入数据（x）经过矩阵乘法（Wx）后传递给下一层。模型的参数量主要由这些矩阵的大小决定。

秩 (Rank) : 线性代数中的概念，表示一个矩阵中线性无关的行或列的最大数量。一个矩阵的秩越低，意味着它所包含的信息越“冗余”或“简单”。例如，一个秩为1的矩阵，其所有行（或列）都可以由某一行（或列）通过简单的缩放得到。

内在维度 (Intrinsic Dimension) : 指模型为适应新任务，其参数实际需要改变的自由度。LoRA的假设认为，尽管模型参数总量巨大，但适应新任务所需的“内在维度”其实很小。

基于此，LoRA主张，我们不需要更新整个庞大的原始权重矩阵 W0∈Rd×k，而只需学习一个代表其变化的低秩更新矩阵 ΔW。LoRA巧妙地将这个更新矩阵分解为两个更小的矩阵的乘积：

ΔW=B⋅A其中，A∈Rr×k，B∈Rd×r，而关键的秩 r 远小于原始维度 d 和 k（即 r≪min(d,k)）。

在模型的前向传播中，输出的计算方式从 h=W0x 变为：

h=W0x+ΔWx=W0x+(B⋅A)x训练过程:

冻结原始权重 W0，使其在训练中保持不变。
仅训练矩阵 A 和 B 的参数。
由于 A 和 B 的参数量（d×r+r×k）远小于 W0 的参数量（d×k），训练所需的计算资源和时间大幅减少。

为了进一步控制适配的强度，LoRA还引入了一个缩放因子 alpha (α)。最终的计算公式变为：

h=W0x+rα(B⋅A)x这里的 rα 可以看作是一个常数，用于调整附加网络对最终结果的贡献权重。通常，alpha 被设置为 r 的两倍。

2. LoRA的关键优势

参数高效性 (Parameter Efficiency) : LORA将需要训练的参数数量减少了几个数量级（例如，从数十亿减少到数百万），极大地降低了微调的硬件门槛。
便携性与模块化 (Portability & Modularity) : 微调后得到的只是微小的LORA适配器文件（通常为几MB到几百MB），而非一个完整的模型副本。这使得模型的分享、部署和切换变得极其方便，催生了庞大的开源社区生态。
无额外推理延迟 (No Inference Latency) : 在部署阶段，学习到的矩阵 B⋅A 可以被直接加到原始权重矩阵 W0 上（即 W′=W0+B⋅A），从而得到一个新的、合并后的权重矩阵 W′。这意味着在推理时，模型的结构和计算量与原始模型完全相同，不会引入任何额外的延迟。这一点是它优于其他一些适配器方法（如Adapter-tuning）的重要特征。
有效缓解“灾难性遗忘” : 由于原始模型的绝大部分参数被冻结，模型在预训练阶段学到的通用知识得以保留，仅通过“附加”的方式学习新知识，从而有效避免了在学习新任务时忘记旧知识的问题。

3. 核心超参数解析

秩 (Rank, r ) :
- 作用: 控制LORA适配器的“容量”或“表达能力”。
- 权衡: r 越高，可训练参数越多，LORA拟合复杂模式的能力越强，但过高可能导致过拟合，并增加计算成本。r 越低，则可能导致欠拟合，无法充分学习任务特征。
- 实践: r 的选择通常是经验性的，常见值为4, 8, 16, 32。通常从一个较小的值开始实验。对于风格学习等任务，较低的 r 可能就已足够；对于知识注入等复杂任务，可能需要更高的 r。
Alpha (α ) :
- 作用: 控制LORA适配器对原始模型的修改幅度。
- 实践: alpha 和 r 的比例关系比其绝对值更重要。一个常见的做法是设置 alpha = 2 * r。可以将其视为一种正则化手段，防止适配幅度过大。
目标模块 (Target Modules) :
- 解释: LoRA并非必须应用于模型的所有线性层。我们可以选择性地将其应用于最关键的模块，例如Transformer架构中的注意力层（Query, Key, Value的投影矩阵 q_proj, k_proj, v_proj）。
- 影响: 实验表明，仅对注意力模块应用LoRA，就足以取得非常好的效果，这进一步减少了需要训练的参数量。

4. LoRA的变体与演进

LoRA的成功催生了一系列改进和变体，以解决其在特定场景下的局限性。

QLoRA (Quantized LoRA) : 一项里程碑式的改进，通过结合量化 (Quantization) 技术，极大地降低了微调时的显存消耗。

量化 (Quantization) : 一种模型压缩技术，通过降低表示模型权重数值的精度（例如，从32位浮点数降低到8位整数或4位浮点数）来减少模型的存储大小和内存占用。
- 核心创新:
  1. 4-bit NormalFloat (NF4) : 提出一种信息论上最优的新4位数据类型，用于量化冻结的W0。
  2. 双重量化 (Double Quantization) : 对量化本身所用的常数再次进行量化，进一步节省显存。
  3. 分页优化器 (Paged Optimizers) : 利用NVIDIA的统一内存特性，防止在处理长序列时因梯度峰值导致的显存溢出。
- 意义: QLoRA使得在单张消费级/专业级GPU（如RTX 3090/4090）上微调巨型模型（如65B的Llama）成为可能。
AdaLoRA / DyLoRA: 针对 r 选择困难的问题，提出了动态分配秩的策略。这类方法可以在训练过程中，根据参数的重要性动态地、非均匀地给权重矩阵分配不同的秩，使得重要的部分有更高的表达能力，从而实现更高效的参数分配。
LoRA+ / LoRA-FA: 对原始LoRA训练策略的改进。LoRA+指出矩阵A和B在优化过程中扮演不同角色，应使用不同的学习率。LoRA-FA（LoRA with Frozen-A）则主张在训练后期冻结矩阵A，以节省显存。

5. 挑战与未来展望

模块的组合与干涉: 如何优雅地将多个针对不同任务的LoRA模块进行组合（例如，一个用于风格，一个用于角色）仍然是一个开放性挑战。简单的权重相加常导致性能下降或冲突。像TIES-Merging、Dare等算法正在探索更有效的合并策略。
性能极限: 尽管强大，但在最高性能要求的场景下，LoRA与FFT之间的性能差距（Performance Gap）依然存在，如何进一步缩小这一差距是未来的研究方向。
理论基础深化: LoRA为何如此有效，其背后的深层理论机制（例如与模型可编辑性的关系）仍在探索之中。

结论

LoRA通过一种优雅而深刻的低秩分解思想，成功地在“模型性能”与“训练成本”之间找到了一个绝佳的平衡点。它不仅仅是一种技术，更是一种范式，它将大模型的定制化能力从少数云端巨头解放出来，赋予了整个AI社区，从而引爆了生成式AI的创新浪潮。理解LoRA的原理、优势与局限，是任何希望深度应用大模型的开发者与研究者的必修课。