先记住这几个最常用的
1. 直接进入交互模式
codex
这是最常见的起手式。进来以后你可以直接对着当前项目说话,比如:
帮我看看这个 RNA-seq 项目的主流程从哪里开始
如果你已经在项目目录里,这是最顺手的用法。适合做代码阅读、流程梳理、脚本修改、报错排查。
2. 指定工作目录
codex -C /path/to/project
这个命令很实用,尤其是你平时项目多、目录乱的时候。做生信最怕“人还在 A 项目,命令已经跑到 B 项目里去了”。`-C` 能直接告诉 `Codex`:今天就只看这个目录。
比如:
codex -C ~/projects/rnaseq_lung
进去以后再说:
帮我找 count matrix 是从哪个规则生成的
它就会在这个目录里读文件、找入口、顺着流程往下看。
3. 非交互执行,一条命令把活交出去
codex exec “读取当前仓库,梳理从 FASTQ 到差异分析结果的完整流程”
`exec` 很适合那种目标清楚、不需要你一边看一边插话的任务。比如:
codex exec -C ~/projects/wes_pipeline “检查这个 WES 项目里 VCF 是怎么过滤出来的”
这类命令的好处是干净,跑完就给结果,不会一直挂着一个交互界面。
4. 把最后回复直接写到文件里
codex exec -C ~/projects/scRNA -o workflow_note.md “总结这个单细胞项目的分析步骤和输入输出”
这个对生信特别有用。因为很多时候你不是只想“看一眼答案”,而是想要一份能转发给同事、能留档的说明。`-o` 可以把最后那段结果直接落成文件,省得你再复制粘贴。
5. 接着上次干过的活继续
codex resume –last
你昨天让它看了一半 `Nextflow`,今天接着来,不用重新解释一遍背景。这个命令对长流程项目非常重要,尤其是多组学、空间转录组、肿瘤队列分析这种一看就是半天起步的活。
6. 让它直接审代码
codex review
如果你刚改完一个脚本,或者同事丢给你一个 PR,这条命令很好用。它会偏“代码审查”口径来看问题,更容易发现:
参数名改了但调用处没同步
样本分组表列名和代码里写的不一致
路径拼接有问题
边界条件没处理
输出文件名写死了
这类问题在生信项目里很常见,而且特别容易藏到最后一步才炸。
7. 临时开网络搜索
codex –search
如果你问的是会变动的信息,比如某个数据库现在怎么访问、某个工具最新版参数、某个包最近有没有 breaking change,这个选项就很有用。
比如:
codex –search -C ~/projects/chipseq
然后问:
帮我确认一下 STAR 现在官方推荐的基础比对参数有哪些变化
这种问题,开搜索会比只靠本地记忆稳得多。
8. MCP 工具管理
codex mcp list
如果你给 `Codex` 接了额外工具,比如数据库、外部服务或者别的开发能力,`mcp` 这组命令就是管理入口。常用的有:
codex mcp list
codex mcp get <name>
codex mcp add …
普通用户不一定每天都碰,但一旦你想把它接进自己的工作流,这组命令就会越来越重要。
生信里最值钱的,不只是命令,是提问方式
同样是让 `Codex` 帮忙,下面两种说法,效果差很多。
比较虚的说法:
帮我分析一下这个项目
更像干活的说法:
这是一个 bulk RNA-seq 项目。帮我先找主入口脚本,再告诉我样本分组表在哪、count matrix 怎么生成、差异分析用的是 DESeq2 还是 edgeR。
你给得越具体,它越像一个能直接开工的搭子。
生信场景里,特别建议把这 4 样东西一起说清楚:
目标:你到底想让它干什么
输入:文件、目录、脚本或报错在哪里
输出:你想要总结、表格、脚本,还是直接修好
限制:比如不能改原始数据、不要联网、只看当前目录
例如你可以这样问:
只读当前目录,不改文件。帮我找这个肿瘤 WES 项目里,TMB 是从哪个 VCF 算出来的。
或者:
帮我把 GEO 下载脚本补全,要求输出 sample sheet,并保留原始 accession 命名。
再或者:
检查这个单细胞项目里 cell type annotation 是在哪一步写回 h5ad 的。
这种问法,基本都能直接进工作状态。
几个特别适合生信人的用法
看老项目
别人留下来的项目最烦的,不是代码烂,而是没人解释。你可以直接让 `Codex` 帮你读:
codex -C ~/projects/old_chipseq
然后问:
这个项目从 BAM 到 peak annotation 的主流程是什么,按顺序列出来
查流程断点
比如 `Snakemake` 或 `Nextflow` 卡住了:
codex exec -C ~/projects/atacseq “帮我找这个流程里哪一步生成了 final bigwig”
批量改脚本
生信项目里最常见的重复劳动之一,就是路径、样本名、参数批量替换。你可以直接说:
把这个目录下所有 R 脚本里写死的 /data/projectA 改成相对路径,但不要改注释
写一次性工具
这种场景 `Codex` 往往很强:
批量统计 FASTQ 文件名和样本编号
从 GTF 提取 gene biotype
合并多个 DE 结果表
把临床表和表达矩阵按样本 ID 对齐
检查 VCF 头信息是否一致
说一声需求,它通常就能把脚手架先搭出来。
有一条命令,知道就行,别乱用
codex –dangerously-bypass-approvals-and-sandbox
这名字已经写得很明白了:危险。除非你非常清楚自己在干什么,而且外部环境本来就有额外沙箱,不然别随手开。做生信的人经常和大文件、批量删除、中间结果清理打交道,这种时候更要克制一点。
相对稳一点的自动模式是:
codex –full-auto
它比默认更省事,但至少还没把安全带整个拆掉。
最后一句实话
`Codex` 不会替你决定差异基因阈值,也不会替你判断这个富集结果到底有没有生物学意义。那些事,还是得靠人。
但它非常适合替你处理另一半工作:读项目、找入口、补脚本、改参数、查报错、整理结果、生成说明。生信工作里真正拖时间的,很多恰恰就是这些东西。
所以别再把它只当成一个会聊天的终端了。把命令用起来,你会发现它更像一个会写代码、会看项目、还能自己往前推一步的同事。
如果你平时做的是 `RNA-seq`、单细胞、WES、空间转录组或者公开数据库挖掘,这套用法基本都能接上。先从 `codex -C 项目目录` 开始,通常就够了。