一次从手机端 Codex 对话开始的 AI 音乐实验：Mac mini 执行浏览器操作，Suno 生成候选，最后下载并验证一首 4 分 08 秒的中文说唱。

TL;DR： 这次真正跑通的不是“AI 写歌”，而是一条从手机对话、远程执行、Suno 生成、文件下载到结果验证的创作闭环。人的价值不在点击生成，而在主题、判断和复盘。

今天我在手机端和 Codex 对话，远程指挥家里的 Mac mini，用 Suno 做完了一首中文说唱。

这件事有点反直觉。

以前说 AI 写歌，大多数人想到的是打开网页，输入一句提示词，等它吐出一首歌。

这次不太一样。我人在手机这边，只负责提出要求、判断方向、指出哪里不好。电脑那边由 Codex 控制 Chrome，登录 Suno，填写歌词和风格，等待生成，再把 MP3 下载到本地。

Codex 可以理解成一个能读文件、改文件、跑命令、操作浏览器的 AI 助手。它不只会聊天，还能在我的电脑上把任务一步步做完。

手机只是入口，真正干活的是家里的 Mac mini。

过去一个想法从脑子里出来，到真的变成一首歌，中间隔着作词、作曲、编曲、工具、下载、文件管理。现在这条链路被压短了。

一个想法能不能落地，差别不在灵感有多好，而在链路有没有被打通。

§手机是入口，电脑负责执行

我不是在手机上远程投屏，也不是打开一个远程桌面软件。

更准确地说，是手机端继续和同一个 Codex 任务对话，Mac mini 上的 Codex 桌面端负责执行。前提是 Mac 端 Codex 已经打开，工作区和工具权限都准备好，Chrome 里也提前登录好了 Suno。

所以手机端做的是“指挥”：提出需求、确认方向、决定下载哪一版。

Mac 端做的是“执行”：读文件、写歌词、操作浏览器、等待生成、检查下载结果。

手机不需要替电脑干活，它只需要把我的判断送到电脑那边。

§AI 音乐真正难的是判断

我最早的需求其实很模糊：想做一首中文说唱，参考《夜曲》的夜晚感和叙事感。

第一次生成后，我觉得押韵很呆板，听起来不像一个真实的人在说话。后来又要求调整成更自然的中文说唱押韵，结果还是不够好。

这一步很重要。

AI 音乐最容易卡住的地方，不是生成，而是判断。

很多人用 Suno 最大的问题在后半段：会生成，但生成 20 首之后，不知道哪首好，也不知道怎么改。

我后来把问题重新拆了一遍：一首歌要看情绪命题、hook、歌词质感、可唱性、旋律动机、结构推进、声音身份和制作审美。

说人话就是：这首歌到底替谁说话，听完能不能记住一句，歌词唱起来顺不顺，声音像不像一个具体的人。

于是我让 Codex 更新了一个 Suno 创作专家 skill。Skill 就是一套本地说明书，告诉 Agent 遇到这类任务该按什么标准判断、怎么追问、怎么写、怎么改、怎么操作浏览器。

关键不在于 AI 替我写歌，重点是我把判断、流程和执行都串成了一个闭环。

§先定歌，再打开 Suno

这次最后选的主题是：朋友都以为我过得很好，只有夜知道我还没完全过去。

我先让 Agent 定一句话主题，再定演唱者身份：25 到 35 岁之间的男性，克制、嘴硬、不卖惨，像深夜发出一条没有发出去的语音。

接着写 hook。

最后保留下来的核心句是：

朋友都以为我很好只有夜知道

这句好在简单，能唱，也有画面。它没有直接说我很难过，而是把白天和夜晚分开。白天负责体面，夜晚负责真相。

有了主题、身份和 hook，再让 Suno 生成，方向就稳定很多。

这次的风格提示是中文旋律说唱，近距离男声，放松的说唱节奏，钢琴 loop，温暖电钢琴，克制主歌，副歌打开一点，88 BPM，现代干净混音。

我没有让它模仿任何具体歌手。参考作品只用来提炼中性的创作语言，比如夜晚感、钢琴、低频、叙事、旋律说唱，不碰旋律复制和仿声。

§浏览器真的被 Codex 接管了

前面的创作完成后，我让 Codex 操作浏览器。

它打开 Suno 创建页，确认账号已经登录，把歌词、标题、风格提示填进去，选择模型，点击生成。

Suno 这次生成了 4 个候选：两个 v4.5 完整版，时长分别是 4 分 08 秒和 4 分 17 秒；两个 v5.5 Preview，都是 1 分钟预览版，需要升级才能生成完整歌。

我最后选择了 4 分 08 秒的完整版。原因很简单：完整、短一点、结构更紧，适合先留作 demo。

下载时 Suno 弹出了一个商用版权提醒：只有 Pro 和 Premier 生成的歌曲适合商用。我没有绕过这个限制，只选择继续下载个人试听版。

我又让 Codex 检查文件。结果显示 MP3 正常，大小约 5.9MB，时长约 248 秒，也就是 4 分 08 秒。

到这里，这个闭环才算完成。生成按钮不是终点，文件能下载，结果能验证，才算真的跑通。

§这次踩到的坑

第一个坑是：只说风格不够。

如果只写中文说唱、夜晚、伤感，Suno 大概率会给一首听起来像 AI 模板的歌。真正要提前写清楚的是主题、人物、hook 和情绪边界。

第二个坑是：押韵不是越密越好。

中文说唱的难点在口语流动。为了押韵硬凑词，听起来会很机械。好的押韵应该像顺口说出来的，不该让人先看见机关。

第三个坑是：浏览器自动化不能急。

Suno 生成需要等待，下载会有弹窗，页面也可能因为账号、积分、权限变化出现不同状态。Agent 必须边看页面边操作，不能按固定脚本盲点。

第四个坑是：版权边界必须提前说清楚。

如果只是个人实验，这条链路很好玩。如果要商用发布，就要看 Suno 账号权益、歌词原创性、参考来源和是否涉及仿声。这个地方不能装作没看见。

§我会怎么复用这条链路

我现在更倾向于把它当成一个创作系统，而不是一次性的玩具。

第一步，先写一句话主题。不要写“失恋歌”，要写清楚具体处境，比如朋友都以为我很好，但我只是在白天不崩溃。

第二步，先定演唱者身份。年龄、性格、说话方式、情绪边界都要明确。

第三步，先写 hook。整首歌至少要有一句能被记住。

第四步，再写歌词和风格提示。歌词负责人味，提示负责声音方向。

第五步，让 Suno 生成多个版本，只选一个变量继续改。比如这一轮只改歌词，下一轮只改风格，不要每次全部推翻。

第六步，下载后复盘。保留好用的 hook、意象、风格提示，也记录失败原因。

AI 可以降低制作成本，但不能替我判断哪一版值得留下。

这也是这次最值得分享的地方。手机远程控制电脑当然新鲜，更重要的是，一个想法可以从手机对话开始，经过本地 skill、浏览器操作、Suno 生成、文件下载和结果复盘，变成一个真实文件。

以前很多灵感停在脑子里。现在至少可以先做出一个 demo。

如果你也想试，可以先别追求神曲。先做一首可复盘的作品。

主题写准，hook 写短，人物写清楚，生成 2 到 4 个版本，听完只问一个问题：

这首歌到底凭什么值得别人再听一遍？

我在手机上指挥 Mac mini，用 AI 写了一首歌

§手机是入口，电脑负责执行

§AI 音乐真正难的是判断

§先定歌，再打开 Suno

§浏览器真的被 Codex 接管了

§这次踩到的坑

§我会怎么复用这条链路

Agent 时代，普通人如何训练品味和机会感

飞书 CLI 破万 star，51 天每天一版，一个做同类工具的开发者在想什么

md2wechat v2.1.0：从排版工具到 AI 内容生产基础设施