Ch. 4 — Notes · § 012026·05·19 · — words
Ch. 4

我在手机上指挥 Mac mini,用 AI 写了一首歌

§ 01
COLOPHON
Source Serif 4 · JetBrains Mono · Forge Codex
TOOLS
Next 15 · MDX · framer-motion

次从手机端 Codex 对话开始的 AI 音乐实验:Mac mini 执行浏览器操作,Suno 生成候选,最后下载并验证一首 4 分 08 秒的中文说唱。

TL;DR: 这次真正跑通的不是“AI 写歌”,而是一条从手机对话、远程执行、Suno 生成、文件下载到结果验证的创作闭环。人的价值不在点击生成,而在主题、判断和复盘。


今天我在手机端和 Codex 对话,远程指挥家里的 Mac mini,用 Suno 做完了一首中文说唱。

这件事有点反直觉。

以前说 AI 写歌,大多数人想到的是打开网页,输入一句提示词,等它吐出一首歌。

这次不太一样。我人在手机这边,只负责提出要求、判断方向、指出哪里不好。电脑那边由 Codex 控制 Chrome,登录 Suno,填写歌词和风格,等待生成,再把 MP3 下载到本地。

Codex 可以理解成一个能读文件、改文件、跑命令、操作浏览器的 AI 助手。它不只会聊天,还能在我的电脑上把任务一步步做完。

手机只是入口,真正干活的是家里的 Mac mini。

过去一个想法从脑子里出来,到真的变成一首歌,中间隔着作词、作曲、编曲、工具、下载、文件管理。现在这条链路被压短了。

一个想法能不能落地,差别不在灵感有多好,而在链路有没有被打通。

§手机是入口,电脑负责执行

我不是在手机上远程投屏,也不是打开一个远程桌面软件。

更准确地说,是手机端继续和同一个 Codex 任务对话,Mac mini 上的 Codex 桌面端负责执行。前提是 Mac 端 Codex 已经打开,工作区和工具权限都准备好,Chrome 里也提前登录好了 Suno。

所以手机端做的是“指挥”:提出需求、确认方向、决定下载哪一版。

Mac 端做的是“执行”:读文件、写歌词、操作浏览器、等待生成、检查下载结果。

手机不需要替电脑干活,它只需要把我的判断送到电脑那边。

§AI 音乐真正难的是判断

我最早的需求其实很模糊:想做一首中文说唱,参考《夜曲》的夜晚感和叙事感。

第一次生成后,我觉得押韵很呆板,听起来不像一个真实的人在说话。后来又要求调整成更自然的中文说唱押韵,结果还是不够好。

这一步很重要。

AI 音乐最容易卡住的地方,不是生成,而是判断。

很多人用 Suno 最大的问题在后半段:会生成,但生成 20 首之后,不知道哪首好,也不知道怎么改。

我后来把问题重新拆了一遍:一首歌要看情绪命题、hook、歌词质感、可唱性、旋律动机、结构推进、声音身份和制作审美。

说人话就是:这首歌到底替谁说话,听完能不能记住一句,歌词唱起来顺不顺,声音像不像一个具体的人。

于是我让 Codex 更新了一个 Suno 创作专家 skill。Skill 就是一套本地说明书,告诉 Agent 遇到这类任务该按什么标准判断、怎么追问、怎么写、怎么改、怎么操作浏览器。

关键不在于 AI 替我写歌,重点是我把判断、流程和执行都串成了一个闭环。

§先定歌,再打开 Suno

这次最后选的主题是:朋友都以为我过得很好,只有夜知道我还没完全过去。

我先让 Agent 定一句话主题,再定演唱者身份:25 到 35 岁之间的男性,克制、嘴硬、不卖惨,像深夜发出一条没有发出去的语音。

接着写 hook。

最后保留下来的核心句是:

朋友都以为我很好 只有夜知道

这句好在简单,能唱,也有画面。它没有直接说我很难过,而是把白天和夜晚分开。白天负责体面,夜晚负责真相。

有了主题、身份和 hook,再让 Suno 生成,方向就稳定很多。

这次的风格提示是中文旋律说唱,近距离男声,放松的说唱节奏,钢琴 loop,温暖电钢琴,克制主歌,副歌打开一点,88 BPM,现代干净混音。

我没有让它模仿任何具体歌手。参考作品只用来提炼中性的创作语言,比如夜晚感、钢琴、低频、叙事、旋律说唱,不碰旋律复制和仿声。

§浏览器真的被 Codex 接管了

前面的创作完成后,我让 Codex 操作浏览器。

它打开 Suno 创建页,确认账号已经登录,把歌词、标题、风格提示填进去,选择模型,点击生成。

Suno 这次生成了 4 个候选:两个 v4.5 完整版,时长分别是 4 分 08 秒和 4 分 17 秒;两个 v5.5 Preview,都是 1 分钟预览版,需要升级才能生成完整歌。

我最后选择了 4 分 08 秒的完整版。原因很简单:完整、短一点、结构更紧,适合先留作 demo。

下载时 Suno 弹出了一个商用版权提醒:只有 Pro 和 Premier 生成的歌曲适合商用。我没有绕过这个限制,只选择继续下载个人试听版。

我又让 Codex 检查文件。结果显示 MP3 正常,大小约 5.9MB,时长约 248 秒,也就是 4 分 08 秒。

到这里,这个闭环才算完成。生成按钮不是终点,文件能下载,结果能验证,才算真的跑通。

§这次踩到的坑

第一个坑是:只说风格不够。

如果只写中文说唱、夜晚、伤感,Suno 大概率会给一首听起来像 AI 模板的歌。真正要提前写清楚的是主题、人物、hook 和情绪边界。

第二个坑是:押韵不是越密越好。

中文说唱的难点在口语流动。为了押韵硬凑词,听起来会很机械。好的押韵应该像顺口说出来的,不该让人先看见机关。

第三个坑是:浏览器自动化不能急。

Suno 生成需要等待,下载会有弹窗,页面也可能因为账号、积分、权限变化出现不同状态。Agent 必须边看页面边操作,不能按固定脚本盲点。

第四个坑是:版权边界必须提前说清楚。

如果只是个人实验,这条链路很好玩。如果要商用发布,就要看 Suno 账号权益、歌词原创性、参考来源和是否涉及仿声。这个地方不能装作没看见。

§我会怎么复用这条链路

我现在更倾向于把它当成一个创作系统,而不是一次性的玩具。

第一步,先写一句话主题。不要写“失恋歌”,要写清楚具体处境,比如朋友都以为我很好,但我只是在白天不崩溃。

第二步,先定演唱者身份。年龄、性格、说话方式、情绪边界都要明确。

第三步,先写 hook。整首歌至少要有一句能被记住。

第四步,再写歌词和风格提示。歌词负责人味,提示负责声音方向。

第五步,让 Suno 生成多个版本,只选一个变量继续改。比如这一轮只改歌词,下一轮只改风格,不要每次全部推翻。

第六步,下载后复盘。保留好用的 hook、意象、风格提示,也记录失败原因。

AI 可以降低制作成本,但不能替我判断哪一版值得留下。

这也是这次最值得分享的地方。手机远程控制电脑当然新鲜,更重要的是,一个想法可以从手机对话开始,经过本地 skill、浏览器操作、Suno 生成、文件下载和结果复盘,变成一个真实文件。

以前很多灵感停在脑子里。现在至少可以先做出一个 demo。

如果你也想试,可以先别追求神曲。先做一首可复盘的作品。

主题写准,hook 写短,人物写清楚,生成 2 到 4 个版本,听完只问一个问题:

这首歌到底凭什么值得别人再听一遍?

SIGNED北京 · 2026·05·19 · git dev