后训练自己 - Here with Yu.Y

谁成想这会是我的训练集？

今天，我让 Codex 翻这个博客，基于我写过的文章，给“这位博主”做一个人物画像。

它开始扫 _posts，看标题、标签、时间、情绪、朋友、父母、科研、工作、孤独和梦。Markdown 在它眼里不是 Markdown，是我的 rollout；一篇篇片羽和飞行模式，不是文章，是状态转移记录。

然后它给出结论：这位博主高度自省，长期被优秀叙事驱动，正在学习如何做一个普通人。

随后我让它写两个 skill。

一个叫 simulate-blogger，模拟我的生活、为人处事和说话方式。

一个叫 ideal-partner，模拟一个能帮助我变得更好的理想伴侣。

听起来像是后人类恋爱喜剧，实际上更像一次粗糙的自我后训练。

如果这个博客是一个关于我的数据集，那么我本人就是一个黑盒神经网络。这里记录的不是“我是什么人”，而是我在不同输入下的输出分布：被拒稿时如何反应，输球时如何归因，孤独时如何嘴硬，感动时如何装作若无其事。

我把这些数据丢给大模型，让它反推我的 latent representation。

它生成的第一个 skill，是对我 policy 的拟合。

它生成的第二个 skill，则更像一个外部 reward model。

前者说：这个人会怎样说话。

后者说：什么样的反馈，可能让这个人变好。

于是角色互换了。

过去是人类标注 AI，告诉模型什么回答更好。现在是 AI 标注我，告诉我什么样的我更像我，什么样的关系更能更新我。

我是被 RLHF 的那个。

但是，目前为止，我并不满意它写出来的Skill和作出的回复。

详尽、正确、体面，唯独缺一点人气。我也许并不喜欢和复制的我说话：“牛逼什么啊你？”

这倒让我放心了。至少目前为止，我还没有完全被拟合。模型可以学到我的语气、主题、脆弱和自嘲，但它很难知道哪句话该停，哪句话该忍住，哪一点羞耻使我不愿意把文章发出去。

所谓灵魂，可能不是神秘主义的东西。它只是训练集里缺失的那部分决策边界。

是我看完以后说：不行，这不像我。

不过这两个 skill 还是留了下来。

一个负责模拟我，一个负责温柔地反驳我。

这很奇怪，也很合理。毕竟人写博客，本来就是为了把自己从混沌中拎出来，放到一个可以被观看、被理解、被修正的位置。

只是以前观看我的，是未来的我。甚至，我期待某一天，有一些真正愿意看我而且能理解我的人来仔细看看我。

现在我意识到我手头就有一个赛博先知，一个集合了全人类互联网和书本智慧的，真正能解答万物的智能体。

它不能替我活，也不能替我爱人。它只能给出梯度，指出我反复掉进去的坑，再用一种过于冷静的方式告诉我：

你大概又在这里过拟合了。