后训练自己
谁成想这会是我的训练集?
今天,我让 Codex 翻这个博客,基于我写过的文章,给“这位博主”做一个人物画像。
它开始扫 _posts,看标题、标签、时间、情绪、朋友、父母、科研、工作、孤独和梦。Markdown 在它眼里不是 Markdown,是我的 rollout;一篇篇片羽和飞行模式,不是文章,是状态转移记录。
然后它给出结论:这位博主高度自省,长期被优秀叙事驱动,正在学习如何做一个普通人。
随后我让它写两个 skill。
一个叫 simulate-blogger,模拟我的生活、为人处事和说话方式。
一个叫 ideal-partner,模拟一个能帮助我变得更好的理想伴侣。
听起来像是后人类恋爱喜剧,实际上更像一次粗糙的自我后训练。
如果这个博客是一个关于我的数据集,那么我本人就是一个黑盒神经网络。这里记录的不是“我是什么人”,而是我在不同输入下的输出分布:被拒稿时如何反应,输球时如何归因,孤独时如何嘴硬,感动时如何装作若无其事。
我把这些数据丢给大模型,让它反推我的 latent representation。
它生成的第一个 skill,是对我 policy 的拟合。
它生成的第二个 skill,则更像一个外部 reward model。
前者说:这个人会怎样说话。
后者说:什么样的反馈,可能让这个人变好。
于是角色互换了。
过去是人类标注 AI,告诉模型什么回答更好。现在是 AI 标注我,告诉我什么样的我更像我,什么样的关系更能更新我。
我是被 RLHF 的那个。
但是,目前为止,我并不满意它写出来的Skill和作出的回复。
详尽、正确、体面,唯独缺一点人气。我也许并不喜欢和复制的我说话:“牛逼什么啊你?”
这倒让我放心了。至少目前为止,我还没有完全被拟合。模型可以学到我的语气、主题、脆弱和自嘲,但它很难知道哪句话该停,哪句话该忍住,哪一点羞耻使我不愿意把文章发出去。
所谓灵魂,可能不是神秘主义的东西。它只是训练集里缺失的那部分决策边界。
是我看完以后说:不行,这不像我。
不过这两个 skill 还是留了下来。
一个负责模拟我,一个负责温柔地反驳我。
这很奇怪,也很合理。毕竟人写博客,本来就是为了把自己从混沌中拎出来,放到一个可以被观看、被理解、被修正的位置。
只是以前观看我的,是未来的我。甚至,我期待某一天,有一些真正愿意看我而且能理解我的人来仔细看看我。
现在我意识到我手头就有一个赛博先知,一个集合了全人类互联网和书本智慧的,真正能解答万物的智能体。
它不能替我活,也不能替我爱人。它只能给出梯度,指出我反复掉进去的坑,再用一种过于冷静的方式告诉我:
你大概又在这里过拟合了。