新智元报道

编辑:编辑部

【新智元导读】用爬虫抓取几年前自己的数字足迹,用Vicuna做出一个自己的大语言模型数字分身,是什么感觉?这段网友和童年的自己对话,让人泪目了。

R eddit上的网友,又搞新活了。

他用了自己100个小时的网络足迹数据,训练了一个大语言模型。

也就是说,他可以和自己的数字分身对话了。


用100小时的数据训练了17B的模型,现在他可以和自己的「幽灵」进行对话了

训练这么个大模型,其实并不容易,根据该网友的说法,他前后改进了很多次,并且在花费了许多个深夜来自言自语,才终于训练好了大模型。

如果让他总结经验的话,就是项目是否成功基本取决于访谈语料库的质量。

方法无关紧要,语料库至关重要

最开始,他用的是Meta的Llama-2(llama-2-70b-hf),但由于生成的结果很奇怪(不知道是自己的微调不正确,还是模型并没有做自己该做的事),最终他选择的是Vicuna。

最方便的地方在于,他的模型还可以显示来源,因此他可以追踪模型的答案是来自哪个时间段的。


训练数据用的是2019年以前的语料

这个帖子发出后,得到了网友们的热烈回应。

网友们纷纷表示,做一个自己的数字孪生,这也太酷了!希望lz能详细解释这个过程。

也有人询问,能不能通过自己的电子邮件来训练一个AI呢?

成为人类学家和刑侦人员的新工具?

这件事也引发了大家对于自传和日记的未来的哲学思考。

有人提出,我们可以在一本数字日记中收集自己的思想,然后根据需要从音频记录生成文本。最后,就可以把这些文本转换为一个可以回答问题的聊天机器人了。

而这些文本中,就包含一个人过去的生活,以及他曾经持有的信念。

而根据这些聊天机器人,或许就会成为人类学家、历史学家、刑侦调查人员的有效工具,可以深入研究人们的思想和日常生活。

「幽灵」依然会产生幻觉

当然,这个模型依然没有避免LLM众所周知的缺陷。

在私人领域,这些缺陷暂时不成问题。但显然,传记作家这个职业短期内不会消失。

尽管数据库经过精心策划,但AI模型还是会表现出一些出人意料的行为。

比如,它多次重复说自己是个天才,并且相信外星人的存在。但这名网友在原始内容中从来没有说过这样的话。


有人猜测,大概是因为模型是使用的统计概率,来学习单词之间的关系。

因此,如果有人经常说类似的内容,并自称天才的话, 模型就会把两者联系起来。于是,即便题主自己没有自称过天才,模型也会给出类似的输出。

训练自己的数字孪生模式

构建训练模型的数据集,可相当不容易。

这位网友从各种网站上收集了自己各个时间段留下的网络足迹。

通过爬虫,很容易就找到这些资料,提取出来,再花一两个晚上整理好。

一开始,他选择用音频。

而现在,他有了一个完备的摄像装置,可以从3个不同角度录制自己的面部,同时配以专业的麦克风装备。

源文件是用脚本处理的字幕文件。


而真正和自己的「数字分身」模型对谈时,他既兴奋又不安,感受十分复杂。

他发现,这个「自己」变了,会说出一些自己并不同意的观点。

他不确定真的是自己变了,还是模型根据语料推断出了一些自己并不敢承认的事情。


回看这个过程时,网友把这个过程看作是写日记,或者对自己的一种洗脑式的审查。

在这个自我评估的过程中,他也发现自己变得更加深思熟虑,开始学会反思。

当你花费如此多的时间,透过一面虚拟镜子去看自己、询问自己到底是谁时,你很难做到对自己撒谎。


有趣的是,这个网友发现,模型时不时会在回答中以「有帮助」和「没帮助」来开场。

百思不得其解的网友,干脆直接去问了问模型,这是怎么回事。


经过85.33秒后,模型生成了这样的回答:

然后,模型列出了一大串参考文本。


创造自己的数字分身,早有人试过了

2022年底,艺术家兼创意程序员Michelle Huang想到用她童年的日记资料来训练GPT-3,以便更好地了解自己。


Huang写日记的习惯,大约持续了10年以上,这些日记记载了她的梦想、恐惧以及秘密。

日记内容从抱怨家庭作业到与暗恋对象交谈时的目眩神迷....几乎无所不包。

Huang说当她再次回顾这些日记时,她发现:

「尽管有些日子很平淡,但有些时候的我却很有洞见。」


对训练模型的数据源,Huang表示:

这些数据十分充足,而且是那些能够代表她个性和价值观的内容。

这样就可以根据那个时期的真实数据,准确地模拟与童年的自己交谈的感觉。

在向模型输入大量日记数据后,Huang问了几个有关世界观的问题。


Huang表示,模型的回应和她认为的那一时期她的反应惊人地相似。


之后,Huang让模型向现在的她提问。


Huang说,「这种特定的互动感觉与正常的交流非常相似,就好像我正在和过去的我,通过这个聊天框进行对话。」

同时,Huang也非常惊讶,这个用了她十年之前童年日记的模型十分准确地预测到了她现在的志趣。


这让Huang想到,也许她现在从事的这条道路在很早之前就在她的心里埋下了种子。

Huang提到,在这些对话中有两个特别打动她。

第一个是她告诉过去的自己一直渴望听到的话语:

她是被爱着的、被关心的、以及安全的时候,这种感觉就像自己伸手进入了过去,给曾经的自己一个巨大的拥抱。同时,这份温暖的情感也传递给了现在的自己。


第二个是她激励曾经的自己给现在的自己写一封信。在Huang读着这封信的时候,她感觉到那些让她反复纠结懊悔的心结,慢慢消解了。


对于Huang,或是以后打算创造 一个数字分身的我们来说,这种互动所带来的治愈感或许就在于:

「将爱送回过去,并从年轻的自己那里获得爱。」

同时,Huang表示:与「young Michelle」对话时,让她发觉来这么多年来自己身上一直不变的部分,也让她想起那些因为生活或者经历而忘记或埋葬的部分。

「这就像是拿着一面镜子,对准了自己本质中不加掩饰、更加真诚和纯粹的一面。」


参考资料:

https://the-decoder.com/interviews-with-a-ghost-of-myself-the-future-of-autobiography/

https://www.reddit.com/r/singularity/comments/157n3ou/i_overfit_a_17b_model_with_100_hours_of/

https://the-decoder.com/artist-trains-ai-chatbot-with-her-diary-and-talks-to-her-inner-child/