下载APP

34(1/3)

投票推荐 加入书签 留言反馈

34

当晚王青青青一行人先行回去了。次日上午,同行两辆车驶出度假村,沿着89号公路一路向南。太浩湖的蓝在后视镜里越来越远,越来越小,最后被一个弯道吞没了。

车里很安静。薛意开车,曲悠悠坐副驾。暖气开着,窗外是连绵的雪松。

薛意全程眉心微蹙,目光直直锁在前方,时不时看几眼后视镜,嘴唇抿成一条线。

曲悠悠偷偷看了她好几眼,没敢说话。

怎么了,这是?

出了山区后,车速加快。仪表盘上的数字稳定在85英里每小时左右,时不时的一不留神就能蹿上90。前面陶予之的特斯拉也开得飞快,两辆车在空旷的荒野公路上一前一后,像在赛车。

曲悠悠问AI  ,93英里每小时相当于国内的多少码。AI告诉她,150码。

嘶…

她寻思这后边也没人追啊。默默扯了扯安全带,确认系紧了。尬里尬气开始找话说。

今天天气挺好哈。

“…”

沉默一阵,薛意忽然想起来刚有个人说话了似的:嗯。

路上没什么车。

嗯。

你…是不是不太高兴?

没有。“

“哦…“

“怎么了?

从上车起就皱着眉头。

薛意眨了眨眼,单手碰碰眉心,好像这才意识到:哦。我在想一个问题。

什么问题?曲悠悠耳朵竖起来了。

Transformer架构里attention机制的数学本质,能不能用微分几何的框架重新表达。陶予之昨晚给我看了一篇新的预印本,我觉得他们的证明路径有一个gap。

……

曲悠悠傻了。

啊?

这啥?

每一个字好像都能明白,但连起来就是听不懂。

类似于,“我个人认为这个意大利面就应该拌42号混凝土。因为这个螺丝钉的长度,它很容易会直接影响到挖掘机的扭距,你往里砸的时候,一瞬间它就会产生大量的高能蛋白,俗称UFO,会严重影响经济的发展…“你懂你悠姐的意思吧?

曲悠悠感到一丝悲凉:“你说的,这是关于…什么的问题啊?“

薛意又眨了眨眼:“哦,AI相关的数学问题。”

叮。心里有个微波炉热好了饭似的,曲悠悠也眨了眨眼,被动触发尬笑技能:“害,你这么说我就懂了嘛哈哈哈…”

其实也不懂。

所以你是在做数学题。

嗯。

曲悠悠看着薛意严肃的侧脸,忽然有点想笑。觉着薛意这人挺好玩的。皱着眉头飙到150码,不是因为心情不好,是因为在脑子里解微分方程。说起话来也好像AI啊,还是不说人话的那种。

有点可爱。

嘿嘿。

中午在一个公路旁小镇停下来吃饭。

下车走进路边一家美式餐馆,薛意和陶予之刚坐下就开始聊。

陶予之从包里掏出平板,翻出一篇论文递给薛意:MIT那组的新预印本你看了吗?把self-attention写成球面上的iing  particle  system,证了一个token  clustering的收敛定理。证明本身挺漂亮的,Wasserstein梯度流那段构造得很干净。

薛意接过来,眼睛扫了一眼公式。

证明是挺漂亮的,但不能用。她拿过一张餐巾纸,画了个球面示意图:他们的Lipschitz假设在实际的softmax下根本不成立,高维空间里梯度直接blow  up。你拿这个收敛率去calibrate真实的attention  map,差两个数量级。

陶予之笑了一下。她太熟悉薛意的思路了。纯数学家看一篇论文先看证明结构美不美,

本章尚未读完,请点击下一页继续阅读---->>>


【1】【2】【3】

本章未完,点击下一页继续阅读

章节目录