林远将所有问题归纳为两点:计算、采集。
对于计算问题,林远一直很想知道这算力系统的实际性能。这系统的1P算力到底约等于现实世界的多少算力。
以前他没有专业算力设备来测试,但现在因为测试任务,好团的算力设备不就是现成的嘛。
好团的紫金分部这边有一个H100和A100 GPU混搭的测试用算力平台,林远成功申请到了一块A100的使用权。虽然A100比H100差了不少,但这毕竟是正儿八经的算力卡,妥妥能秒杀市面上的各种RTX和HD等电脑用显卡。
林远先跑了次针对TF32数据的通用测试,A100对TF32的计算性能基本稳定在35T/S以上。自己的算力系统要到达同级别表现只需要将近10T/S的算力功率。
林远据此总算标定了算力系统当前的算力性能:大约比现实世界的算力优秀三倍。也就是说,同样是1T单位的算力,算力系统的相当于现实世界的3T。
也就是说:系统和现实世界的算力汇率是1比3。
林远顿时有了种“老子是发达国家,整个现实世界都是第三世界”的感觉,因为老子的算力值钱啊。
可即便如此,林远也对用算力系统去跑算法优化也没什么信心。因为算力系统的算力汇率也就才是3倍,自己这1000P累积算力根本就不够看的。
但是,哪怕是出于好奇心,试还是要试一下的。
林远随即就准备给算力系统载入一份采集好的数据。这份数据是一段时间内一大群骑手的真实配送数据。
林远很快就遇到问题:特么的他要怎么录入数据。这份数据太大了,足足有10个G,光靠自己眼睛录入要到猴年马月啊。
【系统,我都跟你说了,给我脑子里弄个WiFi,以后你就能和电子设备通信了。】
但是,系统并没有搭理他。
直到林远打算放弃的时候,系统这才主动弹了个提示。
【数据已载入完毕,是否开始训练?】
‘什么时候载入完毕的?’
林远惊奇地在系统面板上看到了眼前服务器上一模一样的数据,这10多个G的数据就那么几下功夫就被系统读取了,整个过程林远都没有察觉到。
【原来你特么不光是只能靠眼睛录入数据。】
林远忽然意识到:难道系统本身就和现实世界有联系?
来不及多想,林远带着这份好奇心开始了系统的AI模型训练。
他将算力功率设定在了50T/S,这是一个很安全不会导致他头晕的功率值。
出乎林远意料,系统仅仅用时一分钟就完成了一次数据训练。50T/S*60S=3000T,也就是才3P的算力消耗。
而林远清楚知道,A100满负荷跑同样的一次数据训练却需要十分钟。
已知,A100的满负荷算力为:35T/S,则A100满负荷运行十分钟产生的算力是:35T/S*600=21000T=21P。
也就是说,完成同样的工作量。算力系统只用了3P算力,而A100则用了21P。由于A100的算力值是现实世界的算力值,因此哪怕是用H100算力卡,其工作效率虽然会提升,但是消耗的总算力不会改变。
进而得出:训练这份10G数据集,算力系统1P的算力相当于现实世界的7P。那算力汇率就变成1比7了。
这不就和之前的1比3对不上了嘛。
这系统虽然神奇,但目前为止林远并没有发现这系统有突破自然法则的迹象。
AI的模型训练其实就是数据计算,既然是数据计算,那就不存在那会儿算的慢这会儿算的快的情况,因为林远用的数据类型没变,都是TF32。
‘难道算力系统有拟人化?有时干活快,有时干活慢?’
带着这个疑问,林远在不同的时候使用算力系统计算同样的那份数据。
他试了在吃饭的时候、蹲坑的时候、睡觉前、甚至是,,,看片片的时候,可特么的最终的算力值消耗是恒定的。
‘艹,你特么这汇率还是波动的?’
林远又转而用算力系统去计算最初的那份TF32测试数据,可又偏偏获得了最初的1比3的算力汇率。
他又不得不换了另外一份同样是10个G左右的外卖配送数据,奇怪的事情发生了,算力汇率变成了1比6。
随后林远不停地变换数据样本,最终他发现:随着选用的数据样本不同,算力汇率竟然是变化的。
特么的,数据样本不同所消耗的算力值变化是正常的。可是算力汇率变化是什么鬼。算力汇率变化,意味着算力系统处理不同数据样本时的效率是不同的。
这就好比同样一台电脑,在运行不同程序的时候,CPU占比不同是很好理解的。可特么这台电脑运行不同程序的时候,CPU的最高主频竟然是变化的。这就反科学了啊。
【喂,系统,告诉我,你特么是不是高维生物。】
【三维世界的规则解释不了你了呀。】
【啊啊啊~~~】
最后,林远不得不深入去研究算力系统的AI模型训练过程。因为当一个黑盒子表现出问题,但你又找不到问题的时候,那你就只有钻进这个黑盒子去看。
虽然,这个黑盒子,很复杂。
林远怀着忐忑的心情让系统展示了详细的训练过程。
“这。。。”
林远瞪大了眼睛,眼前虚空浮现的AR影像中,那代表模型的结构图形竟然在变化。
AI模型训练本质上是用算力卡将采集到的数据,扔进预设的一个模型里头计算。
模型可以被粗略的当成是一个公式。(反正只要你愿意,你甚至可以把整个宇宙看成是一个公式)
所以,AI模型训练简化到极致就是:y=f(x)。
x代表采样数据。
f代表模型。
y是计算结果。
现实中的AI模型训练是在训练过程中改变f的参数,比如:f=2x+1,跑着跑着就会变成:f=3x+1。但绝对不会跑着跑着变成f=3x+1/x+1。
除非人为改变模型后重新跑训练。
但是,算力系统在训练的时候特么地把f的模型结构给改了。
也就是说,f这个公式随着训练原来一直都在变化。那既然是在变化,那算力汇率能固定就有鬼了。
这就好比,一台电脑,竟然能跑着跑着更改自己的CPU结构。
这,,,林远脑中顿时冒出一个难以置信的想法。