一项针对全球数十家机构学者的调查显示,许多大学的科研人员对可供他们用于人工智能研究的算力资源有限感到沮丧。
据《自然》报道,科研人员接触不到最先进的计算系统,可能会阻碍他们开发大型语言模型和进行其他人工智能研究的能力。
特别是,学术界研究人员有时没有足够的资源获得强大的图形处理器(GPU)——通常用于训练人工智能模型的计算机芯片,其成本可能高达数千美元。相比之下,大型科技公司的研究人员预算更高,可以在GPU上投入更多。
英伟达的H100 GPU是人工智能研究中备受追捧的芯片。图片来源:英伟达
?
“每增加一块GPU,都会增加更多算力。”该研究作者之一、美国布朗大学的计算机科学家Apoorv Khandelwal说,“那些行业巨头也许拥有数千块GPU,但学术界可能只有几块。”
美国非营利性人工智能研究机构EleutherAI的执行董事Stella Biderman表示:“学术界和行业之间的差距很大,但它本应该小得多。”对这种差异的研究“非常重要”。
为了评估学术界可用的算资源,Khandelwal和同事调查了35个机构的50名科研人员。在受访者中,66%的人对算力的满意度为3分或更低(满分为5分)。“他们一点也不满意。”Khandelwal说。
大学对使用GPU有不同的设定。在有些大学,可能有一个由院系和学生共享的中央计算集群,科研人员可以在那里申请GPU时间。其他机构可能会购买机器供实验室成员直接使用。
一些科研人员表示,他们必须等待数天才能使用GPU,并指出,在项目截止日期前后等待时间特别长。
调查结果还突显了全球在获取方面的差距。例如,一位受访者提到了在中东难以找到GPU。只有10%的受访者表示,他们可以使用英伟达的H100 GPU,这是为人工智能研究设计的强大芯片。
这一障碍极大加剧了预训练过程的难度,即向大型语言模型输入海量数据集的过程变得尤为困难。“由于成本高昂,大多数学者甚至不敢涉足预训练领域的研究。”Khandelwal指出,算力匮乏可能会严重制约这一领域的未来发展。
“为了长远的发展,拥有一个健康、有竞争力的学术研究环境至关重要。”该研究作者之一、美国布朗大学的计算机科学和语言学学者Ellie Pavlick说,“相比之下,在行业研究中往往存在显著的商业压力,这有时会促使他们急于求成,减少了对未知领域的探索。”
该团队还深入探究了科研人员如何在算力资源有限的情况下进行更高效的利用。他们测算了在使用1至8块GPU的低资源硬件环境下,预训练多个大型语言模型所需的时间。尽管面临资源限制,科研人员仍成功训练出多个模型,但这一过程耗时更长,并要求他们必须采用更为高效的方法。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。