当前,科技公司正在竞相创造可以根据文字提示生成高质量图像的人工智能算法,这项技术似乎发展得很快,以至于有人预测,插画师很快就会失业。事实上,这些人工智能系统的局限性意味着,它们可能还需要一段时间才能被普通大众使用。
近年来,使用神经网络的文本到图像生成器取得了显著的进展。最新的一款是来自谷歌的Imagen,紧随OpenAI在4月份发布的DALL-E 2而来。
这两个模型都使用了一个神经网络,该网络在大量示例上进行过训练,以分类图像与文本描述之间的关系。当给出新的文本描述时,神经网络会再次生成图像,并根据所学内容对其不断修改,直到它们与文本最为匹配为止。
虽然两家公司展示的图像都令人印象深刻,但研究人员质疑,这些图像可能是精心挑选过的,为了以最好的方式展示这些系统。“他们需要展示出最好的成果。”英国德蒙福特大学的Hossein Malekmohamadi表示。
评判这些人工智能作品的一个问题是,这两家公司都拒绝公开演示,不让研究人员和其他人对它们进行测试。造成这种情况的部分原因是,他们担心人工智能可能被用来制造误导性图像,或者担心它可能产生有害的结果。
这些模型依赖于从互联网上抓取的大量未经处理的数据集,例如LAION-4亿数据集,谷歌称该数据集包含“色情图片、种族主义污言秽语和有害的社会观念”。Imagen背后的研究人员表示,因为他们不能保证这些模型会不会包含一些有问题的内容,所以他们不能将其发布给公众。
OpenAI声称正在改进DALL-E 2的“安全系统”,方法是“改进文本过滤器,并调整自动检测和响应系统,以应对违反内容政策的行为”,谷歌则试图通过开发“潜在危害词汇表”来应对挑战。
除非这些问题能够得到解决,否则像谷歌或OpenAI这样的大型研究团队似乎不太可能提供通用的文本到图像系统。规模较小的团队有可能选择发布类似的技术,但在巨大的数据集上训练这些模型所需的计算能力,往往会将这些工作限制在大型参与者身上。
尽管如此,大公司之间的友好竞争可能意味着该技术将继续快速发展,因为一个团队开发的工具可以被纳入另一个团队的未来模型。例如,在扩散模型中,神经网络学习如何逆转向图像中添加随机像素的过程,以改善图像。过去一年,该模型在机器学习模型中显示出了希望。DALL-E 2和Imagen都依赖于扩散模型,该技术在OpenAI的Glide图像生成器等功能较弱的模型上被证明是有效的。
“对于这类算法,当你有一个非常强大的竞争对手时,意味着它可以帮助你构建比其他算法更好的模型。”Malekmohamadi说,“例如,谷歌有多个团队在同一类型的人工智能平台上工作。”
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。