在即将到来的2020年国际机器学习会议(ICML)上接受的论文中,OpenAI的研究人员证明了一些基于像素序列训练的AI语言模型可以生成连贯的图像。他们说,这是朝着理解和弥合计算机视觉和语言理解技术之间的差距迈出的一小步,但意义重大。
在机器学习中,自监督学习或没有人工标记数据的学习是一个长期的挑战。最近,谷歌的BERT、脸书的RoBERTa和OpenAI的GPT-3等模型在一系列语言任务中取得了领先的性能,但当应用于图像生成或分类时,这个新兴的类并不成功。
幸运的是,基于GTP-3的基于变压器的模型是独立于领域的,这意味着它们可以应用于任何形式的序列。OpenAI用它在图像数据上训练其语言模型GPT-2的较小版本。结果表明,即使没有人工编码的知识,该模型也能理解物体的外观、类别等特征。该模型的特征能够在众多分类语料库上达到最新的性能,并且具有几乎最新的无监督准确率。
OpenAI已经在流行的基准语料库ImageNet上训练了三个版本的图像生成GPT-2模型-iGPT-S(参数为7600万)、IGPT-M(参数为4.55亿)和IGPT-L(参数为14亿),还有一个更大的模型名为IGPT-XL(参数为68亿),它结合了ImageNet和from,然后,他们降低了图像的分辨率,并创建了自己的9位调色板来表示像素,使得输入序列的长度比标准RGB光谱短3倍,而不牺牲精度。
根据OpenAI,结果显示图像特征质量随着深度的增加而急剧增加,然后略有下降。研究人员认为,这可能会发生,因为基于Transformer的模型分两个阶段运行。在第一阶段,模型从其周围的上下文中收集信息来构建上文化和下文化的图像特征,而在第二阶段,上文化和下文化的特征被用来预测图像中的下一个像素。
然而,OpenAI指出他们的方法有局限性。它的iGPT模型只显示低分辨率图像,并显示偏差,这些偏差来自于它们的数据训练。例如,性别和角色之间可能存在关系(即“男性科学家”)。此外,他们在计算培训上花费了大量时间——在Nvidia V100显卡上使用iGPT-L大约需要2500天。
为此,研究人员认为,这项工作主要是用作概念证明的演示。他们写道:“训练这些模型的巨大资源成本和(现有)方法的更高精度,使得这些表示无法用于视野中的实际应用……(并且)预计开发人员将需要更加关注他们提供的数据。”[然而,我们的]结果表明,由于其简单性和多功能性,具有足够计算能力的序列发生器最终可能是学习许多领域优秀功能的有效方法。"
OpenAI早就断言,强大的计算机结合强化学习等技术可以实现范式转换的AI进步。正如今年早些时候在《麻省理工科技评论》中报道的那样,一个名为OpenAI中的Foresight的团队进行了实验,通过训练越来越多的数据和计算算法来测试他们能把AI功能推进到什么程度。根据同一份报告,OpenAI正在开发一个使用大量计算资源来训练图像、文本和其他数据的系统。公司领导认为这是人工智能(AGI)最有前途的方式,也就是可以学习任何任务的AI人类都可以。
OpenAI还发现,增加其模型的规模,进行更多的迭代训练,可以带来更好的图像质量。当在基准CIFAR-10、CIFAR-100和STL-10上评估函数时,它们的性能优于所有有监督和无监督的传输算法。
标签: