麻省理工学院的计算机科学家已经开发出一种系统,该系统基于对图像的口头描述来学习识别图像内的物体。给定图像和音频标题,模型将实时突出显示所描述图像的相关区域。
与当前的语音识别技术不同,该模型不需要手动转录和对其训练的示例进行注释。相反,它直接从原始图像中记录的语音剪辑和对象中学习单词,并将它们相互关联。
该模型目前只能识别几百种不同的单词和对象类型。但研究人员希望有一天,他们的语音对象识别技术可以节省大量的手工劳动时间,并在语音和图像识别方面打开新的大门。
例如,Siri和Google Voice等语音识别系统需要转录数千小时的语音录音。使用这些数据,系统学习用特定单词映射语音信号。当新术语进入我们的词典时,这种方法尤其成问题,并且系统必须重新训练。
“我们希望以更自然的方式进行语音识别,利用人类可以使用的其他信号和信息,但机器学习算法通常无法访问。我们有一个培训模型的想法这种方式类似于让孩子走遍世界并叙述你所看到的东西,“计算机科学与人工智能实验室(CSAIL)和口语系统小组的研究员David Harwath说。Harwath与人合着了一篇论文,描述了最近在欧洲计算机视觉会议上提出的模型。
在论文中,研究人员在一个金发和蓝眼睛的年轻女孩的图像上展示了他们的模型,穿着一件蓝色的连衣裙,背景是一个带有红色屋顶的白色灯塔。该模型学会了将图像中的哪些像素与“女孩”,“金发”,“蓝眼睛”,“蓝色礼服”,“白光屋”和“红色屋顶”相对应。当叙述音频标题时,模型然后突出显示图像中的每个对象。
一个有希望的应用是学习不同语言之间的翻译,而不需要双语注释器。在全世界估计的7,000种语言中,只有100种具有足够的语音识别转录数据。然而,考虑两种不同语言的说话者描述相同图像的情况。如果模型从语言A学习对应于图像中的对象的语音信号,并且学习语言B中对应于那些相同对象的信号,则可以假设这两个信号 - 和匹配的词 - 是彼此的翻译。
“有一种Babel Fish型机制的潜力,”Harwath说,指的是“银河系漫游指南”中的虚构生活耳机,它将不同的语言翻译成佩戴者。
CSAIL的共同作者是:研究生Adria Recasens;访问学生Didac Suris;前研究员Galen Chuang;Antonio Torralba,电气工程和计算机科学教授,也是MIT-IBM Watson AI Lab的负责人;和高级研究科学家詹姆斯·格拉斯一起领导CSAIL的语言系统组。
视听协会
这项工作扩展了Harwath,Glass和Torralba开发的早期模型,该模型将语音与主题相关图像组相关联。在早期的研究中,他们将分类数据库中的场景图像放在众包Mechanical Turk平台上。然后他们让人们将这些图像描述为对孩子进行叙述,大约10秒钟。他们汇集了20多万对图像和音频字幕,分为数百种不同的类别,如海滩,商场,城市街道和卧室。
然后他们设计了一个由两个独立的卷积神经网络(CNN)组成的模型。一个处理图像,一个处理频谱图,音频信号随时间变化的视觉表示。模型的最高层计算两个网络的输出,并将语音模式与图像数据进行映射。
例如,研究人员将提供模型标题A和图像A,这是正确的。然后,他们会用图像A给它一个随机标题B,这是一个不正确的配对。在将数千个错误字幕与图像A进行比较之后,模型学习与图像A对应的语音信号,并将这些信号与字幕中的字相关联。如2016年的一项研究所述,该模型学会了例如挑选出与“水”相对应的信号,并用水体检索图像。
“但它没有提供一种说法,'这是一个确切的时间点,有人说一个特定的词,指的是那个特定的像素片,'”哈瓦斯说。
制作匹配图
在新论文中,研究人员修改了模型,将特定单词与特定的像素块相关联。研究人员在相同的数据库上训练了该模型,但总共有400,000个图像标题对。他们提供了1000个随机对进行测试。
在训练中,模型同样给出了正确和不正确的图像和标题。但这次,图像分析CNN将图像划分为由像素块组成的单元网格。音频分析CNN将频谱图划分为例如一秒的段以捕获一个或两个字。
使用正确的图像和标题对,模型将网格的第一个单元格与第一个音频段匹配,然后将相同的单元格与第二个音频段匹配,依此类推,直到每个网格单元格和所有网格单元格时间段。对于每个单元和音频片段,它提供相似性分数,具体取决于信号与对象的对应程度。
挑战在于,在训练期间,模型无法访问语音和图像之间的任何真实对齐信息。“该论文的最大贡献,”Harwath说,“证明这些跨模式[音频和视觉]对齐可以通过简单地教导网络哪些图像和字幕属于一起而哪些对不能自动推断。”
作者将这种自动学习关联称为语音标题的波形与图像像素之间的“匹配图”。在对数千个图像标题对进行训练之后,网络将这些对齐缩小到表示该匹配图中特定对象的特定单词。
“这有点像大爆炸,物质真正分散,然后合并成行星和恒星,”哈瓦斯说。“预测开始分散在各处,但是,当你进行训练时,它们会聚合成一个对齐,代表口语和视觉对象之间有意义的语义基础。”
标签: 机器学习系统