ACM Multimedia | NLP与CV联姻,触景生情的浪漫派AI诞生了

2018-10-19 | 作者:微软亚洲研究院

编者按:在ACM Multimedia 2018上,微软亚洲研究院与京都大学合作的“Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training”获得最佳论文。这是研究人员第一次将图像理解与诗歌生成纳入整体框架,让AI学会了真正的“触景生情”,在看到一副图片时,直接吟出一首与之高度相关又富有绝妙想象力的诗歌。

本文编译自微软研究院博客文章“The poet in the machine: Auto-generation of poetry directly from images through multi-adversarial training – and a little inspiration”。


在人类文学史上,诗歌是一种神秘的语言。它是日常语言的升华,源自人类的生活体验,以充盈的情感和丰富的意象传达普通文字难以企及的思想感情。因此诗人通常拥有非凡的悟性与创造力。

而现在,在微软亚洲研究院研究员傅建龙、实习生刘蓓,与京都大学的Makoto P. Kato、吉川正俊的共同努力下,AI也能触景生情,将充满想象力的诗意语言脱口而出了。

上图展示了对同一张图片的“文字描述”与“诗歌”之间的区别。诗歌并不是对图像中客观事实的简单描述,而是运用了更深层次的表意技巧,将猎鹰联想为“暗夜中的骑士”,将“等待进食”这一事实描绘为一场一触即发的“战斗”,暮色沉沉中,猎鹰箭在弦上、蓄势待发的神态呼之欲出。

创作出这样充满文学性的作品,对AI来说是一项难于上青天的任务。此前根据图像自动生成文本的研究大多关注文本描述的准确性,而在这项任务中,AI不但要用充满想象力的方式自由探索图像中的关键信息,还要用诗意的语言进行表述,这是计算机视觉与自然语言处理两个领域的联姻;这些表达不仅要与图像内容高度相关,还要符合一种连人类都难以捉摸的标准——富有“诗意”。

突破视觉与诗的边界

让AI诗人成功“触景生情”的一大关键,在于研究团队对这一任务的深度理解。看图写诗与命题写诗看似相似,事实上要复杂得多。一种通常的做法是从图像中提取文字说明作为生成诗歌的基础文本,但这样做会丢失许多有效信息,特别是让AI抒发“诗意”的一些重要线索。因此他们选择将检索与生成融于一个系统,从图像直接生成诗歌。

研究团队也清晰地认识到,诗歌之所以成为诗歌,其风格与形式和简单的叙事性描述是完全不同的。因此在类型多样的诗歌中,研究团队选择了内容和形式最为开放的自由体英文诗,不给这位AI诗人设各式各样的格律限制;但控制了每首诗的结构和长度,在词汇上使用现实诗人们偏好的词句,同一首诗里的各个分句也要保持主题一致。

在明确任务后,研究团队开始了实验。“看图写诗”模型由一个深度集成嵌入模型(Deep coupled visual-poetic embedding model)和一个基于RNN的生成模型共同进行联合学习(Joint Learning)。他们首先人工标注了一个包含数千个“图像-诗歌”对的多模态诗歌数据集MultiM-Poem,根据图像的CNN特征和MultiM-Poem数据集中的skip-thought特征对嵌入模型进行训练。随后将嵌入模型用于数据量更大的单模态诗歌数据集(UniM-Poem),检索更多与这些图像相关的诗歌,结成更多的数据对,与MultiM-Poem数据集结合构成扩展数据集(MultiM-Poem (Ex))。

进一步的,研究团队采用最先进的序列学习(sequential learning),用MultiM-Poem(Ex)数据集对“看图写诗”模型进行了训练,从扩展数据集中提取和建模更多有助于产生“诗意”的信息。最后,两个鉴别网络通过多重对抗训练,对生成诗歌与图像的关联性和诗意进行奖励和优化。

那么这位AI诗人写的如何呢?研究团队从客观与主观两个维度衡量了诗作的质量,包括关联性、新颖性、转换一致性、连贯性、想象力等等,并邀请500多位人类评测员(包括30位专业人士)“欣赏”了这些诗歌。

主客观的评价均表明,这位AI诗人的创作不仅没有“偏题”,字里行间的表情达意还相当浪漫,与此前的所有“看图写诗”方法相比,从图像中直接生成诗歌的方法在诗意上有了显著的提升。目前,研究团队的诗歌数据集与代码已在GitHub上开源。

超越简单叙事的“诗意”

对于什么是“诗意”,研究员们并没有尝试去定义,而是让AI从诗歌与非诗歌文体中学习,让它自己学会判断自己的创作有没有‘诗意’。他们成功让一台没有认知能力的机器跳进文学的海洋中徜徉了一番,品读完万千诗歌的AI俨然是一位充满浪漫主义情怀的现代诗人了。

此次成功的AI创作项目对“看图写诗”问题来说意义非凡,因为它是将图像理解与诗歌生成纳入到一个整体框架中的首次尝试。此前也有不少机器写诗的研究,但它们大部分是在文本关键词的基础上生成诗歌,比如几年前就学会了写中文诗的少女诗人微软小冰,而微软亚洲研究院本次在ACMMM发表的论文向前迈进了一大步,从图像直接跨越到诗歌,突破视觉与语言的边界,让AI诗人拥有了更接近人类的认知能力。

研究团队希望这位新的AI艺术家能让更多人对艺术产生兴趣。AI创作不会取代诗人,但它能为我们带来文学艺术的审美体验,也可以进入大大小小的应用中为我们的生活增添乐趣,比如在游戏产业中为玩家制造更多创造性的互动体验。尽管离AI具备广泛的创作力还有非常遥远的距离,研究人员正在通过大胆的探索跨越这道门槛。

研究团队的下一步计划,是让这位AI诗人根据多幅视觉图像讲述文学化的故事,同时将情感等更多因素引入故事创作中。在我们观看图像时,每个人都会根据不同的经验、文化和身份产生不同的感情和理解。因此研究团队计划增加一个模拟人类情感的环节,使模型在看到图像后先产生情感分布,一幅图像对应多种情感,生成模型将随机选出一种情感去展开故事,这样生成的故事将更加多样,也更像人类。在研究员看来,AI或许最终将拥有自己的个性,逐渐从自己的主观经验中学习,就像我们人类一样。

在这个浪漫派AI诗人的全部创作中,刘蓓最喜欢的是这一首:

The sun is shining
The wind moves
Naked trees
You dance

阳光漫步
和风轻抚
光裸的树
你在跳舞
*由人工翻译

“这首诗来源于我们日常生活中随处可见的一个画面,它的语言看似平实,却又如此真实地给人触动。”这首诗最妙的地方,在于末尾句中“You”的模糊指代,“它指的可能一棵树,可能是一位朋友,也可能是读诗的我自己。这是诗歌的魔力,而我们的工作正在创造这种魔力。”

GitHub地址:https://github.com/bei21/img2poem

标签