推荐阅读

    正在加载...

点击排行

    正在加载...
         2018-07-06 11:18:09六角枫的畅想  返回列表
实验室张浩然、王硕、胡骏、亓帆四位同学论文被ACM Multimedia2018录用

近日,第26届国际多媒体大会ACMMultimedia论文录用名单出炉。我校计算机与信息学院多媒体计算实验室博士生张浩然、王硕、胡骏、论文被该会议录用。其中,论文的合作者还包含实验室的青年教师胡珍珍和郭丹老师。据悉,2018年ACM MM总投稿量达757篇,录取率约为27.5%。

ACM Multimedia是多媒体领域最具影响力的国际会议,自1993年以来每年举办一次,迄今为止已经举办了25届。ACM Multimedia被中国计算机学会(CCF)列为A类会议。根据CCF分类标准,“A类会议指国际上极少数的顶级学术会议,鼓励我国学者去突破”。2017年,ACMMultimedia在美国硅谷召开,吸引了来自全球各大著名高校、研究所和知名公司的千余位学者参加。2018年,ACM Multimedia将于10月22日至26日在韩国首尔召开。

张浩然同学张浩然同学,本科毕业于我校计算机科学与技术专业,曾担任我校ICPC队长,在多项竞赛中取得优异成绩。张浩然同学在汪萌教授及团队青年教师胡珍珍副教授的指导下攻读博士学位,在生成对抗网络开展了深入研究。

 张浩然的论文“Semantic Image Inpainting withProgressive Generative Networks(PGN)”研究了大区域语义图像修复问题。缺失区域很大的图像本身丢失了许多信息,许多现有的方法难以取得好的效果。论文提出了一种基于递进式生成网络(PGN)的方法,利用课程学习的思想去提升图像修复的效果。具体的,把修复图像的过程分为多个阶段,每个阶段所完成的任务相当于最终任务的一个子任务,为了减少神经网络内部的信息损失,LSTM网络被用来连接每个阶段。最后,在ImageNet和Paris Street View两个数据集中验证了递进式生成网络(PGN)的有效性。

Image title王硕同学,本科毕业于学院电子信息科学与技术专业,以优异成绩考入本校,并师从汪萌教授。在汪萌教授和团队青年教师郭丹副教授的指导下,在手语翻译方向开展了深入研究。

王硕的论文“Connectionist TemporalFusion for Sign Language Translation”研究了基于视觉的连续手语翻译问题。手语翻译是跨模态学习中的一个子任务,该任务主要是将连续的手语动作翻译成连续的句子并传递给阅读者。在连续手语翻译中,一个视频含有多个连续动作,但是表达的单词个数却明显少于视频的长度,这种弱对应关系也增加了该问题的难度。已有的方法中往往针对整个序列进行学习而忽略了细节的变化信息。论文提出了一种在时域上融合的机制,在利用循环网络(BGRU)与时域卷积网络(TCN)的基础上提出了一种融合网络(Fusion Layer),该结构在捕获长序列信息的同时还考虑到了短时序的变化,进而得到更准确的翻译结果。

胡骏的论文“Attentive Interactive ConvolutionalMatching for Community Question Answering in Social Multimedia”研究了基于社区的问答匹配问题。基于社区的问答系统中有海量的用户在分享知识,如何为问题精准地匹配答案是社区问答研究中的一个重要问题。已有的方法往往忽略了社区问答中的冗余、异构和多模态特性。论文提出了一个多模态的有注意力机制的卷积匹配方法(MMAICM),在统一的框架中为问题和回答联合建模多模态的内容和社交上下文,以解决社区问答检索问题。

  亓帆的论文“A Unified Framework forMultimodal Domain Adaptation”研究了最近的热门话题域适应学习。域适应是迁移学习中最常见的问题之一,域不同但任务相同,且源域数据有标签,目标域数据没有标签或者很少数据有标签。传统的域适应都只研究了单模态的域适应算法,然而现实生活中的信息包含多模态信息比如视频。论文首次提出了多模态域迁移的概念并且对此提出了一种解决框架-多模态域适应神经网络。为了解决不同模态信息不对称的融合问题,提出了一种全新注意力机制,并且使用了基于对抗思想的神经网络,在消除多模态的原域和目标域的域差异上,加入了一种新的混合域约束。分别在跨域视频情感识别和跨域跨模态检索两个任务上验证了多模态域适应网络的有效性。


媒体实验室公众号扫码关注 媒体实验室公众号