AAAI2020 开幕:百度28篇论文入选 涉及NLP、机器学习、视觉等领域

立春刚过,人工智能行业迎来2020年的第一个顶级学术大会,2月7日,AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录,较AAAI 2019的15篇入选成绩提升近一倍,本次入选论文涉及机器学习、自然语言处理、计算机视觉等多个领域,原计划有多位百度重量级科学家、研究者将受邀赴会发表演讲。受疫情影响,众多中国学者将缺席本次大会,百度通过的远程参与。

自1979年成立至今,AAAI已举办34届,大会汇集了全球顶尖的人工智能领域专家学者,可谓是人工智能行业的科研风向标。本届会议共收到的有效论文投稿超过8800篇,其中7737 篇论文进入评审环节,最终录取数量为1591篇,录取率为20.6%。其中百度入选28篇论文,再创百度参会入选论文数历史新高,这一成绩在全球范围中也处于第一梯队。此次入选的28篇论文覆盖机器学习、自然语言处理、计算机视觉等领域,完成了在数量上和研究方向的双向突破,创新科研能力可见一斑。

NLP预训练领域,百度入选论文《ERNIE 2.0: A Continual Pre-training Framework for Language Understanding》(语言理解的持续预培训框架)也被选做Oral进行展示。ERNIE 2.0是持续学习的语义理解框架,该框架可以增量地学习海量数据中的知识,持续提升语义理解效果。在ERNIE 2.0中,知识可通过预训练任务的形式加入到训练框架,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。基于该框架,ERNIE 2.0模型通过命名实体预测、句子排序结构重建、语义逻辑关系预测等预训练任务,从大规模训练数据中获取到词法、句法、语义等多个维度的知识,大幅提升了通用语义理解水平。

ERNIE 2.0同现有的预训练模型在英文数据集合GLUE和9个中文任务上进行了实验。 模型在英语任务上几乎全面优于之前的SOTA模型BERT和XLNet,在7个GLUE任务上取得了最好的结果;中文任务上,ERNIE 2.0模型在所有9个中文NLP任务上全面优于BERT。去年 12月,基于ERNIE 2.0改进的模型在GLUE上首次突破90大关,超越人类基线3个点拿到全球第一。

机器阅读理解领域,百度入选论文《A Robust Adversarial Training Approach to Machine Reading Comprehension》(一种强有力的机器阅读对抗性训练方法),讨论了机器阅读理解模型面临对抗攻击时的效果鲁棒性问题甚至安全问题。通过人工方式发现、总结并生成用于训练对抗样本的方式会产生需要人工参与的缺点,且不可能通过规则的方式枚举出所有可能的对抗样本类型及其规则。针对此,论文提出一种模型驱动的方式,使用自动对抗的方法无需人工参与,能够自动地发现未观察过的对抗样本类型并最终提升阅读理解的效果鲁棒性。

该方法可以简单地划分为三个步骤:

(1)对每个训练样本我们利用对抗的方法生成一个干扰向量输入,使得它能够误导当前的阅读理解模型;

(2)采用贪心策略从干扰向量的词汇权重中采样得到对应的离散化的干扰文本;

(3)使用干扰文本构建用于训练的对抗样本,并重新训练阅读理解模型并重复上述步骤直至收敛。

经实验验证,运用上论文中的对抗训练方法后,在不同的对抗数据集上均有非常显著的效果提升。并发现论文提出的模型驱动的方法确实能够生成多样性更加丰富的对抗样本,从而补充人工规则的不足。同时也发现使用该方法生成的对抗样本case仍然较为杂乱,并不具备很好的流利度甚至完全不是自然语言,因此当前对抗生成的方法仍然有较大提升空间。

计算机视觉领域,百度入选论文《ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object Detection》(部分感知自适应缩放神经网络在三维目标检测中的应用),并选为oral进行展示。该论文提出了一个全新的双目3D检测框架ZoomNet,通过巧妙的利用自适应缩放来降低远距离的深度估计误差,以及学习部位特征来进一步提高3D检测的表现。在主流的KITTI数据集3D检测任务上,ZoomNet在验证集上的平均精度(IoU阈值为0.5)超过Pseudo-LiDAR(CVPR19)近10个百分点。对于远距离(>40m)的车辆,3D检测精度比Pseudo-LiDAR高了120% 。

论文表示,对于每一个实例,ZoomNet在获取左右边界框后,首先对该实例在2D上做细粒度的分析。然后,2D上的前景像素点会被投影到3D空间中用于位姿的回归。为了充分利用RGB图像中丰富的纹理提示来进行更准确的视差估计,ZoomNet引入了一个概念简单的模块——自适应缩放,该模块同时将2D实例边界框的大小调整为统一的分辨率,并相应地调整了相机的固有参数,以实现从调整分辨率后的图像中估计出更高质量的视差图,以及对不同深度的实例构建相似密度的点云。此外,论文还提出通过学习实例的部位特征来提高对遮挡的鲁棒性,极大的提高了3D检测的性能。

发表评论