近日,由西南财经大学计算机与人工智能学院新财经综合实验室吕新昱副教授的研究论文《Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization》被NeurIPS 2024第38届神经信息处理系统大会(The 38th Conference on Neural Information Processing Systems)接收。吕新昱副教授为该论文的第一作者,合作作者包括电子科技大学高联丽教授、同济大学宋井宽教授与欧洲科学院院士、IEEE Fellow申恒涛教授。这是我校在“可信人工智能—大模型价值对齐”领域取得的重要突破,助力新财经战略升级。
大型视觉语言模型(诸如,GPT-4v,LLaVA,Qwen-VL等)在跨模态理解方面取得了显著技术进展,其可基于视觉输入生成与上下文相关的文本描述,极大地推动了图像标注、视觉问答等应用的发展。然而,LVLMs在处理复杂场景时仍面临“幻觉”问题,即生成的文本描述与实际视觉内容不一致。这种幻觉现象源于模型对统计偏差和单模态先验的依赖,导致在医疗、自动驾驶等需要高准确度的领域中产生误导信息,影响模型的可靠性和实用性。

图1 幻觉诱导优化策略(HIO)流程图
为了解决这一问题,该论文进行了深入的理论分析,证明了区分幻觉标记和目标标记可以显著提高对比解码方法在减轻幻觉方面的有效性。基于这一发现,提出了“幻觉诱导优化”(Hallucination-Induced Optimization,HIO)策略(如图1所示),通过引入逆布拉德利-特里模型(Contrary Bradley-Terry Model)和多重目标幻觉放大(AMTH)策略来增大幻觉与目标词之间的对比,从而减少幻觉发生的概率。此外,通过高级诱导约束(ACI),HIO在训练和推理过程中进一步区分幻觉与目标词,以提高模型的准确性和鲁棒性。该技术显著提升了3个多模态大模型(诸如,LLaVA 1.5, InstructBLIP, MiniGPT-4)在多模态推理任务中的表现,并在5个多模态大模型幻觉评测标准数据集上(包括POPE、MME、MSCOCO、A-OKVQA、GQA)均取得了国际领先的水平(如表1所示)。
表1 MSCOCO数据集中,幻觉诱导优化策略(Ours)在不同模型上的实验效果

背景介绍:
NeurIPS(The Conference on Neural Information Processing Systems)是机器学习和人工智能领域的三大会议(NeurIPS、ICLR和ICML)之一,涵盖了深度学习、神经网络、计算神经科学等多个研究方向,具有深远的国际影响力。在中国计算机学会的国际学术会议推荐列表中,NeurIPS被评为A类会议,NeurIPS 2024将于2024年12月9日在加拿大温哥华温哥华会议中心举行。
吕新昱博士毕业于电子科技大学计算机科学与工程学院。主要研究方向为多模态处理,专注于解决计算机视觉、视觉语义理解和多模态大模型中的语义/价值对齐问题。近五年在中科院一区期刊(如IEEE TPAMI、IEEE TCSVT、Pattern Recognition)和CCF A类会议(如CVPR、NeurIPS、ACM MM)上发表了10余篇高水平学术论文。同时,担任多个国际领域会议和顶级期刊审稿人如IEEE TPAMI、IEEE TMM、ACM TOMM、ECCV、AAAI和ACM MM等。
论文官方链接:https://nips.cc/virtual/2024/poster/95118
官方代码链接:https://github.com/BT-C/HIO