多模态思维链框架
1、背景
大型语言模型(LLMs)通过利用一步一步思考的思维链(CoT)在自然语言处理任务中展现出令人印象深刻的性能。将LLMs扩展为具有多模态能力是最近的研究兴趣,但会产生计算成本并需要大量硬件资源。为了解决这些挑战,我们提出了KAM-CoT,这是一个集成了CoT推理、知识图谱(KGs)和多模态的框架,以全面理解多模态任务。KAM-CoT采用两阶段的训练过程,通过KG基础生成有效的原因和答案。通过在推理过程中结合来自KG的外部知识,模型能够更深入地理解上下文,减少幻觉并提高答案的质量。这种知识增强的CoT推理使模型能够处理需要外部上下文的问题,提供更为明智的答案。实验结果显示,KAM-CoT优于最先进的方法。在ScienceQA数据集上,我们实现了93.87%的平均准确率,超过了GPT-3.5(75.17%)18%和GPT-4(83.99%)10%。值得注意的是,KAM-CoT在同一时间内仅使用了280M可训练参数,显示了其成本效益和有效性。
2、多模态思维链框架解决的问题:
解决的问题主要是增强语言模型(LLMs)的多模态能力,以及如何提高这些模型的推理质量和答案质量。为此,论文提出了一种名为KAM-CoT的方法,即知识增强的多模态链式思维推理方法。该方法结合了语言、视觉和知识图谱等多模态信息,并通过链式思维推理过程来生成合理的答案。同时,论文还探讨了如何有效地融合这些模态,并利用知识图谱来提高模型的推理能力和答案质量。最后,通过在ScienceQA数据集上的实验,证明了该方法的有效性和优越性。
3、解决的方法:
红熊提出了一种基于知识图谱的问答系统方法,主要包括两个部分:子图提取和知识推理。
在子图提取部分,该方法从ConceptNet中为每个样本提取一个子图。
首先,将ConceptNet中的关系分为17种不同的类型,这些关系可以是正向或反向,总共有34种可能的边类型。然后,将这些三元组转换为句子,并存储相应的句子模式。这些模式用于从问题、上下文和答案选项中提取节点。子图由以下三部分组成:(i) V,一个节点集;(ii) E,一个边集;(iii) ϕ,一个函数,它将每条边映射到0到33之间的一个整数,表示边类型。为了获得初始节点嵌入,该方法使用与文本编码相同的预训练检查点来对语言编码器进行训练,并在该节点的所有出现中平均嵌入。
在知识推理部分,该方法使用知识推理来选择正确的答案。给定问题和k个答案选项,任务是选择正确的选项。该方法首先将问题与上下文和答案选项进行比较,以确定它们之间的关系。然后,它使用这些关系来构建一个子图,该子图连接了问题中的所有节点。为了确保子图的有效性,该方法遵循了Yasunaga et al. (2021)中的修剪策略,为每个样本保留了最多的200个节点。最后,该方法使用子图进行训练和推理,以确定正确的答案选项。
4、创新点
提出KAM-CoT模型:论文提出了KAM-CoT(Knowledge Augmented Multimodal Chain of Thought)模型,这是一个知识增强的多模态链式思维推理模型。该模型旨在增强语言模型的推理能力和答案质量。
多模态融合:KAM-CoT模型利用了语言上下文、视觉特征编码器和图神经网络(GNN)等多种模态,以全面理解多模态任务。这些模态通过一系列的融合机制被整合在一起,使机器能够像人类一样进行连贯的思维和推理。
两阶段推理过程:与传统的单一推理过程不同,KAM-CoT将推理过程分为两个阶段。在第一阶段生成合理化的推理,第二阶段将这些推理作为额外输入,提供最终的答案。这种分阶段的推理过程有助于提高答案的准确性和合理性。
知识图谱的利用:该模型利用知识图谱(KG)来增强多模态推理。知识图谱的融入有助于减少语言模型在推理过程中产生的幻觉,提高了答案的准确性。
高效融合机制:该模型还探索了多种可能的模态融合机制,以提高不同模态之间的信息交换效率。这些机制有助于提高模型的性能和效率。
跨大规模模型的扩展性:虽然该论文中的模型在较小的参数规模下取得了显著的性能,但未来的工作可以进一步探索如何将该模型扩展到更大的模型,如LLaMA家族。这种扩展将使模型能够处理更复杂、更广泛的问题。
具体知识密集型领域的整合:未来的工作还可以进一步整合特定知识密集型的领域,以进一步提高模型的性能和实用性。这种整合将使模型更好地适应特定领域的任务和问题。
5、实际应用价值
知识图谱构建和应用:该论文提出的方法可以用于从大量文本数据中提取知识,构建知识图谱。这对于需要大规模知识的应用场景,如智能助手、智能客服等,具有重要的实用价值。
知识问答系统:由于该论文中的方法可以提取实体之间的关系,因此可以用于构建知识问答系统。例如,用户可以提出关于某个主题的问题,系统通过查询知识图谱,找到相关的实体和关系,从而给出准确的答案。
辅助教育:该论文中的方法也可以用于辅助教育领域,例如,帮助学生理解复杂的概念或主题。通过构建相关的知识图谱,可以清晰地展示概念之间的关系,从而帮助学生更好地理解和记忆。
语义搜索:在语义搜索方面,该论文的方法可以用于提高搜索的准确性和相关性。通过分析用户查询的语义,系统可以找到相关的实体和关系,从而提供更符合用户需求的搜索结果。
自然语言处理:该论文的方法也可以用于自然语言处理的其他领域,如情感分析、摘要生成等。通过提取实体之间的关系,可以对文本进行更深入的分析和理解,从而提高处理结果的准确性和可靠性。
(来源论文[2302.00923] Multimodal Chain-of-Thought Reasoning in Language Models (arxiv.org))