科创中国●保定云
首页
需求大厅
成果大厅
科技服务团
专家人才
品牌活动
技术转移
科技普及
科创视野
关于我们
数据中心

一种跨层多模型特征融合与基于卷积解码的图像描述方法

  • 发布时间: 2025-01-09
预算 3.00万
基本信息
成果方:江西理工大学
合作方式:技术转让
成果类型:发明专利,
行业领域
电子信息技术
成果描述

本发明提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,涉及计算机视觉和自然语言处理领域。该跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:S1.得到嵌入向量序列和最终文本特征;S2.计算得到视觉与文本融合匹配的注意力向量;S3.将注意力向量和文本特征向量和进行相加融合;S4.生成一个完整的描述句子。通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,该模型能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,对图像内容的描述更准确、信息表达更丰富,值得大力推广。

应用范围

一种跨层多模型特征融合与基于卷积解码的图像描述方法的应用前景非常广阔。这种方法可以应用于图像识别、图像分类、目标检测、图像分割等计算机视觉领域的多个任务。

例如,在图像分类任务中,这种方法可以用于对图像进行分类,例如识别图像中的物体类别或场景类别。在目标检测任务中,这种方法可以用于检测图像中的目标,并确定其位置和边界框。在图像分割任务中,这种方法可以用于将图像分割成多个部分,并确定每个部分的类别。

此外,这种方法还可以应用于其他领域,例如智能安防、智能交通、智能家居等。总之,这种跨层多模型特征融合与基于卷积解码的图像描述方法具有广泛的应用前景,有望为计算机视觉领域的多个任务提供更准确、更高效的解决方案。


前景分析

本发明通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,在充分描述和表征图像语义方面起到了补充作用,使用因果卷积并行处理文本信息,实现对长序列单词的有效学习,提升了模型对包含复杂场景信息的图像描述能力,通过一种融合文本信息和视觉信息的注意力模型,针对每个由language‑cnn产生的文本特征向量和每个visio‑cnn产生的视觉特征向量匹配计算得一个具有强相关性的向量矩阵,从而学习文本信息与图像不同区域之间的相关性,并且该模型还可以通过因果卷积层看到先前单词的参与特征,对图像中的单一物体更为敏感,实现了模型的准确描述。

联系方式

  • 联系人:

    罗会兰

  • 联系电话:

    18633276657

  • 通讯地址:

    江西省赣州市客家大道156号

请填写以下信息

  • *

    联系人:

  • *

    手机号:

  • *

    单位名称:

  •  备注:

  • 取消 确定