科创中国●保定云
首页
需求大厅
成果大厅
科技服务团
专家人才
品牌活动
技术转移
科技普及
科创视野
关于我们
数据中心

一种结合SVM和半监督聚类的不平衡文本分类方法及系统

  • 发布时间: 2024-10-30
预算 双方协商
基本信息
成果方:江苏大学
合作方式:技术转让
成果类型:发明专利,
行业领域
电子信息技术
成果描述

本发明公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,对待处理文本进行预处理,获得向量格式的文本数据作为数据集;使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出。本发明结合了不平衡文本分类的技术领域中不同类型的方法,实现了不同方法的优势互补,使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。

应用范围

文本分类问题是自然语言处理领域中一个经典的问题,其在信息过滤、邮件分类、查询意图预测、文本主题跟踪等领域都有着广泛地应用。传统的文本分类方法主要是针对平衡文本分类问题设计的,在处理规模较小、数据分布均匀且密集的平衡文本分类问题时效果良好。但是仍然存在较多的局限性。特别在现实应用中,由于类别不平衡、有标签文本过少和样本具有高维稀疏等特点,增加了文本分类的复杂性,导致分类准确率下降,限制了文本分类方法在实际中的应用。

目前,解决这些问题主要有以下几类方法和思路:

1)针对文本分类中类别不平衡的问题,提出了改变度量方式、重取样、代价相关学习等解决方法。通常采用ROC曲线、F‑度量等度量方式;上取样、下取样、混合取样的重取样方法;加大小类文本的错分成本的代价相关学习方法。这些方法可以较好的解决低维空间中的类别不平衡问题,但是针对于文本分类问题所特有的高维空间,其学习的代价很高且结果不是很精确。

2)针对文本分类中有标签文本过少的问题,提出了两类半监督算法。一类,在原有的分类模型中增加一部分依赖于无标签文本的项,使得最终的文本分类结果由有标签文本和无标签文本共同决定,解决了有标签文本过少的问题,但是在实现过程中如果分类模型与文本不匹配,算法性能会随着训练而降低。另一类,利用有标签文本训练一个分类器,然后标定未标记文本的类别,得到伪标签文本,最后使用所有的文本训练得出一个新的分类器,重复直到收敛。这一方法也解决了有标签文本过少的问题,但是由于伪标签文本中存在噪声,重复训练会导致噪声积累,降低了文本分类的准确性。

3)针对文本分类中有文本具有高维稀疏特点的问题,提出了特征压缩的方法,其可以分为两类:特征选择与特征抽取。其中,特征抽取是根据某种准则从文本中抽取特征;特征选择是根据某种准则从原始特征中选择部分最有类别区分能力的特征。这两种方法减少了文本数据在训练和分类时间上带来的开销,同时也降低了维数灾难发生的可能性。但是,在压缩时难免会舍去有效的文本信息,造成文本分类不够准确的问题。


前景分析

本发明的有益效果:

本发明所设计的分类方法由SVM分类器和半监督Kmeans算法组合构建而成,实现了两种方法的优势互补。使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。通过改进半监督聚类算法,解决了文本类别不平衡的问题。利用SVM的文本分类结果解决了在半监督聚类中初始化K值和质心难确定的问题。同时,本发明设计了一种分裂算法,可以有效提升文本分类时的准确度。本发明极大地改善了以现有对不平衡文本分类问题中单一的分类器或算法分类效果不佳的情况,最终达到不平衡文本准确分类的目的。


联系方式

  • 联系人:

    姜震

  • 联系电话:

    17303127571

  • 通讯地址:

    江苏省镇江市京口区学府路301号

请填写以下信息

  • *

    联系人:

  • *

    手机号:

  • *

    单位名称:

  •  备注:

  • 取消 确定