弱监督多标记学习研究 张敏灵教授项目组开展了面向噪声标记的多标记分类学习的研究。 弱监督多标记学习处理的是弱监督领域的一个特殊的学习框架,在这个框架下每个训练数据都对应着多个候选标记,但是其中只有部分是真实的。现实生活中很多场景都有学习弱监督多标记数据需求,因为强监督的数据很难直接收集,举例说明,网络图片众包标记(如图一),在众包标记器给出的标记集合中,由于潜在不可相信的标记器,只有部分标记是可信的,弱监督多标记学习的任务是从弱监督多标记数据中学得一个多标记分类器,来给未见示例预测正确的标记集合。 图1:弱监督多标记学习的一个场景。在众包图片标记中,由标记器给出的候选标记有7个,其中只有4个是真实标记:house,tree,lavender和France。 为了应对弱监督多标记数据的真实标记隐藏于候选标记集合这一难点,我们提出了一种算法:PARTICLE(PARTIal multi-label learning via Credible Label Elicitation),PARTICLE算法的基本思想就是通过筛选候选标记集合中的真实标记来降低伪标记的负面影响,筛选出来的真实标记会作为置信信息,用于后续模型的训练。简单来说,第一阶段,通过标记传播技术筛选出高置信度的候选标记,第二阶段,利用第一阶段筛选出的置信信息,通过虚拟标记分割或者最大化后验概率的标记配对排序方法,建立多标记分类器。 该项工作发表于机器学习领域国际顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence 》,论文题目为”Partial multi-label learning via Credible Label Elicitation”。论文第一作者为张敏灵教授,第二作者为其硕士生方军鹏。 该项研究工作得到国家重点研发计划、国家自然科学基金委、计算机网络和信息集成教育部重点实验室(东南大学)等的支持。
|