- 郝玉泽;周斌;胡波;
智慧课堂环境下,教学视频的主题分割对于提升教学分析和内容组织效率具有重要意义.然而,现有主题分割方法在智慧课堂场景中面临自动语音识别(ASR)转录错误率高、课堂内容不连贯等挑战,导致分割效果不佳.针对上述挑战,提出了一种多模态智慧课堂主题分割模型.该模型首先使用ASR获取语音转录文本,同时设计了一种全新的动态OCR识别与相似度检测去重算法从视频帧中提取文本信息,有效减少冗余帧处理;随后将ASR文本和OCR文本分别送入文本编码器进行编码,采用多模态注意力机制融合两种模态特征;最后通过BiLSTM和MLP网络进行主题边界的预测.实验结果表明:文中提出的解决方法在智慧课堂领域内的准确性和扩展性优于基线方法,同时,提出的动态OCR识别与相似度检测去重算法减少了模型的处理时间,可以满足现实应用的要求.
2026年02期 v.45;No.171 180-190页 [查看摘要][在线阅读][下载 1147K] [下载次数:103 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ] - 王世杰;李艳红;徐昊翔;张法;
下个兴趣点(POI)推荐在社交网络服务中扮演了相当重要的角色,它的任务是基于用户的历史访问足迹,预测用户在下个时刻最可能访问的POI.现有方法普遍使用预定义图的方式为POI构建关系图,仅有少量的工作对自适应图方法进行研究,而自适应图表示学习能学习到更具潜在意义的图结构,使得图神经网络(GNN)后续的传播过程能够学习到更有意义的邻接关系,从而得到更有价值的POI嵌入,使得下游的序列建模任务能够更好捕获到POI之间的潜在关系.然而现有工作对自适应图的研究仍处于较为初步的阶段.为下个POI推荐任务提出了去相关图表示增强的注意力网络(DGRAN).此外,还探讨了自注意力机制与自适应图学习之间的关系,为该领域的自注意力方法加入额外残差连接以加大梯度,保证自适应图结构高质量更新.在两个真实数据集上的结果证明所提出的方法超越了现有最先进基线的性能.
2026年02期 v.45;No.171 191-201页 [查看摘要][在线阅读][下载 1712K] [下载次数:25 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:4 ] - 熊承义;曹雨轩;高志荣;
现有基于Transformer的MRI超分辨率方法虽具有良好的全局建模能力,但忽略了深度先验约束建模的重要性.为此,提出了一种基于扩散先验的脑部MRI超分辨率方法,利用潜在扩散模型生成的先验来引导Transformer进行超分辨率重建,以提升MRI细节重建能力.具体而言,采用两阶段协同训练策略:第一阶段通过真实图像潜编码构建内容先验;第二阶段引入扩散模型重构先验,并联合优化去噪与重建过程,实现无监督条件下的图像超分辨率.此外,采用深度可分离卷积与置换自注意力机制,实现编码器的高效建模与感受野扩展.在IXI多模态MRI数据集上的4倍超分辨率实验表明:所提出方法在提升重建图像主客观质量与重建效率方面优于已有方法 .
2026年02期 v.45;No.171 202-211页 [查看摘要][在线阅读][下载 1404K] [下载次数:104 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ] - 刘蓉;刘汝璇;李广昶;柴新宇;谭桂梅;唐奇伶;
阿尔茨海默病(Alzheimer's Disease, AD)作为一种致命的神经退行性疾病,其早期诊断与病理区域的精确预测对于延缓病情进展和改善患者预后具有极其重要的意义,尽管过去的研究已经在自动化诊断技术上取得了进展,现有方法在疾病的诊断准确率已经有着不错的水准,但其模型的可解释性仍是困扰临床研究的最大问题.针对这一背景,提出了一种结合三维位置编码与多模态的阿尔茨海默病诊断模型,该模型将三维位置编码、Transformer自注意力机制和全卷积网络(FCN)有机结合,能够从三维医学影像数据中自动提取有效特征,生成代表整个大脑的高分辨率疾病概率图,并通过多模态注意力机制将此概率图与客观临床信息有机融合,实现对AD的精准预测诊断的同时,为模型决策过程提供更多的可解释层面.
2026年02期 v.45;No.171 212-220页 [查看摘要][在线阅读][下载 1155K] [下载次数:139 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:5 ] - 潘禹欣;李波;田淙文;姚为;
利用机器视觉技术进行城市地下管道缺陷分割是工业化智能化发展趋势.由于常规的监督方法进行缺陷分割任务时需要大量的标注,提出了一种基于ST半监督模型改进的CT-ST半监督语义分割模型,并首次应用到城市地下管道缺陷分割领域.该模型基于半监督语义分割领域自训练方法,结合Co-teaching算法思想,区分不同质量伪标签,利用一次伪标签筛选策略代替传统设置阈值迭代方法,降低因低质量标签带来的错误特征训练影响;针对地下管道背景复杂、缺陷类别多、多尺度、多噪声等问题,在每个残差块引入NAM注意力机制,给每个重要特征增加权重,弱化不重要特征的占比.实验验证了CT-ST半监督分割模型的有效性,在不同比例有标签样本集上mIoU均有提升,其中1/2比例有标签数据集mIoU为67.36%,对比原模型增加了2.33%.与多种主流的伪标签、一致性正则化方法相对比,所提出的模型在精度上均有较好的表现.
2026年02期 v.45;No.171 221-230页 [查看摘要][在线阅读][下载 1250K] [下载次数:65 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:4 ]