学院研究团队在大数据挖掘研究中取得突破性进展-大连理工大学创新创业学院（新）

近期，国际数据挖掘领域旗舰期刊IEEE Transactions on Knowledge and Data Engineering（TKDE）连续收录了3篇我校创新创业学院/计算机辅助设计国家地方联合工程实验室金博教授团队学术论文，3篇论文在基于时间序列的预测与分析领域取得突破性进展，论文通讯作者为金博教授。TKDE是中国计算机学会推荐的A类期刊，主要刊登计算机科学、人工智能、电子工程、计算机工程等领域在知识与数据工程方向的学术论文。

论文一：Diagnostic Sparse Connectivity Networks with Regularization Template (使用正则化模板来提取稀疏连通网络)

该篇论文主要研究的是提取动态系统（序列数据）的特征间相关性，并形成稀疏连通网络。该篇论文创新性的提出了一种共享自适应正则项（shared adaptive regularization，SAR）以及其对应的学习框架来提取动态系统的稀疏连通网络。与传统的LASSO方法不同，SAR在其基础上可以同时考虑到所有的动态系统的共同性质，并将其映射到一个共享的稀疏正则模板中。该模板可以很好的还原出数据本身的连通性，让每个动态系统更好的获取自己的连通网络；也会让训练并行的进行，大幅度提高计算速度。同时SAR又引入了一种半监督的链接约束技术，可以让生成的连通网络解释性更强。该算法在模拟数据取得了相当好的效果。该研究将该算法提取出的稀疏连通网络作为数据的特征进行后续的分类任务，在真实世界的数据集上有着很高的准确率以及较高的计算效率。在帕金森病的诊断任务中，该论文可以达到94%的准确率，并在模拟诊疗的过程中，表现出了良好的实用性。该研究提取出的稀疏连通网络以及共享模板有着良好的解释性，为数据特征间的内在关系分析（例如探索正常人与患病人的区别）提供了一个新的解决方案。

论文二：Prediction of Treatment Medicines with Dual Adaptive Sequential Networks（基于双自适应序列学习网络的治疗用药预测方法）

本研究是基于临床医疗电子病历数据提出的辅助用药决策算法。预测治疗药物是许多智能医疗系统的关键任务。预测治疗药物可以帮助医生为患者做出更佳的处方决策。但为了充分挖掘电子病历数据的隐含价值信息，需要考虑数据本身的复杂性如：（1）多源异质性；（2）时间序列的复杂相关性（3）序列相互关联性的动态特性。为了解决数据本身上述特性所带来的挑战，本文提出了双自适应序列学习网络模型用以提前预测下一阶段的治疗用药。该模型主要由三部分组成。首先，使用分解的自适应长短项记忆网络捕捉多个异质序列内部以及序列间的关联性；然后，采用一种基于注意力的元学习网络为分解的自适应长短项记忆网络提供学习到的动态权重参数，以通过该网络可为其产生多种相互关联性。最后，引入基于注意力的融合网络来融合历史信息并将异质数据的表示嵌入融合到一起，以预测治疗用药。与现有的方法相比，本文所提出的端到端预测模型可以达到相对较好的预测性能，同时可为临床治疗用药提供用药决策支持。

论文三：CFFNN: Cross Feature Fusion Neural Network for Collaborative Filtering（协同过滤的交错特征融合网络）

该篇论文提出了一种用于融合用户特征和项目特征的基于协同过滤的交叉特征融合神经网络框架(CFFNN)。在这个框架中，该论文首先设计了一个包含多个MLP（多层感知机）模块的特征提取层，以恰当的方式来提取用户和项目特征。然后，利用交叉特征融合网络将用户特征和项目特征进行融合，并构建了一个自注意力网络来确定用户对项目的偏好。最后，将融合后得到的特征栈输入到预测网络中生成推荐。据我们所知，这是首次研究用户特征和项目特征融合的工作，为基于神经网络的协同过滤的未来发展开辟了新的研究可能性。在未来，团队希望将模型扩展到基于内容的推荐场景。在这种场景中，可以考虑不同类型的用户和项目特征之间的联系，而不仅仅是嵌入层上提取到的信息。

以上工作得到了科技部重点研发计划项目、国家自然科学基金面上项目等的大力支持。

上一条：缅怀英烈学党史，学院党委组织党员师生瞻仰关向应纪念馆下一条：大连理工大学创新论坛第一期成功举办

网站首页

学院概况

创新教育

创业教育

教学成果

教学资源

国际交流

人才招聘

政策指南

文件下载

学院研究团队在大数据挖掘研究中取得突破性进展