清华大学 自动化系 智能与网络化系统研究中心
学术活动
陶清华助理研究员做客智网中心国家重点研发计划“新能源电力系统若干关键技术的数学理论与算法”学术活动

2024年5月17日上午,智网中心举办Seminar Series of IEEE RAS TC on Machine Learning for Automation and IFAC TC on Control for Smart Cities暨国家重点研发计划“新能源电力系统若干关键技术的数学理论与算法”学术活动,比利时荷语鲁汶大学电子系助理研究员陶清华受邀作“基于非对称核学习方法的Transformer自注意机制分析与优化”专题报告,清华大学自动化系等单位20余人线上线下聆听,清华大学自动化系贾庆山教授主持讲座。


        Transformer中的自注意力矩阵可解释为非对称核矩阵,因此可借鉴核学习方法对其进行分析与优化。然而,经典核学习方法通常限定对称半正定核,且训练效率受限于训练数据规模,阻碍了其在深度学习模型中的应用。鉴于此,陶清华及其研究团队提出非对称核SVD方法,将SVD推广至非线性特征空间,实现对自注意力机制的原-对偶模型及原-对偶优化问题的推导同时,构建新型注意力机制PrimalAttention将二次计算复杂度降为线性计算复杂度,并增强了模型鲁棒性及泛化能力进一步,推导一组共享对角协方差矩阵的稀疏高斯过程,构建自注意力机制的贝叶斯模型,保留了其非对称特性。

 

Picture3.png

陶清华作报告

 

        讲座的进行过程中,师生们积极交流,提出自己的疑问和见解。陶清华与现场和线上的师生就“非对称核SVD求解方法的数值稳定性与误差分析”和“PrimalAttention自注意力机制的时序性质”等问题展开了深入的交流和探讨。整个讲座会场气氛热烈,充满了学术交流与思想碰撞的火花。