清华大学自动化系智能与网络化系统研究中心

学术活动

陶清华助理研究员做客智网中心国家重点研发计划“新能源电力系统若干关键技术的数学理论与算法”学术活动

2024年5月17日上午，智网中心举办Seminar Series of IEEE RAS TC on Machine Learning for Automation and IFAC TC on Control for Smart Cities暨国家重点研发计划“新能源电力系统若干关键技术的数学理论与算法”学术活动，比利时荷语鲁汶大学电子系助理研究员陶清华受邀作“基于非对称核学习方法的Transformer自注意机制分析与优化”专题报告，清华大学自动化系等单位20余人线上线下聆听，清华大学自动化系贾庆山教授主持讲座。

Transformer中的自注意力矩阵可解释为非对称核矩阵，因此可以借鉴核学习方法对其进行分析与优化。然而，经典的核学习方法通常限定为对称半正定核，且其训练效率受限于训练数据规模，阻碍了其在深度学习模型中的应用。鉴于此，陶清华及其研究团队提出非对称核SVD方法，将SVD推广至非线性特征空间，实现对自注意力机制的原-对偶模型及原-对偶优化问题的推导；同时，构建新型注意力机制PrimalAttention，将二次计算复杂度降为线性计算复杂度，并增强了模型鲁棒性及泛化能力；进一步，推导一组共享对角协方差矩阵的稀疏高斯过程，构建自注意力机制的贝叶斯模型，保留了其非对称特性。

陶清华作报告

讲座的进行过程中，师生们积极交流，提出自己的疑问和见解。陶清华与现场和线上的师生就“非对称核SVD求解方法的数值稳定性与误差分析”和“PrimalAttention自注意力机制的时序性质”等问题展开了深入的交流和探讨。整个讲座会场气氛热烈，充满了学术交流与思想碰撞的火花。