陶清华助理研究员做客智网中心国家重点研发计划“新能源电力系统若干关键技术的数学理论与算法”学术活动
2024年5月17日上午,智网中心举办Seminar Series of IEEE RAS TC on Machine Learning for Automation and IFAC TC on Control for Smart Cities暨国家重点研发计划“新能源电力系统若干关键技术的数学理论与算法”学术活动,比利时荷语鲁汶大学电子系助理研究员陶清华受邀作“基于非对称核学习方法的Transformer自注意机制分析与优化”专题报告,清华大学自动化系等单位20余人线上线下聆听,清华大学自动化系贾庆山教授主持讲座。
Transformer中的自注意力矩阵可解释为非对称核矩阵,因此可以借鉴核学习方法对其进行分析与优化。然而,经典的核学习方法通常限定为对称半正定核,且其训练效率受限于训练数据规模,阻碍了其在深度学习模型中的应用。鉴于此,陶清华及其研究团队提出非对称核SVD方法,将SVD推广至非线性特征空间,实现对自注意力机制的原-对偶模型及原-对偶优化问题的推导;同时,构建新型注意力机制PrimalAttention,将二次计算复杂度降为线性计算复杂度,并增强了模型鲁棒性及泛化能力;进一步,推导一组共享对角协方差矩阵的稀疏高斯过程,构建自注意力机制的贝叶斯模型,保留了其非对称特性。
陶清华作报告
讲座的进行过程中,师生们积极交流,提出自己的疑问和见解。陶清华与现场和线上的师生就“非对称核SVD求解方法的数值稳定性与误差分析”和“PrimalAttention自注意力机制的时序性质”等问题展开了深入的交流和探讨。整个讲座会场气氛热烈,充满了学术交流与思想碰撞的火花。