Project Description
姓名:朱军
职称:副研究员
电话:62772322
教育背景
工学学术(计算机),清华大学,中国,2005;
工学博士(计算机),清华大学,中国,2009.
社会兼职
ICML 2014地区联合主席
NIPS 2013领域主席
计算机学会模式识别与人工智能专委会委员
研究领域
机器学习、数据挖掘、非参数化贝叶斯方法、最大间隔学习
研究概况
本课题组的研究工作围绕机器学习基础理论和应用展开,注重理论与实际的有效结合。
基础理论方面,针对复杂数据隐含结构信息的学习与利用中的共性难题,系统深入地研究了结构学习及基于结构的统计学习中若干关键基础性问题。主要成果及创新点包括:(1)建立了结构化最大熵判别式学习的PAC-Bayes理论与方法,融合结构化最大间隔学习和贝叶斯推理的优点,为结构化学习提供新的思路和理论依据;(2)跳出经典贝叶斯推理“非先验即似然”的框架,建立了正则化贝叶斯推理及正则化非参数贝叶斯推理理论,为贝叶斯推理提供了第三维自由度,可以直观方便地引用领域知识或者模型属性等,为处理复杂数据提供了新的计算理论与方法;(3)建立了参数化和非参数化贝叶斯模型的最大间隔学习理论与高效计算方法,将近二十年来相互分离的两大主流研究方向系统地集成在一起;一方面,通过集成判别式的最大间隔学习准则,可以显著提高贝叶斯模型的预测性能;另一方面,通过引入非参数贝叶斯方法,可以自动确定最大间隔模型的复杂度;为在大数据环境下构建灵活有效的统计模型提供了新的思路和理论保证。
上述成果已连续7年在机器学习顶级国际会议ICML上发表论文;在NIPS上连续3年发表论文;在顶级期刊Journal of Machine Learning Research (JMLR)发表论文多篇,受到国际同行的广泛关注与好评。多次受邀在世界著名高校(如斯坦福大学、卡内基梅隆大学、哥伦比亚大学、南加州大学等)做学术报告;受邀担任机器学习顶级会议NIPS 2013的领域主席、ICML 2014的地区联合主席、人工智能大会IJCAI 2013的资深程序委员等。该理论研究入选“清华大学221基础研究人才支持计划”项目。
基础应用方面,针对互联网数据抽取、社交网络结构预测、多模态数据融合、网络推荐等多个经典应用场景,将基础理论与实际问题结合,提出有效的计算模型和方法,主要成果包括:(1)将正则化贝叶斯推理的理论成果用于解决大规模文本分类、社交网络链接分析、矩阵低秩分解、多模态数据融合等重要问题,提出有效统计模型和高效推理算法。相关算法已免费提供给学术界同行使用,已公布的算法软件被麻省理工学院、德克萨斯大学奥斯汀分校等科研单位的同行们转成其他语言如R、Python、Matlab等,并被移植到多种操作系统平台,如Mac与Linux等;(2)将结构化最大熵判别式学习的理论成果用于解决网络环境下信息抽取、实体关系抽取、多模态数据融合与检索等重要问题,建立了基于结构的网络数据抽取框架及包括StatSnowball在内的若干统计模型,获3项美国专利,研究成果已应用到微软的多个搜索引擎,包括人立方关系搜索引擎和学术搜索引擎等。应用研究成果已连续5年在数据挖掘顶级国际会议SIGKDD上发表长文和在WWW上发表长文3篇,受到国际同行的广泛关注和引用。
奖励与荣誉
国家优秀青年科学基金获得者(2013);
IEEE Intelligent Systems杂志评选的“AI’s 10 to Watch”(2013);
清华大学221基础研究计划入选者(2012);
中国计算机学会优秀博士论文奖获得者(2009)。
学术成果
[1]. Jun Zhu, Ning Chen, Hugh Perkins, Bo Zhang. Gibbs Max-margin Topic Models with Fast Sampling Algorithms. To appear in Proc. of International Conference on Machine Learning (ICML), Atlanta, USA, 2013;
[2]. Jun Zhu, Amr Ahmed, Eric Xing. MedLDA: Maximum Margin Supervised Topic Models. Journal of Machine Learning Research (JMLR), 13(Aug): 2237-2278, 2012;
[3]. Jun Zhu, Ning Chen, Eric Xing. Infinite Latent SVM for Classification and Multi-task Learning. In Proc. of Advances in Neural Information Processing Systems (NIPS), Granada, Spain, 2011;
[4]. Jun Zhu, Ning Chen, Eric Xing. Infinite SVM: Dirichlet Process Mixtures of Large-margin Kernel Machines. In Proc. of International Conference on Machine Learning (ICML), pp.617-624, Bellevue, USA, 2011;
[5]. Jun Zhu, Eric Xing. Conditional Topic Random Fields. In Proc. of International Conference on Machine Learning (ICML), pp.1239-1246, Haifa, Israel, 2010;
[6]. Jun Zhu, Eric Xing. Maximum Entropy Discriminantion Markov Networks. Journal of Machine Learning Research (JMLR), 10(Nov): 2531-2569, 2009;
[7]. Jun Zhu, Amr Ahmed, Eric Xing. MedLDA: Maximum Margin Supervised Topic Models for Classification and Regression. In Proc. of International Conference on Machine Learning (ICML), pp.1257-1264, Montreal, Canada, 2009;
[8] Jun Zhu, Zaiqing Nie, Xiaojiang Liu, Bo Zhang, and Ji-Rong Wen. StatSnowball: a Statistical Approach to Extracting Entity Relationships, In Proc. of 18th International Word Wide Web Conference (WWW), Madrid, Spain, 2009.
[9]. Jun Zhu, Eric Xing, Bo Zhang. Partially Observed Maximum Entropy Discrimination Markov Networks. In Proc. of Advances in Neural Information Processing Systems (NIPS), Vancouver, Canada, 2008.
[10]. Jun Zhu, Zaiqing Nie, Bo Zhang, Ji-Rong Wen, Dynamic Hierarchical Markov Random Fields for Integrated Web Data Extraction. Journal of Machine Learning Research (JMLR), 9(Jul): 1583-1614, 2008;
[11]. Jun Zhu, Eric Xing, Bo Zhang. Laplace Maximum Margin Markov Networks. In Proc. of International Conference on Machine Learning (ICML), pp.1256-1263, Helsinki, Finland, 2008
[12]. Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, and Wei-Ying Ma. Simultaneous Record Detection and Attribute Labeling in Web Data Extraction, In Proc. of the 12nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD), Philadelphia, PA, USA, 2006.
[13]. Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, and Wei-Ying Ma. 2D Conditional Random Fields for Web Information Extraction, In Proc. of the 22nd International Conference on Machine Learning (ICML), Bonn, Germany, 2005.