基本信息
办公电话:010-51688243 |
电子邮件: haoshuang@bjtu.edu.cn |
通讯地址:九教北512 |
邮编:100044 |
教育背景
2013.9-2018.7 清华大学 工学博士
工作经历
2022.1—至今 北京交通大学 副教授,博士生导师
2020.1—2021.1 Georgia Institute of Technology 国家公派访问学者
研究方向
- 数据与知识工程
- 计算机技术
- 软件工程
- 人工智能
- 大数据技术与工程
- 机器学习与认知计算
- 新一代电子信息技术
课题介绍
课题组围绕数据管理、新型数据库技术等方向开展研究,目前主要的研究兴趣包括:
(1)大数据治理:人工智能技术已经从“以算法为中心”更迭为“以数据为中心(Data-Centric AI)”,即通过数据质量管理提升人工智能模型的表现。国家发布的《AI新基建发展白皮书》中也指出人工智能算法的演进升级需要高质量数据作为支撑。因此课题组的方向之一是数据治理技术与系统,即深入研究人工智能走向真实产业应用的关键因素,突破数据质量低、数据准备成本高瓶颈问题,主要研究内容包括数据发现(Data Discovery)、数据清洗与技术(Data Cleaning&Integration)、数据标注(Data Labeling)、模型容错训练(Model Robust Learning)等,涵盖结构化数据、非结构化数据、多模态数据。
(2)新型数据库技术:数据库管理系统是数字化时代的核心基础设施,被称为信息技术系统皇冠上的明珠。目前国家数据库人才缺失,数据库国产化任重而道远。课题组紧跟数据库领域发展趋势,以期在人工智能赋能的数据库技术(AI4DB)、向量数据库(Vector DB)、密态数据库(Encrypted DB)等方向进行理论突破和技术落地。
(3)大模型应用:大语言模型(LLM,简称大模型)是目前自然语言处理领域内最热门的一个概念。所谓大模型,其实是通过训练,从大量标记和未标记的数据中捕获知识,并将知识存储到大量的参数中,以实现对各种任务进行高效处理的技术架构。如今,大模型已经在多个领域都有广泛应用,成为赋能企业效率提升的关键驱动力。而本课题主要研究大语言模型在大数据治理和数据库相关方向上的应用。
对上述方向感兴趣的学生可邮件与我联系(攻读研究生、本科实习均可)!关于课题组的更多介绍请参阅课题组宣传海报。
招生专业
- 计算机科学与技术硕士
- 计算机技术硕士
- 软件工程硕士
- 人工智能硕士
- 大数据技术与工程硕士
- 新一代电子信息技术(含量子技术等)硕士
- 计算机科学与技术博士
研究生培养
计划每年招收研究生3名(包含专业硕士),要求学生具有良好的编程和英语功底,以及一定的进取心。
研究生前两年以完成毕业任务为主,即完成课时要求、进行学术研究,以期在国内外顶级会议和期刊上发表高水平论文(课程组为国际国内学术会议参会和期刊版面费提供经费支持)。两年后,对于研究水平优异、计划在学术届继续深造的学生(本科生攻读硕士或博士等也可联系),课题组提供转博机会,也可帮助推荐到清华大学、中国人民大学、北京理工大学等相关团队;对于计划投身工业届的学生,在基本完成毕业要求的前提下可申请外出实习,确定工作后完成毕业论文写作。
教学工作
本科生课程:“数据库系统原理”
研究生课程:“分布式数据库系统”(课程负责人)、“数据科学前沿理论与技术”
本研跨学科课程群:“大数据技术”
论文/期刊
代表性会议论文:
-
Xiang Huang, Shuang Hao*. Missing Value Imputation via Pre-trained Language Models with Trainable Prompt and Retrieval Augmentation. VLDB 2024. (CCF-A,第一作者为本人指导的研究生)(NEW!)
-
Xuerui Hong, Shuang Hao*. Imputation of Missing Values in Training Data using Variational Autoencoder. ICDE 2023. (CCF-A,第一作者为本人指导的研究生)
-
Shuang Hao, Peng Li, Renzhi Wu, Xu Chu. A Model-Agnostic Approach for Learning with Noisy Labels of Arbitrary Distributions. ICDE 2022. (CCF-A)
-
Jianling Gao, Nan Zhao, Ning Wang, Shuang Hao. SmartIndex: An Index Advisor with Learned Cost Estimator. CIKM 2022. (CCF-B)
-
Shuang Hao, Chengliang Chai, Guoliang Li, Nan Tang, Ning Wang, Xiang Yu. Outdated Fact Detection in Knowledge Bases. ICDE 2020. (CCF-A)
-
Hao Wu, Shuang Hao*. A Deep Neural Network Model of Particle Thermal Radiation in Packed Bed. AAAI 2020. (CCF-A)
-
Yihai Xi, Ning Wang, Shuang Hao, Wenyang Yang, Li Li. PocketView: A Concise and Informative Data Summarizer. ICDE 2020 (CCF-A)
-
Shuang Hao, Nan Tang, Guoliang Li, Jianhua Feng. Discovering Mis-Categorized Entities. ICDE 2018. (CCF-A, Best Paper Candidate)
-
Shuang Hao, Yi Xu, Nan Tang, Guoliang Li, Jianhua Feng. Cleaning Your Wrong Google Scholar Entries. ICDE 2018. (CCF-A)
-
Shuang Hao, Nan Tang, Guoliang Li, Jian Li. Cleaning Relations using Knowledge Bases. ICDE 2017. (CCF-A)
-
Shuang Hao, Nan Tang, Guoliang Li, Jianhua Feng. A Novel Cost-Based Model for Data Repairing (Extended Abstract). ICDE 2017. (CCF-A)
-
Dong Deng, Guoliang Li, Shuang Hao, Jiannan Wang, Jianhua Feng. Massjoin: A MapReduce-based Method for Scalable String Similarity Joins. ICDE 2014. (CCF-A)
代表性期刊论文:
-
Shuang Hao, Chengliang Chai, Guoliang Li, Nan Tang, Ning Wang, Xiang Yu. HOFD: An Outdated Fact Detector for Knowledge Bases. TKDE 2023. (CCF-A)
-
Yihai Xi, Ning Wang, Shuang Hao, Yiyi Zhang, Xinyu Chen. Popularity Sensitive and Domain-aware Summarization for Web Tables. Information Sciences 2023. (SCI, An1)
-
Jianling Gao, Nan Zhao, Ning Wang, Shuang Hao, Haoyan Wu. Automatic Index Selection with Learned Cost Estimator. Information Sciences 2022. (SCI, An1)
-
Shuang Hao, Nan Tang, Guoliang Li, Jianhua Feng, Ning Wang. Mis-categorized Entities Detection. The VLDB Journal 2021. (CCF-A,数据管理领域顶级期刊,每年仅录取~40篇文章)
-
Shuang Hao, Nan Tang, Guoliang Li, Jian Li, Jianhua Feng. Distilling Relations using Knowledge Bases. The VLDB Journal 2018. (CCF-A,数据管理领域顶级期刊,每年仅录取~40篇文章)
-
Shuang Hao, Nan Tang, Guoliang Li, Jianhua Feng. A Novel Cost-Based Model for Data Repairing. TKDE 2017. (CCF-A)
-
Na Ta, Guoliang Li, Yongqing Xie, Shuang Hao, Jianhua Feng. Signature-based Trajectory Similarity Join. TKDE 2017. (CCF-A)
科研项目
-
国家自然科学基金面上项目,2024-2027,项目负责人
-
2024年CCF-华为胡杨林基金数据库专项,2024-2025,项目负责人(NEW!)
-
国家自然科学基金青年基金,2020-2022,项目负责人
-
国家重点研发计划-任务,2018-2021,项目参与人
-
国家自然科学基金面上项目,2020-2023,项目参与人
-
自然科学类人才基金项目,2019-2023,项目负责人
社会兼职
CCF数据库专委会执行委员
国际顶级会议VLDB, ICDE, KDD, AAAI, IJCAI等程序委员会委员
国际顶级期刊The VLDB Journal, TKDE, Information Science等审稿人