研发单位

北京大学信息科学技术学院计算语言学研究所

北京大学课题组在语言知识工程建设和自然语言文本挖掘领域具有多年的研究经验。

在语言知识库构建方面,课题组成员作为主要完成人构建了“综合型语言知识库”(CLKB),其系列化语言知识涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域,为中文文本内容理解奠定了资源基础。CLKB获得了2011年度国家科学技术进步二等奖和2010年度中国电子学会电子信息科学技术奖一等奖。在CLKB的基础上,我们从语法信息拓展到语义信息,借鉴论元结构理论、事件语义学、生成词库论、构式语法理论,突破语义角色标注等浅层语义分析的瓶颈,制订中文深度理解的描述规范。从计算机深度计算和语言工程的角度,对文本蕴含的语义信息进行分层次细粒度的深入挖掘。构建了多层次细粒度的大规模中文语义知识库,为文本内容深度理解奠定了资源基础。

在百科知识库构建方面,课题组与中国大百科全书出版社合作进行“开放的知识元数据库及基础平台建设”项目。利用自然语言处理及文本挖掘技术分析挖掘百科全书资源,将百科全书转换为计算机可操作、可利用的结构化百科知识库。在此基础上实现智能化、人性化的百科知识服务。该项目建立了基于NLP的领域知识内容加工平台,开发了现代医学心血管疾病领域的知识元数据库,并建立了疾病知识咨询应用示范系统。在结构化知识描述体系、智能化的建库流程以及人性化知识服务方面摸索了一套行得通的经验。

在自然语言文本分析与挖掘技术方面,先后在中文词法、句法和句义分析以及篇章分析方面取得了一系列重要进展。在中文词法分析层面,于2014年提出的基于张量神经网络的中文分词模型,是目前国际国内引用最多的深度分词模型研究之一。在中文依存句法分析方面,于2016年提出的基于LSTM的深度依存分析模型,采用双向长短记忆网络模型进行特征自动提取,大幅简化了特征工程,并取得依存分析精度的显著进展。在中文语义角色标记方面,先后提出基于语义组块的汉语语义角色标记方法,基于深度学习模型,有效融合异语、异质语义标注资源,取得了国际上领先的中文语义角色标注效果。在篇章分析方面,在国际学界最早提出基于依存框架的篇章结构表示,构建了第一个篇章依存精加工语料库,可以涵盖语言的非投射现象。结合心理认知学模拟人类重复阅读行为,提出多阶段多任务神经网络模型解析篇章结构,提高了篇章分析的性能。基于这些研究,有多项研究成果发表在计算语言学领域国际顶级会议ACL、EMNLP、COLING、IJCAI、AAAI和NAACL上,获得ACL 2017 Outstanding Paper Award、CCL and NLP-NABD 2015 Best Paper Award、NLPCC 2016 Best Student Paper、NLPCC 2017 Best Student Paper等多项论文奖项。

课题组在理论、技术和资源建设上的研究经验和成果,为中文医学知识图谱的构建与应用落地提供了良好的基础。

参与人员



教师
  • 穗志方
  • 常宝宝
  • 李素建

学生
  • 奥德玛
  • 杨云飞
  • 代达劢

郑州大学信息工程学院自然语言处理实验室

郑州大学课题组在语言资源建设以及自然语言处理的相关应用领域有多年的研发经验。

在语言资源建设方面,课题组构建了一系列语言资源,包括三位一体的现代汉语虚词用法知识库CFKB,含33万词条的大规模词汇知识库CLSKB,面向网络文本处理的网络用语词典,服务于隐喻计算的动词语义选择限制知识库,面向深层语义理解的逻辑补足义算子词典及语料库,面向机器翻译的汉英双语短语结构句法树库等。所构建的知识库涵盖了从虚词到实词,从正式文体到网络用语,从浅层语义理解到深层语义理解的多维度多层次的语言资源,同时课题组在大规模语言资源建设、知识工程方面积累了丰富的构建经验。

在自然语言处理相关应用领域,课题组将CFKB中的虚词用法及汉英双语短语结构句法树库引入到汉语句法分析及汉英机器翻译中,提高了相应的系统性能;以CFKB和CLSKB为基础的语法偏误自动识别、辅助纠错和相关辅助教学系统,促进对外汉语教学的发展;以CFKB、CLSKB、汉语逻辑补足义知识库及网络用语词典为语言资源,对信息技术、汽车评论、商业情报、信息安全等领域进行了舆情监测研究;同时,对军事、法律及医学等领域文本的实体识别及关系抽取进行了研究及应用。相关应用的开展,使课题组具备了过硬的自然语言处理技术开发实力。

课题组在语言资源建设及相关领域的研究和应用,为中文医学知识图谱的构建奠定了知识工程及技术基础。

参与人员



教师
  • 昝红英
  • 张坤丽
  • 牛承志
  • 赵悦淑

学生
  • 关同峰
  • 窦华溢
  • 赵 旭
  • 蔡林坤
  • 刘 涛
  • 悦东辉
  • 任晓辉
  • 陈俊富
  • 韩杨超
  • 于 硕
  • 刘 欢
  • 闫英杰
  • 刘雅蕾

鹏城实验室人工智能研究中心智慧医疗课题组

鹏城实验室,又称深圳网络空间科学与技术省实验室,于 2017 年 12 月 22 日授牌,2018 年 3 月 31 日正式启动。目前设有网络通信、人工智能和网络安全三个研究方向,网络通信、人工智能、网络安全、机器人、量子计算五个研究中心。鹏城实验室以服务于国家和区域发展战略为己任,聚合国内优质创新资源,建设相关重大科学基础设施,开展跨学科、大协同的创新攻关,突破网络信息领域重大核心基础理论问题,保障国家网络空间安全。

鹏城实验室人工智能研究中心智慧医疗课题致力于为国家搭建医疗AI基础设施(开放式医疗人工智能标准数据库与技术输出平台),整合多方资源支撑内外部医疗AI研究,集中研发一部分高精尖技术并实施落地应用,主导医疗AI的行业标准和指南,推动中国医疗的进步。