语言,信息和计算-布朗袋谈话-语言学-火狐体育克莱州立大学
Dusky photo of campus belltower with trees in the foreground.
新闻及活动

语言,信息和计算-棕色袋谈话

发表于:CHSS新闻,语言学新闻

Photo of Heng Ji

时间:周四,3月7日下午1点地点:UN1145无需回复

通用信息提取恒基,伦斯勒理工学院

摘要:近年来的大数据热潮涵盖了广泛的异构数据类型,从文本到图像、视频、语音和多媒体。这些“大数据”中大部分有价值的信息是用自然语言编码的,这使得一些人可以访问它——例如,那些可以阅读特定语言的人——但除了简单的关键字搜索之外,计算机处理的能力就差得多了。大规模的信息提取(IE)和信息检索(IR)有着共同的目标,即通过提取和呈现嵌入在大数据中的重要和相关信息,创造下一代信息访问,使人类可以用任何自然语言与计算机交流,而不仅仅是关键字搜索。IE的目标是从广泛的异构非结构化数据类型中提取结构化事实。传统的IE技术仅限于某个源X (X =特定的语言、领域、有限数量的预定义事实类型、单一数据模态,等等)。当从X迁移到新的源Y时,我们需要重新开始,对大量的训练数据进行注释,并开发特定于Y的提取功能。在这次演讲中,我将介绍一个新的通用IE范例,它结合了传统IE(高质量和细粒度)和开放IE(高可伸缩性)的优点。该框架通过集成分布式语义和符号语义,能够从任何领域的任何输入数据中发现模式并提取事实,而不需要任何带注释的训练数据。通过构建一个多语言、多媒体、多任务的公共语义空间,并进行跨源零次迁移学习,可以扩展到数百种语言、数千种事实类型和多种数据模式。我还将讨论通用IE和IR之间共生的可能研究方向,使用从这个公共空间构建的开放领域知识图作为中间表示。

季恒,伦斯勒理工学院计算机科学系爱德华·汉密尔顿讲座教授。她在纽约大学获得计算机科学博士学位。她的研究兴趣主要集中在自然语言处理,特别是信息提取和知识库人口。她于2016年、2017年和2018年被世界经济论坛评选为“青年科学家”和全球未来理事会成员。2013年获得IEEE智能系统“AI’s 10 to Watch”奖,2009年获得NSF CAREER奖,2009年和2014年获得谷歌研究奖,2012年和2014年获得IBM沃森教师奖,2015年、2016年和2017年获得博世研究奖。自2010年以来,她协调了NIST TAC知识库人口任务,并担任包括NAACL-HLT2018在内的几次会议的计划委员会联合主席。