火狐体育语言学研究
Image of fall foliage on campus.

研究

目前的研究项目

火狐体育火狐体育州立语言学系的教师都积极从事研究。大多数的研究项目也提供了宝贵的机会,动手在应用语言学工作。如果您对实习机会感兴趣,请阅读研究项目的描述并与相关教员联系。

具体项目包括:

西英双语者的隐喻理解

理解像“沙发土豆”这样的隐喻需要个人快速识别相关的语义特征,并确定它们是如何联系在一起的,这使得它们成为检查语义处理(即人类如何理解意义)的理想测试用例。关于我们的大脑半球是否以及如何专门用于理解比喻性语言,长期以来一直存在争议,尽管大部分研究都集中在单语母语者的语言处理上。在这个项目中,我们研究了双语者如何处理复杂的语义信息,采用了一个实验范式,在这个范式中,单词被呈现给左半球或右半球。我们使用双语,一种充满变化的语言状态,作为一个视角来观察支撑语言处理的认知机制。为此,本项目研究了读写、词汇、记忆和语用能力的个体差异是如何调节双语隐喻加工的。本研究在实验语言学实验室(Schmit Hall)进行,联系人:Lauren Covey

大学写作中的语言变异

先前对大学写作的研究(例如,Goulart, 2021;Gardner et al., 2018;Hardy & Römer, 2013)已经表明,本科作业(例如,论文,评论,实验室报告等)具有不同的语言概况。例如,实验室报告往往有更多的短语特征(前缀名词、名-名序列等),而散文往往有更多的小句特征(状语、动词补语从句等)。然而,这些研究并没有考虑到相同的作业在多大程度上可以在不同学科中具有不同的语言特征。也就是说,为历史课写的研究报告可能与为心理学课写的研究报告具有不同的语言特征。本项目通过调查跨学科和交际目的的大学生写作中语言差异的程度来解决这一差距。联系人:Larisa Goulart More at CORAL语料库实验室

语料库语言学与教学

语料库语言学是一种研究方法,涉及对大量语言数据或语料库的分析,以确定语言使用的模式和规律。自80年代末和90年代初以来,语言学家提出语料库工具有可能彻底改变语言教学(见Johns, 1986;Rundell & Stock, 1992;约翰,1991;等)。这些研究人员指出了在课堂上使用语料库的一些优势,包括:(1)真实性——语料库允许学生探索自然语言数据;(2)自主性——学生可以充当语言侦探,自主识别语言模式;(3)专用性:教师可以使用反映学生在日常生活中遇到的话语类型或学科实践的语料库。尽管在语言课堂中使用语料库的呼声已经存在多年,但教师在使用语料库时仍然遇到许多挑战。本项目旨在促进我们对教师语料库培训如何影响课堂语料库纳入的理解。本项目测试了测量教师感知语料库素养(CL)及其子技能的理论框架的五个组成部分。联系人:Larisa Goulart More at CORAL语料库实验室

委婉语的检测与识别

比喻语言的检测和解释是自然语言处理(NLP)中一个快速发展的领域。遗憾的是,目前在自然语言处理中还缺乏对委婉语的处理。该项目主要解决以下问题:1)委婉语检测和解释的算法设计;2)通过创建一系列新的数据集和任务,探索委婉语识别转换语言模型的嵌入空间,实现黑盒神经模型的可解释性。关键的见解是:1)委婉的表达方式及其释义对应的表达方式在表达情感的强度上有所不同;2)委婉语和非委婉语的解释具有语境敏感性;委婉语比它们所代替的禁忌语更模糊。这些实验测试了深度学习方法捕捉到委婉语的哪些语言特性以及原因。开发的算法可以在没有人为干预的情况下检测到以前没有记录在字典中的新委婉语。委婉语的计算工作对于进一步理解语言的策略性使用如何使人们对重要和极具争议的行为的看法产生偏见,并可能找到消除语言模型偏见的方法非常重要。这项关于委婉语的研究有助于理解在特定文化中哪些话题是有争议的或敏感的。将该算法应用于历时性数据,检测委婉语使用的变化,可以更好地理解文化的变化。所产生的语料库对于回答人工智能、自然语言处理、语言学、文化人类学和社会心理学交叉领域的问题非常有用。语言的范围提供了一种自然的方式来对委婉语进行有趣的语言观察。

由于委婉语是语言行为的一种形式,找到一种自动检测和解释委婉语的方法可能会使我们更好地理解人类的一般行为。

资助

更多信息请访问NLP实验室联系人:Anna Feldman

三种英语变体的韵律事件标注与检测

“韵律”一词涵盖了语音的各个方面,而不是单个片段的性质,特别是语调、重音和节奏。每个话语都是有韵律组织的,韵律属性编码了广泛的交际内容,包括句法分组、强调、轮流、情感和言语行为。韵律在自动口语任务中的应用已经得到了很好的证明。然而,我们对韵律的理解,以及它与语音技术的结合,已经落后了,特别是对于那些已经被低估的语言品种。

这个项目有三个相关的目标。首先,为三种美国英语:欧洲美国英语(EAE)、非洲美国英语(AAE)和拉丁英语(LE)生成一个韵律注释、机器分析的自发的、面向任务的语音语料库,如新泽西州的口语。其次,这些数据的韵律注释和声学分析将用于开发自动检测这些变体中的韵律事件的程序,特别是突出和边界。第三,我们将从日常听众中引出注释,以验证专家注释并揭示听众利用的声学线索。联系人:Jonathan Howell

双语词汇-概念结构及其在语码转换中的激活

以往大多数关于语码转换的研究都描述了这种双语语音的一些可观察到的语法和词汇限制,但它们往往停留在相当表面的观察层面。本研究通过探讨涉及言语交际的双语言语中双语心理词汇的性质和活动,探讨了双语者言语交际的语言动机。它采用矩阵语言框架模型(Myers-Scotton, 1993;Myers-Scotton & Jake, 1995)和双语引理激活模型(Wei, 2002, 2006, 2015)描述了在涉及CS的自然发生的双语语音中感知到的一些突出的语法和词汇约束。本研究的重点是双语心理词汇及其词汇-概念结构的检索和激活作为双语交际的解决方案。该研究声称,双语心理词典包含了关于词汇的抽象条目,称为“lemmas”。它进一步认为词是普遍的,但词是语言特有的,并且在双语语音产生中是联系的。本研究认为,双语词汇-概念结构是复合的、复杂的,某些词汇项目的引词的跨语言差异是促发语用交际的原因。需要大量涉及各种语言对的CS实例来支持这样的论点。联系人:魏龙星

二语习得中双语心理词汇的性质和活动

二语习得中的母语迁移被认为是一种自然而普遍的现象,许多关于二语习得的研究对语言迁移或学习者错误的来源提供了不同的解释。然而,以往的研究大多停留在观察和描述的表面水平。这项研究提出了一种超越任何基于表面水平的研究的“抽象”方法。这种方法是抽象的,因为它探讨了在第二语言学习过程中接触的双语系统的性质和活动。本研究对二语习得的双语引理激活(BLA)模型(Wei, 2002, 2006, 2015)的假设和主张进行了检验。根据这一模型,双语心理词典不仅包含词汇,还包含在三个语言抽象层次上的抽象条目,即词汇-概念结构、谓词-论证结构和形态实现模式。BLA模型假设双语心理词汇中的词是特定于语言的,并且它们在二语学习中相互竞争。不同外语学习者在二语表现中观察到典型的语言迁移实例,才能得出结论:任何不完全习得目标语言特定词汇项的引理都可能导致学习者出现错误,而学习者的母语引理激活越少,二语习得越成功。联系人:魏龙星

中介语:接触中双语语言系统的结果

以往大多数关于中介语的研究都将第二语言学习中的中介语表现错误与中介语系统本身的发展联系起来。虽然在这些研究中,语言迁移被认为是外语发展的过程之一,但很少关注学习者的母语(L1)和目的语(TL)之间的关系和互动。本研究假设外语作为一个发展中的语言系统,涉及学习者的母语、学习者的外语和学习者目前习得的第二语言等多个语言系统,这些语言系统在学习者的目标导向语音产生中相互接触,每个语言系统对发展中的外语系统的贡献不同。本研究进一步假设双语心理词汇的性质和活动可能在外语发展中发挥重要作用。如本研究所述,双语心理词典中包含特定于语言的“理据”(即心理词典中关于单个词的抽象条目),这些理据在语言生成过程中是相互联系的。因此,外语表现错误被认为是学习者的母语抽象词汇结构的“引理迁移”的结果。词汇结构是“抽象的”,因为它包含三个抽象层次的语言组织:词汇-概念结构、谓词-论证结构和形态实现模式。本研究在抽象的层面上把外语看作是双语语言系统接触的结果。需要收集和分析足够的IL性能数据,以验证发展中的IL系统是由未完全习得的抽象词汇结构驱动的假设,并且IL的发展始终是一个可预测的和目标导向的过程。联系人:魏龙星

过去的研究

语义焦点的自动声学检测

通过在声音上强调单词,说话者能够传达句子的哪些部分是背景,哪些部分是他们希望突出或对比的。这种被称为焦点的语音特征在英语中很普遍,但在最先进的语音技术中却没有得到充分的模拟。

本研究的长期目标是开发一种自动检测焦点的方法,这种方法既可以用于语音技术,又可以促进我们对焦点如何在声学和语用条件下实现的科学理解

这个项目的创新之处在于,它既使用了在实验室受控条件下录制的语音,也使用了自然发生的语音,比如播客和视频。联系人:Jonathan Howell

中介语发展中的双语心理词汇

本研究将中介语置于语言接触领域。中介语被理解为一个复合的发展系统,双语心理词汇中包含着语言接触中抽象层次产生的理据。假设双语心理词典中的条目(即引理)由三个层次的抽象结构组成:词汇-概念结构、谓词-论证和形态实现模式,并且任何一个引理(源自母语或任何目标l2甚至来自其他语言的引理)中的这些层次都可以与来自另一个来源的层次分离和重组。第二语言学习中的语言迁移和第三语言学习中的中介语迁移被认为是引理迁移。本研究项目的语言数据是从第二语言和第三语言学习者的中介语生产中收集的,包括口头和书面生产。联系人:魏龙星

Intrasentential语码转换

本研究调查了在所谓的“混合”言语生产中常见的双语行为。双语者可能会在句子边界内转换到另一种语言,即从另一种语言的语素被转换到句子中(即句内语码转换(ICS))。假设ICS中涉及的两种语言不是同等激活的,矩阵语言(即双语者在说话时使用的“主”或“主”语言)提供句子框架,其中嵌入语言(即在语音产生的某个点激活的“客”语言)的语素被转换为句子框架。它还假定在“内容”(词汇)和“系统”(功能)语素之间存在区别。在ICS中,只有内容语素可以转换到矩阵语言提供的句子框架中。本研究将ICS视为一种语言接触现象,并在ICS研究中检验了双语引理激活模型(Wei, 2002, 2003, 2005, 2006)。本研究的数据来源于双语自然语音的产生。联系人:魏龙星

一种测量和规避互联网审查的语言知情方法

互联网审查包括限制哪些信息可以在互联网上公布或查看。根据自由之家的年度网络自由报告,世界上一半以上的互联网用户现在生活在互联网受到审查或限制的地方。然而,互联网自由社区的成员对在哪里以及如何实施审查缺乏全面的实时意识。实现这种解决方案的挑战包括但不限于覆盖、可伸缩性、采用和安全性。该项目探索了一种基于语言的方法来衡量和规避互联网审查。本研究从语言分析的角度探讨了一种审查检测和规避的混合方法,从而为这一问题提供了一个新的视角。与Chris Leberknight(计算机科学),Mung Chiang(普渡大学),Prateek Mittal(普林斯顿大学)合作。联系人:Anna Feldman。资助。

欺骗检测

将自然语言处理和韵律分析应用于欺骗性陈述识别的新方法的发展。与欺骗侦测技术联合工作。资助。联系人:Eileen Fitzpatrick

支持多种语言的短信功能

人们主要是从社会语言学或语篇分析的角度来研究短信行为,但也有一些研究侧重于短信的句法和形态方面以及语用功能。然而,很少有研究调查了文本信息或计算机媒介通信(CMC)中的代码转换或语言转换。这个研究项目建立在之前对短信和Facebook聊天中的代码转换进行的研究的基础上。本文将探讨这种数字话语模式中语码转换的形式、功能和语言创造性。联系Susana Sotillo

自动成语识别

本课题的主要目标是开发一种与语言无关的成语自动识别方法。像“hit the sack”、“eat my hat”、“blow my top”或“go cold turkey”这样的习语对于电脑和语言学习者来说都是很困惑的,因为它们通常既可以从字面上理解,也可以从比喻上理解。为了解决这些挑战,提出了一种既不依赖于目标成语类型、词典或大型人工注释语料库的算法,也不受特定类型语言结构的搜索空间限制。与景鹏(计算机科学)合作。联系人:Anna Feldman。由美国国家科学基金会资助至2018年1月30日。

对比学术文化

对学术文化中可能存在的差异进行对比分析。在与国际学生和火狐体育教授的访谈中收集数据,并进行分析,以创建有助于国际学生更顺利地融入火狐体育火狐体育学术社区的材料。(玛丽调用)

句子加工

我们正在进行在线句子加工实验,以探讨动词的各种属性在句子理解中的作用。我们对及物性和远性的作用特别感兴趣,我们的实验旨在确定在句子的理解中动词属性发挥作用的点——无论是在遇到动词的那一刻,还是在稍后为短语或句子分配句法或语义结构的时候。本研究更广泛的意义在于,它试图确定句子的哪些属性是基于单个单词的词汇特征,哪些是更高层次的句法和语义处理的结果。(玛丽调用)

阿拉伯-英语医学词典

用于机器翻译系统的阿拉伯-英语医学词典的构建。该项目开发了一个医患互动所必需的术语本体,并为MT提供了数千个两种语言的术语。资助。

语料库在语言艺术教学中的运用

考察语料库在英语语法教学中的应用。联系人:Susana Sotillo

该项目收集了英语作为第二语言(ESL)学生写的英语文本

它将文本存储在网上,收集学生作者与他们的第二语言技能相关的数据,对文本进行注释,以便检索用法信息和分析错误。联系人:Eileen Fitzpatrick

性别研究术语

在公共话语(和媒体)中,“性别”一词正逐渐取代“性”一词;从理论上讲,社会语言学、语言和性别研究的情况并非如此,但初步分析表明,在实践中,类似的现象正在发生。这个项目包括对这些术语的使用进行彻底的调查。(爱丽丝释放)。

语音分割

语音的语音切分和韵律特征的标注。联系人:Eileen Fitzpatrick。资助。

便携式语言技术

这项研究的重点是技术对新语言的可移植性和语言技术的快速发展。本研究通过探索将一种语言的现有资源应用于另一种相关语言的可能性,采用了一种快速、低成本开发标记器的新方法。通过共同遗产(如捷克语和俄语)或通过“接触”(如保加利亚语和希腊语)联系在一起的语言通常具有许多可开发的特性:形态学系统、词序和词汇。联系人:Anna Feldman。资助。

制度话语中的问题

该研究调查了问题在制度话语(以及其他类型的固定或部分脚本话语)中的使用,以及问题在(a)构成制度语境本身以及(b)在这些语境中为说话者构建和/或共同构建参与者角色和身份方面所起的作用。(爱丽丝释放)。