首页 胡壮麟 语言学教程

胡壮麟 语言学教程

举报
开通vip

胡壮麟 语言学教程会计学1胡壮麟语言学教程CorpusLinguistics语料库语言学Definition定义Criticismsandtherevivalofcorpuslinguistics语料库语言学受到的批判及其复兴Concordance共现索引Textencodingandannotation语篇编码和注解Therolesofcorpusdata语料库数据的作用第1页/共36页CorpusLinguisticsCorpus(pluralcorpora):acollectionoflinguisticdata,either...

胡壮麟    语言学教程
会计学1胡壮麟语言学教程CorpusLinguistics语料库语言学Definition定义Criticismsandtherevivalofcorpuslinguistics语料库语言学受到的批判及其复兴Concordance共现索引Textencodingandannotation语篇编码和注解Therolesofcorpusdata语料库数据的作用第1页/共36页CorpusLinguisticsCorpus(pluralcorpora):acollectionoflinguisticdata,eithercompiledaswrittentextsorasatranscriptionofrecordedspeech.Themainpurposeofacorpusistoverifyahypothesisaboutlanguage--forexample,todeterminehowtheusageofaparticularsound,word,orsyntacticconstructionvaries.语料(corpus,复数形式corpora):一个语言数据的存储,可以是被编辑为书面文本,也可以是被作为录音言语的誊本。语料的主要目的是鉴定一个语言的假说--例如,确定一个特定的语音、单词,或句法结构的使用如何变化。第2页/共36页3.1CorpusLinguisticsCorpuslinguisticsdealswiththeprinciplesandpracticeofusingcorporainlanguagestudy.Acomputercorpusisalargebodyofmachine-readabletexts.语料库语言学:论述语言研究中使用语料的原理和实践。一个计算机语料库是机器可读文本的重要躯干。第3页/共36页语料(CORPUS,13世纪,来自拉丁语的corpus一词;意思是"body"(躯干;身体):复数形式通常是corpora)。(1)一个文本的集合,尤其指完整的和自身需求的文本集合;如:Anglo-Saxon诗句的语料。(2)复数形式也可写成corpuses。在语言学和词典编纂学上,指文本、语句或其它样本的集会,通常作为一个电子数据库储存。一般说来,计算机语料库可以储存上百万的流行词汇,其特征能通过标记的方式(为词和其它构成的作标记,并加以确认和分类)和使用共现关系程序来 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 。语料库语言学:研究任何这样的语料中的数据。第4页/共36页CriticismsandtherevivalofcorpuslinguisticsChomskychangedthedirectionoflinguisticsawayfromempiricismtorationalism.1.thecorpuscouldneverbeausefultoolforthelinguist,asthelinguistmustseektomodellanguagecompetenceratherthanperformance.第5页/共36页2.theonlywaytoaccountforagrammarofalanguageisydescriptionofitsrules,ratherthanbyenumerationofitssentences.Itisthesyntacticrulesthatarefinite.3.Eveniflanguageisafiniteconstruct,corpusmethodologyisnotthebestmethodtostudylanguage.第6页/共36页(a)*HeshinesTonybooks.(b)HegivesTonybooks.(c)HelendsTonybooks.(d)HeowesTonybooks.Howcanungrammaticalutterancesbedistinguishedfromonesthathaven’toccurred?Ifthecorpusdoesnotcontainsentence(a),howdoweconcludethatitisungrammaticalwhiletherestofthesentencesaregrammatical?第7页/共36页Therearealsoproblemsofpracticalitywithcorpuslinguistics.Howcanoneimaginesearchingthroughan11-million-wordcorpususingnothingmorethanone’seyes?Despitethecriticisms,corpuslinguisticscontinuestodevelop,especiallyafterthecomputerslowlystartstobecomethemainstayofcorpuslinguistics.第8页/共36页Concordance计算机有能力搜索一个特定的词,词汇的顺序,甚至一个文本里的某一个词类。计算机也能检索一个词所有的实例,它还能计算一个词出现的次数,从而收集到有关这个词的频率的信息。然后以某种方式对数据进行分类。第9页/共36页poorinTaleofTwoCities,Book1第10页/共36页第11页/共36页第12页/共36页"gives"包含词类的隐含部分的信息"第三人称单数现在时动词",在正常阅读里,我们仅能通过求助于预先存在的英语语法知识来检索它。然而,在一个已经注解过的语料里,形式"gives"可能以"gives-VVZ"的形式出现,代码"VVZ"表示它是一个词汇中动词(VV)的第三人称单数现在时(Z)形式。诸如这样的注解,使检索和分析包含在语料里的语言的信息变得更快、更容易。Textencodingandannotation第13页/共36页Leech(1993)描写了适用于文本语料的注解的7条准则。1.为了恢复到自然的语料,从有注解的语料里删去注解是可能的。2.从文本里单独摘录注解是可能的。3.注解 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 应该以终端用户可利用的指导方针为基础。4.应该弄清楚,注解是如何并且由谁来完成。5.终端用户应该知道语料注解不是没有错误的,而只是一种潜在的有用的工具。6.注解方案应尽可能地立足于普遍接受的和中性的理论原则。7.任何注解方案都无优先权被视为是标准的注解。第14页/共36页TherolesofcorpusdataSpeechresearchLexicalstudiesSemanticsSociolinguisticsPsycholinguistics第15页/共36页Speechresearch言语研究Aspokencorpusprovidesabroadsampleofspeech,extendingoverawideselectionofvariablessuchasspeakergender,speakerage,speechclass,genre,etc.Thisallowsgeneralizationstobemadeaboutspokenlanguageasthecorpusisaswideandasrepresentativeaspossible.Italsoprovidesforvariationwithagivenspokenlanguagetobestudied.Italsoprovidesasampleofnaturalisticspeechratherthanspeechelicitedunderartificialconditions.第16页/共36页Lexicalstudies词汇研究Alinguistwhohasaccesstoacorpuscancallupalltheexamplesofawordorphrasefrommanymillionsofwordsoftextsinafewseconds.Dictionariescanbeproducedandrevisedmuchmorequicklythanbefore,thusprovidingup-to-dateinformationaboutlanguage.Also,definitionscanbemorecompleteandprecisesincealargenumberofnaturalexamplesareexamined.第17页/共36页Semantics语义学Corpuslinguisticscontributestosemanticsbyhelpingtoestablishanapproachwhichisobjective,becausesemanticdistinctionsareassociatedintextswithcharacteristicobservablecontexts—syntactic,morphologicalandprosodic—andbyconsideringheenvironmentofthelinguisticentitiesanempiricalobjectiveindicatorforaparticularsemanticdistinctioncanbearrived.Anotherroleofcorporainsemanticshasbeeninestablishingmorefirmlythenotionsoffuzzycategoriesandgradience.Inlookingempiricallyatnaturallanguageincorpora,clear-cutboundariesdonotexist;insteadtherearegradientsofmembershipwhichareconnectedwithfrequencyofinclusion.第18页/共36页Sociolinguistics社会语言学Althoughsociolinguisticsisanempiricalfieldofresearchitisnotoftenrigorouslysampled.Sometimesthedataarealsoelicitedratherthannaturalisticdata.Acorpuscanprovidearepresentativesampleofnaturalisticdatawhichcanbequantified.第19页/共36页Psycholinguistics心理语言学Inthefieldofpsycholinguistics,sampledcorporacanprovidepsycholinguisticswithmoreconcreteandreliableinformationaboutfrequency,includingthefrequenciesofdifferentsensesandpartsofspeechofambiguouswords.Next,corporadatacanbeusedtoexaminetheoccurrenceofspeecherrorsinnaturalconversation.Athirdroleforcorporaliedintheanalysisoflanguagepathologies,whereanaccuratepictureofabnormaldatamustbeconstructedbeforeitispossibletohypothesizeandtestwhatmaybewrongwiththehumanlanguageprocessingsystem.第20页/共36页ComputerMediatedCommunication计算机介入的信息交流MailandNews邮件和新闻PowerPointBlog博客Chatroom谈话室EmoticonsorSmileys表情符号和笑眯眯第21页/共36页ComputerMediatedCommunication计算机介入的信息交流的特点:突出语言在计算机网络环境中的语言使用的关系,并通过使用语篇分析的方法来谈论这个焦点。以语篇为基础的CMC形式:电子邮件、讨论组、实时聊天、虚拟现实的角色扮演游戏等。第22页/共36页MailandNews信件邮箱和网上旅行是人们进入互联网的两种主要浏览方式。网上旅行是信息检索信件邮箱是邮件或者新闻的获取和发送第23页/共36页PowerPoint是在电子投影仪上演示幻灯片,用户编制的幻灯片是书面语篇、录像、图像、音箱动画的集合。第24页/共36页三种形式:1.作为工具的制作软件:编写幻灯片上的要点和创建相配视听材料的软件。2.作为语篇的演示文稿:指被广泛地用来在幻灯片上围绕一定主题制作各种形式的材料。3.作为语篇类型的演示方式:指一种重复的活动或表示意义的形式。第25页/共36页Blog具有各种链接点和帖子的网络杂志。按逆年代顺序编排,最新的帖子出现在网页的上端(DanGilmore)第26页/共36页特点:1.基本单位:帖子2.逆年代顺序3.累赠、开放性4.内容简短5.what’snew6.链接7.私人、非正式8.共同具有的声音第27页/共36页Chatroom简单说是一个在互联网上一群人的讲话是一个网址,用户们可以在这个网址里进行实时的信息传递。第28页/共36页是人们使用计算机键盘上所能找到的字母组成的字符串。EmoticonsorSmileysafkawayfromkeyboardbblbebacklaterbbiabbebackinabitbrbberightbackbtwbythewaycyaseeyagmtagreatmindsthinkalike第29页/共36页j/kjustkiddingirlinreallifelollaughingoutloudnickinternetnicknamerotflrollingonthefloorlaughingttfntatafornowttyltalktoyoulaterwbwelcomeback第30页/共36页5.3Emoticons/smileys:-)haha|-)heehee|-Dhoho:->heyhey:-(booboo:-|hmmm:-Ooops第31页/共36页:-*oooops:-ouhoh!{}'nocomment':-ooh,no!#:-ooh,no!:-0ohhhhhh!|:-Obigohhhhhh!:-)))reeeaaaaaalllllyhappy>;-('Iamspittingmad:'-(Iamcrying第32页/共36页<3Iloveyou:'-)Iamsohappy,Iamcrying:-@Iamscreaming((H)))abighug:-Xabigwetkiss:-DIamlaughing(atyou!)|-OIambored/yawning/snoring:-ozzzzZZIambored:-SIamconfused:-eIamdisappointed第33页/共36页(:-...Iamheart-broken|-|Iamgoingtosleep(@@)You'rekidding!@*&$!%youknowwhatthatmeans....**-(Iamvery,veryshocked:^Dgreat!Ilikeit!M:-)Isaluteyou(respect):+(Iamhurtbythatremark=-oIamsuprised<=-OIamfrightened第34页/共36页=-<>Iamawestruck$->Iamhappilyexcited:-~(~~~Iammovedtotears=^)Iamopenminded>wohreally!(ironic)第35页/共36页
本文档为【胡壮麟 语言学教程】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
莉莉老师
暂无简介~
格式:ppt
大小:674KB
软件:PowerPoint
页数:0
分类:
上传时间:2021-10-23
浏览量:76