基于语料库的旅游景区英语网页文本文体特征
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
hwsy@overseaen
ISSN 1009 - 5039
O v e r s e a s E n g l i s h 海 外 英 语 ////0>. 2012 年 12 月 2012 年 12 月
O v e r s e a s E n g l i s h 海 外 英 语
Tel:+ 86 - 551 - 65690811 65690812
基于语料库的旅游景区英文网页文本文体特征分析
崔建周
( 无锡城市职业技术学院 无锡旅游发展研究中心 , 江苏 无锡 214153 )
摘 要 : 基 于 自 建 的 江 苏 旅 游 景 区 英 文 网 页 语 料 库 , 作 者 对 江 苏 省 旅 游 景 区 的 英 文 网 页 文 本 的 文 体 特 征 进 行 研 究 , 同 时 对 照
英 美 旅 游 景 区 英 文 网 页 语 料 库 展 开 对 比 分 析 。 借 助 语 料 库 技 术 , 对 两 个 语 料 库 进 行 基 本 统 计 分 析 、 关 键 词 分 析 和 主 要 词
类 分 布 分 析 。 研 究 结 论 呈 现 了 江 苏 省 旅 游 景 区 英 文 网 页 文 本 和 英 美 旅 游 景 区 英 文 网 页 文 本 在 文 体 方 面 存 在 的 共 同 点 和
差异之处 , 从而对江苏省旅游景区的网页外宣文本创作以及旅游目的地形
象的构建提供有效的指导 。
关键词 : 语料库 ; 旅游景区英文网页 ; 文体分析
中图分类号 : H 052 文献标识码 : A 文章编号 : 1009 - 5039 2012 24
- 0 234 - 03
Corpus-based Stylistic Analysis of the English-version Webpage Texts of the Tourist Attractions
CUI Jian-zhou
Wuxi Tourism R&D Center, Wuxi City College of Vocational Technology, Wuxi 214153 , China
Abstract: Based on self- built corpus, this paper aims at making a comparison stylistic analysis between the English- version webpages of tourist attractions in Jiangsu Province and those in Britain and America. The present paper conducts statistical analysis on
these two corpora by corpora analysis technology. The research outcome indicates that there are both similarities and differences
on stylistic features between the English- version WebPages of tourist attractions in Jiangsu Province and those in Britain and
America, providing effective guideline for the composition of online international publicity and the creation of tourist destination
image.
Key words: corpus; English-version webpage of tourist attractions; stylistic analysis
达 42 篇 , 这 说 明 了 语 料 库 语 言 学 大 大 拓 宽 了 文 体 学 的 研 究 范
1 概述
围 。 但 作 者 也 发 现 , 通 过 语 料 库 语 言 学 途 径 , 对 旅 游 景 区 英 文
语 料 库 语 言 学 的 兴 起 为 文 体 学 这 门 古 老 的 学 科 提 供 了 广
[ 3 : 73 - 83 ]
网页 文本 进行 文体 分析 的论 文还 比较 少 。 侯晋 荣 基于 类比
泛 的 前 景 , 语 料 库 的 建 设 和 应 用 对 文 体 学 研 究 产 生 了 重 大 影
语 料 库 对 旅 游 文 本 的 语 言 和 语 篇 特 征 进 行 了 分 析 , 对 比 分 析 了
响 。 进 入 二 十 一 世 纪 , 语 料 库 语 言 学 与 文 体 学 相 结 合 , 利 用 语
英语原创旅游文本和汉译英旅游文本的语言特征 。
料 库 分 析 的 方 法 对 文 体 进 行 研 究 逐 渐 成 为 一 种 趋 势 。 Martin
该 文 基 于 自 建 的 江 苏 旅 游 景 区 英 文 网 页 语 料 库 以 下 简 称
Wynne 撰 写 的 “ Stylistics : corpusap- proaches ” , 文 章 提 出 了 将 文
JSTET 对 江 苏 省 旅 游 景 区 英 文 网 页 文 本 以 下 简 称 JSTET 的 文
[ 2 : 223 - 226 ]
体 学 和 语 料 库 语 言 学 研 究 结 合 起 来 具 有 重 要 的 意 义 。
体 特 征 进 行 研 究 , 同 时 对 照 英 美 旅 游 景 区 英 文 网 页 语 料 库 以 下
2006 年 , Scott & Tribble 出 版 了 TextualPatterns : KeyWords and
简 称 BATET 展 开 对 比 分 析 , 找 出 JSTET 和 英 美 旅 游 景 区 英 文 网
Corpus Analysis in Language Education , 展 示 出 语 料 库 在 语 言 教
页 文 本 以 下 简 称 BATET 文 体 上 的 差 异 , 从 而 为 江 苏 省 旅 游 景
学和文本分析中的作用 。
区 的 网 页 外 宣 文 本 创 作 以 及 旅 游 目 的 地 形 象 的 构 建 提 供 有 效
国 内 近 年 也 出 现 了 关 于 语 料 库 文 体 学 的 一 些 文 章 作 者 对
的指导 。
中 国 期 刊 网 收 录 的 53 篇 相 关 学 术 论 文 进 行 了 统 计 分 析 , 归 纳 出
2 语料库的创建
我 国 语 料 库 文 体 学 研 究 主 要 呈 现 以 下 三 个 特 征 : 论 文 虽 然 总 数
不 多 但 呈 现 出 逐 年 增 长 的 趋 势 ; 论 文 质 量 虽 然 参 差 不 齐 , 但 论
21 语料收集
文 总 体 水 平 较 高 , 在 53 篇 被 收 录 的 论 文 中 , 29 篇 为 硕 士 生 毕 业
为 了 保 证 语 料 的 代
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
性 , 我 们 选 取 了 江 苏 省 的 4 A 和 5 A 级
论 文 , 占 到 总 数 的 一 半 以 上 , 5 篇 为 核 心 期 刊 论 文 , 将 近 占 到 总
旅 游 景 区 的 英 文 网 页 文 本 作 为 建 库 语 料 。 在 江 苏 省 的 100 多 个
数 的 十 分 之 一 ; 针 对 非 文 学 文 体 的 研 究 越 来 越 多 , 53 篇 论 文 中 ,
4 A 和 5 A 级 景 区 中 , 目 前 拥 有 有 效 英 文 网 页 链 接 的 的 旅 游 景 区
针 对 文 学 文 本 的 论 文 只 有 11 篇 , 而 针 对 非 文 学 文 本 的 论 文 则 多
收稿日期 : 2012 - 11 - 05 修回日期 : 2012 - 11 - 21
基金项目 : 2012 年 度 江 苏 省 社 科 研 究 文 化 精 品 立 项 课
题 “ 江 苏 省 旅 游 景 区 外 宣 翻 译 研 究 ” ( 项 目 批 准 号 : 12 SWC- 031 ) 阶 段 性 研 究 成 果
作者简介 : 崔建周 ( 1983 - ) , 男, 河南郑州人 , 讲师 , 硕士 , 研究方向为语料库翻译学 。
本栏目责任编辑 : 谢媛媛
234
语言学研究 语言学研究
一一 一一 一一 一一 一一 一一
一一 一一 一一 一一 一一 一一2012 年 12 月 2012 年 12 月 O v e r s e a s E n g l i s h 海 外 英 语
有 38 个 。 作 者 收 集 了 些 旅 游 景 区 英 文 网 页 的 所 表 1 基本数据统计
有
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
, 作为 JSTET 的语料来源 。
BATET 的 语 料 主 要 来 自 于 英 国 和 美 国 的 旅
游 官 方 网 站 , 从 英 国 的 旅 游 官 方 网 站 上 , 作 者 收
集 了 有 关 英 国 历 史 人 文 景 观 和 自 然 景 观 的 所 有
英 文 介 绍 文 本 ; 从 美 国 的 官 方 旅 游 网 站 上 , 作 者
者 收 集 了 美 国 20 个 城 市 的 主 要 旅 游 目 的 地 的 英
文介绍文本 。
22 语料的整理和标注
在 语 料 文 本 的 整 理 过 程 中 , 作 者 使 用 了 一
款 叫 做 “ 文 本 整 理 器 ” 的 免 费 软 件 , 该 软 件 作 者
署 名 为 “ 风 林 ” 。 这 款 软 件 是 专 为 文 本 格 式 整 理
而 编 写 的 , 界 面 友 好 直 观 , 操 作 简 单 。 可 单 个 处
[ 4 : 33- 34 ]
理 文 本 , 也 可 批 量 处 理 文 本 。 本 研 究 的 标
注 采 用 词 性 赋 码 。 通 过 CLAWS 词 性 赋 码 器 , 我 代 ” 的 名 词 , 这 说 明 JSTET 以 宣 传 位 于 明 清 两 朝 的 资 源 最 为 主 ,
们 对 两 个 语 料 库 进 行 了 词 性 标 注 , 该 软 件 是 兰 卡 斯 特 大 学 计 算
使 用 最 多 的 介 词 是 “ of ” 和 “ in ” 。 “ temple ” 和 “ garden ” 这 两 个 关 键
机 语 料 库 研 究 中 心 研 制 开 发 的 , 赋 码 准 确 率 一 直 维 持 在 96 %--
词 向 我 们 展 示 了 JSTET 的 两 大 主 题 : 江 南 园 林 和 南 朝 寺 观 。
97% 之间 。
“ China ” 和 “ Chinese ” 这 两 个 词 则 体 现 了 JSTET 在 景 点 介 绍 中 非
常 注 重 景 点 的 社 会 地 位 及 其 在 全 国 的 地 位 。 “ emperor ” 一 词 体 现
3 数据统计与分析
出 了 JSTET 在 景 点 介 绍 中 十 分 注 重 “ 名 人 效 应 ” 。 “ was ” 这 个 be
31 基本数据统计与分析
动词过去时态表明了 JSTET 中过去时态使用较多 。
负 关 键 词 中 位 于 第 一 位 的 是 代 词 “ you ” , 第 二 人 称 代 词
利 用 语 料 库 软 件 Wordsmith 50 , 我 们 可 以 得 到 以 下 关 于 两
“ you ” 用 在 旅 游 文 本 中 主 要 用 于 拉 近 与 读 者 的 距 离 , 使 读 者 产 生
个语料库的基本数据 。
亲 近 感 。 JSTET 对 “ 网 页 文 本 对 “ you ” 的 使 用 频 率 远 远 低 于 BA类 符 / 形 符 比 在 一 定 程 度 上 反 映 了 文 本 的 某 种 本 质 特 征 , 即
TET , 这 使 得 前 者 的 表 达 语 气 显 得 较 为 生 硬 。 “’ s ” 的 使 用 情 况 说
用 词 的 变 化 性 。 但 是 当 文 本 容 量 达 到 一 定 程 度 时 , 两 者 的 比 率
明 JSTET 中 省 略 词 的 使 用 较 少 , 用 词 偏 于 正 式 。 “ park ” 对 应 的 中
无 法 反 映 用 词 的 变 化 性 。 因 此 我 们 需 要 采 用 标 准 化 类 符 形 符
文 是 “ 公 园 ” , 相 比 之 下 , “ park ” 的 低 频 使 用 说 明 了 公 园 在 江 苏 省
比 来 反 映 用 词 的 变 化 性 。 标 准 差 反 映 的 是 数 据 的 离 散 程 度 。
的 旅 游 资 源 中 不 受 重 视 。 “ shopping ” 的 低 频 使 用 说 明 JSTET 不 注
从 表 1 的 标 准 化 类 符 / 形 符 比 及 其 标 准 差 来 看 , 两 者 在 平 均 词 长
重 购 物 的 宣 传 。 “ drive ” 和 “ miles ” 低 频 使 用 说 明 JSTET 缺 乏 给 游
方 面 相 差 无 几 , 都 使 用 较 为 简 单 的 词 汇 , 但 JSTET 的 词 汇 使 用 没
客提供必要的交通和相关信息 。
有 BATET 丰富 。
从 两 个 语 料 库 文 本 的 的 平 均 句 长 可 以 发 现 , JSTET 的 平 均
33 词类分布分析
句 长 明 显 高 于 BATET ; 从 平 均 句 长 标 准 差 的 数 据 对 比 中 可 以 发
借 助 Antconc , 我 们 检 索 了 两 个 语 料 库 中 各 主 要 词 类 的 分 布
现 , 前 者 句 长 变 化 也 明 显 大 于 后 者 。 这 说 明 JSTET 的 句 子 结 构
情 况 , 如 图 1 所 示 。 与 BATET 相 比 , JSTET 中 动 词 、 数 词 、
冠 词 和
更为复杂多变 。
介 词 所 占 的 比 重 更 大 一 些 , 名 词 、 代 词 、 连 词 和 副 词 的 比 重 更 小
32 关键词分析
一 些 、 形 容 词 和 感 叹 词 的 比 重 相 当 。 对 比 之 下 , JSTET 中 动 词 多
而 名 词 少 的 现 象 说 明 了 汉 语 原 文 对 旅 游 网 页 翻 译 文 本 的 影
关 键 词 , 是 指 在 两 个 单 词 列 表 的 比 较 中 得 出 的 那 些 在 所 考
响 。 冠 词 多 而 名 词 少 说 明 JSTET 中 存 在 冠 词 滥 用 的 现 象 。 数 词
察 文 本 中 出 现 频 率 突 出 的 词 。 关 键 词 的 潜 在 用 途 包 括 : 语 言 教
使 用 较 多 说 明 JSTET 重 视 以 具 体 的 数 据 来 吸 引 游 客 注 意 力 。 代
学 、 文 体 研 究 、 文 本 内 容 分 析 、 文 本 归 档 等 。 借 助 语 料 库 软 件
词 同 时 具 有 建 构 句 子 并 促 成 语 篇 衔 接 和 连 贯 的 作 用 。 连 接 性
Wordsmith 50 , 以 BATET 为 参 照 语 料 库 , 以 JSTET 为 观 察 语
料
词 语 是 篇 章 组 织 的 重 要 细 节 。 代 词 和 连 词 的 相 对 较 少 使 用 说
库 , 我 们 得 到 了 JSTET 关 键 词 表 , 共 有 关 键 词 481 个 , 其 中 正 关
明 JSTET 受 到 汉 语 “ 形 散 神 不 散 ” 特 点 的 影 响 , 在 构 建 语 篇 时 不
键 词 318 个 , 负 关 键 词 163 个 。 正 关 键 词 是 指 与 参 照 语 料 库 相
太注重语篇衔接和连贯 。
比 在 观 察 语 料 库 中 显 著 高 频 的 词 , 负 关 键 词 是 指 显 著 低 频 的
词 。 正 关 键 词 能 够 体 现 观 察 文 本 的 用 词 特 色 , 负 关 键 词 同 样 也
能 够 体 现 观 察 语 料 的 用 词 特 色 [ 5 ] 。 位 于 前 十 位 的 的 正 关 键 词
为 : dynasty 、 temple 、 was 、 China 、 Chinese 、 garden 、 emperor 、 Ming 、
Nanjing 、 in 。 位 于 前 十 位 的 负 关 键 词 为 : downtown 、 city 、 shopping 、 or 、 park 、 can 、 drive 、 ‘ s 、 you 。
在 JSTET 中 关 键 性 最 高 的 一 个 词 是 “ danasty ” , 充 分 说 明 了
江 苏 省 旅 游 景 区 在 介 绍 景 点 时 偏 爱 “ 朝 代 纪 年 法 ” 。 借 助
Antconc 软 件 , 我 们 对 “ danasty ” 的 左 侧 搭 配 词 进 行 了 统 计 , 使 用
最 多 的 名 词 是 ” Ming,Qing,Eastern Jin,Han,Tang,Song ” 等 表 示 “ 朝
图 1 词类分布统计
本栏目责任编辑 : 谢媛媛
235
语言学研究 语言学研究
一一 一一 一一 一一 一一 一一
一一 一一 一一 一一 一一 一一