摘 要: 在國(guó)外學(xué)者的詞頻研究方法、語(yǔ)境研究方法和語(yǔ)料對(duì)比方法的基礎(chǔ)上,以英語(yǔ)語(yǔ)言學(xué) 56 萬(wàn)余字的語(yǔ)料為基礎(chǔ),提出了四個(gè)步驟的術(shù)語(yǔ)表研制方法,并且歸納出了 359 個(gè)英語(yǔ)語(yǔ)言學(xué)術(shù)語(yǔ)。這種研究不僅是對(duì)英語(yǔ)語(yǔ)言學(xué)術(shù)語(yǔ)的第一次嘗試性歸納,而且研究方法上的創(chuàng)新可以應(yīng)用于其他學(xué)科的術(shù)語(yǔ)研究和術(shù)語(yǔ)表的研制。
本文源自中國(guó)科技術(shù)語(yǔ) 發(fā)表時(shí)間:2021-03-31《中國(guó)科技術(shù)語(yǔ)》雜志,于1985年經(jīng)國(guó)家新聞出版總署批準(zhǔn)正式創(chuàng)刊,CN:11-5554/N,本刊在國(guó)內(nèi)外有廣泛的覆蓋面,題材新穎,信息量大、時(shí)效性強(qiáng)的特點(diǎn),其中主要欄目有:探討與爭(zhēng)鳴、術(shù)語(yǔ)與翻譯、術(shù)語(yǔ)探源等。
關(guān)鍵詞: 術(shù)語(yǔ)表; 英語(yǔ)語(yǔ)言學(xué); 詞頻; 語(yǔ)境; 語(yǔ)料庫(kù)
引言
術(shù)語(yǔ)表( glossary) 是特定學(xué)科術(shù)語(yǔ)的集合。術(shù)語(yǔ)表的質(zhì)量取決于術(shù)語(yǔ)的質(zhì)量。梁愛林[1]把術(shù)語(yǔ)質(zhì)量的標(biāo)準(zhǔn)概括為六個(gè)方面,即清晰性、一致性、得體性、簡(jiǎn)潔性、準(zhǔn)確性以及詞的衍生能力; PerinánPascual [2] 認(rèn) 為 突 顯 性 ( salience ) 、關(guān) 聯(lián) 性 ( relevance) 和連貫性( cohesion) 決定了術(shù)語(yǔ)的質(zhì)量。要確保術(shù)語(yǔ)表的質(zhì)量,最重要的是從文本中提取術(shù)語(yǔ)的方法和程序要合理。一般來(lái)說(shuō),作為教材附錄的術(shù)語(yǔ)表是將教材中出現(xiàn)過的術(shù)語(yǔ)按一定的順序排列出來(lái),這不是一件難事,但是要把一個(gè)學(xué)科的常用術(shù)語(yǔ)盡可能全面地遴選出來(lái),代表一個(gè)學(xué)科的全部的知識(shí)體系和研究方法,卻不是一件容易的事。本文以英語(yǔ)語(yǔ)言學(xué)為例,將提出一種四步驟的術(shù)語(yǔ)表研制方法,并將盡可能全面地歸納出英語(yǔ)語(yǔ)言學(xué)的術(shù)語(yǔ)。
1 術(shù)語(yǔ)表的研制方法回顧
國(guó)內(nèi)的術(shù)語(yǔ)表研究是多側(cè)面多角度的,比如葉其松[3]提出“術(shù)語(yǔ)編纂”三分說(shuō),從廣義、一般概念和狹義三個(gè)維度對(duì)術(shù)語(yǔ)進(jìn)行論述; 鄭述譜和梁愛林[4]對(duì)國(guó)外術(shù)語(yǔ)學(xué)研究現(xiàn)狀進(jìn)行了評(píng)介; 梁愛林[1]對(duì)術(shù)語(yǔ)資源的質(zhì)量評(píng)估進(jìn)行了較全面的探討。偶爾也有學(xué)位論文( 如陳觀喜[5]) 對(duì)文檔術(shù)語(yǔ)表的自動(dòng)構(gòu)建方法展開研究,提出了一些較有價(jià)值的觀點(diǎn)。
至于國(guó)外的術(shù)語(yǔ)表研究,更多地關(guān)注術(shù)語(yǔ)的產(chǎn)生過程和實(shí)施方法,在研究思路上大致可以分為三類。第一類是基于詞頻的方法,第二類是基于上下文語(yǔ)境的方法,第三類是語(yǔ)料對(duì)比的方法。這些研究與本文的關(guān)系更加密切,所以我們來(lái)簡(jiǎn)要介紹一下它們的主要觀點(diǎn)和代表性理論,然后評(píng)述一下其得失。
第一類方法的基本思路是: 如果一個(gè)單詞出現(xiàn)的頻率比較大或者該單詞以固定的搭配形式出現(xiàn)在特定的文本中,那么它在這個(gè)領(lǐng)域中成為術(shù)語(yǔ)的可能性比較大。
詞頻 方 法 代 表 性 的 理 論 是 TF-IDF [6]。TF ( term frequency) 指詞頻,即一個(gè)詞條在文檔中出現(xiàn)的頻率。IDF( inverse document frequency) 指逆向文本詞頻,如果包含某詞條的文檔越少,即 IDF 越大,則說(shuō)明該詞條具有很好的類別區(qū)分能力。CValue [7]是術(shù)語(yǔ)抽取方法中應(yīng)用較多的理論,在統(tǒng)計(jì)詞頻時(shí)它要求候選術(shù)語(yǔ)不得嵌套在別的術(shù)語(yǔ)中,先通過計(jì)算候選術(shù)語(yǔ)頻率和長(zhǎng)度得到一個(gè)分值,然后根據(jù)包含該候選術(shù)語(yǔ)的更長(zhǎng)的候選術(shù)語(yǔ)的詞頻來(lái)調(diào)整該分值。Basic [8]與 C-Value 方法剛好相反,根據(jù) Basic 方法抽取的術(shù)語(yǔ)可以是其他候選術(shù)語(yǔ)的一部分。
第二類方法是基于上下文語(yǔ)境來(lái)區(qū)分術(shù)語(yǔ)和非術(shù)語(yǔ)。NC-Value [7]是代表性的方法之一,它主張一個(gè)特定領(lǐng)域的語(yǔ)料庫(kù)中通常有一個(gè)“重要”單詞的列表,在這些“重要”單詞語(yǔ)境中出現(xiàn)的候選術(shù)語(yǔ)應(yīng)該被賦予更高的權(quán)重。Domain Coherence [9]方法是 NC-Value 的一個(gè)改進(jìn),它用 Basic 方法抽取最好的 200 個(gè)術(shù)語(yǔ)候選項(xiàng),然后從它們的上下文中過濾其他詞性的單詞,這個(gè)過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動(dòng)詞和副詞,最后用標(biāo)準(zhǔn)化的 Astrakhantsev [9]排序得到前 50 個(gè)單詞。
第三類方法是語(yǔ)料對(duì)比的方法,基本做法是通過單詞在指定領(lǐng)域語(yǔ)料中的詞頻和其他語(yǔ)料中的詞頻進(jìn)行比較,將術(shù)語(yǔ)與一般的單詞或者短語(yǔ)區(qū)別出 來(lái)。 這 類 方 法 主 要 有 Domain Pertinence、 Weirdness 和 Relevance [9]。
上述三類方法,各有其合理性,下面我們分別進(jìn)行評(píng)述。
第一類方法基于詞頻來(lái)遴選術(shù)語(yǔ),這是最為基礎(chǔ)的操作步驟,但是詞頻方法不能排除高頻的非術(shù)語(yǔ)詞組,尤其是包含 2 ~ 3 詞的詞組,它們?cè)诟黝愇捏w中都具有很高的出現(xiàn)頻率,比如 put on 和 take advantage of 這類詞組,總是混跡于通過詞頻遴選出來(lái)的術(shù)語(yǔ)庫(kù)中,而且數(shù)量很大。Biber 等人[10]統(tǒng)計(jì)發(fā)現(xiàn),在英語(yǔ)口語(yǔ)和書面語(yǔ)中這類詞組分別占 30%左右和 21%左右。Erman 和 Warren [11]的統(tǒng)計(jì)結(jié)果比例更高,認(rèn)為分別占 58.6%和 52.3%,所以詞頻方法只能是術(shù)語(yǔ)表研制中的步驟之一,而不能成為獨(dú)立的術(shù)語(yǔ)遴選方法。
第二類方法是基于語(yǔ)境來(lái)區(qū)分術(shù)語(yǔ)和非術(shù)語(yǔ),某些“重要”單詞在詞串語(yǔ)境中與其他單詞的共現(xiàn)概率很高,但是詞組作為整體的出現(xiàn)概率不一定高,所以詞組可能被詞頻統(tǒng)計(jì)方法所過濾。如果能將詞頻方法和語(yǔ)境方法結(jié)合起來(lái),把整體的詞頻數(shù)據(jù)和詞組內(nèi)部各成分的共現(xiàn)概率進(jìn)行量化,對(duì)兩者進(jìn)行綜合平衡,按一定的比例取值,這樣計(jì)算的結(jié)果會(huì)比單獨(dú)考慮詞頻或語(yǔ)境特征更能遴選出合理的術(shù)語(yǔ)表。
第三類方法是進(jìn)行語(yǔ)料對(duì)比,通過同一單詞在不同文體或不同語(yǔ)域的語(yǔ)料中進(jìn)行頻次比較,在統(tǒng)計(jì)術(shù)語(yǔ)時(shí),這種方法可以排除高頻日常詞組,比如上文提到的 put on 和 take advantage of 等詞組是各種文體和各種語(yǔ)域中的通用詞組,它們不僅整體的詞頻很高,而且內(nèi)部各成分的共現(xiàn)概率也很高,所以第三類方法通過語(yǔ)域排查可以過濾非術(shù)語(yǔ)的詞組,但是必須與第一和第二類方法結(jié)合起來(lái)使用。
從我們的分析可以看出,三類方法各有其合理性,但是單獨(dú)使用時(shí)都有一定的缺陷,所以本文擬提出四個(gè)步驟的遴選方法,充分利用上述三種方法的優(yōu)勢(shì),同時(shí)讓它們揚(yáng)長(zhǎng)避短,優(yōu)勢(shì)互補(bǔ),找到一條適合術(shù)語(yǔ)遴選的方法。
2 術(shù)語(yǔ)表研制過程詳解
本研究以英語(yǔ)語(yǔ)言學(xué)的術(shù)語(yǔ)提取和術(shù)語(yǔ)表制作為例。此研制方法不僅可以為其他學(xué)科術(shù)語(yǔ)表的研制提供一種示范,其研究結(jié)果也可以為英語(yǔ)語(yǔ)言學(xué)學(xué)科提供可以利用的術(shù)語(yǔ)庫(kù),指導(dǎo)英語(yǔ)語(yǔ)言學(xué)教材編寫時(shí)的術(shù)語(yǔ)選用,同時(shí)也可以用作教材的附錄,供教材讀者使用。當(dāng)然,由于語(yǔ)料選擇的有限性和各種參數(shù)在量化精度上的局限性,術(shù)語(yǔ)表不可能窮盡一切術(shù)語(yǔ),而且由于學(xué)科在不斷發(fā)展之中,術(shù)語(yǔ)表也必須隨著時(shí)間推移而不斷更新。
2.1 步驟一: 運(yùn)用詞頻統(tǒng)計(jì)方法進(jìn)行初步篩選
步驟一運(yùn)用詞頻統(tǒng)計(jì)方法,篩選出候選的術(shù)語(yǔ),是對(duì)第一類方法的借鑒和發(fā)揮。
為了研制英語(yǔ)語(yǔ)言學(xué)語(yǔ)域的術(shù)語(yǔ)表,我們?cè)O(shè)計(jì)了一個(gè)自建語(yǔ)料庫(kù),包括四種語(yǔ)言學(xué)著作,并將它命名為 Linguistic Academic Corpus( LAC) 。四部著作分別是: Bussmann [12]的 Routledge Dictionary of Language and Linguistics; Kracht [13]的 Introduction to Linguistics; Saussure [14]的 Course in General Linguistics; 胡壯麟[15] 的《語(yǔ)言學(xué)教程》( 第五版) 。Routledge Dictionary of Language and Linguistics 是到目前為止詞條最多、聲望較高的語(yǔ)言學(xué)詞典,是學(xué)界同行最常擁有的工具書,涉及英語(yǔ)語(yǔ)言學(xué)的各個(gè)子學(xué)科,內(nèi)容完整、全面。其他三部都是普通語(yǔ)言學(xué)的經(jīng)典教材,它們涉及的術(shù)語(yǔ)比較全面,也比較規(guī)范。其中,Introduction to Linguistics 是 Marcus Kracht 根據(jù)自己在 UCLA 講授普通語(yǔ)言學(xué)時(shí)的講義編寫的教材,Course in General Linguistics 是根據(jù) F. de Saussure 在日內(nèi)瓦大學(xué)三次講授普通語(yǔ)言學(xué)的講義整理出版的遺著,《語(yǔ)言學(xué)教程》是國(guó)內(nèi)讀者熟悉的普通語(yǔ)言學(xué)的經(jīng)典教材,在內(nèi)容和語(yǔ)言的經(jīng)典性方面不遜于國(guó)外同類教材。四部著作的形符數(shù)( tokens) 為568 138詞,類符數(shù)( types) 為 27 828 詞。
在處理語(yǔ)料時(shí),我們使用了語(yǔ)料庫(kù)檢索軟件 Collocate 1.0,對(duì)語(yǔ)料中的 N 元詞組( N-gram) 進(jìn)行檢索,詞組長(zhǎng)度設(shè)定為 2~5 詞( 即 N= 2,3,4,5) ,以詞頻( Frequency,下文縮寫為 Freq) 為統(tǒng)計(jì)參數(shù),發(fā)現(xiàn)共有 86 918 個(gè)詞組類型,在下文中我們稱之為 LAC-86918,其中 2 ~ 5 詞的詞組分別是 39 339、 27 694、12 986、6899 個(gè)。表 1 是各種長(zhǎng)度詞組的舉例,它們分別是各組中詞頻最高的 10 個(gè)例子。
從表 1 可以看出,10 個(gè)頻率最高的 2 詞詞組只有 of language 與語(yǔ)言學(xué)相關(guān),3 詞詞組 只 有 the meaning of 與語(yǔ)言學(xué)相關(guān),4~5 詞詞組中與語(yǔ)言學(xué)相關(guān)的詞組稍多,共有 6 個(gè)與語(yǔ)言學(xué)有關(guān),而且,它們都不具備術(shù)語(yǔ)的名詞性范疇特征,或者是語(yǔ)義不完整,沒有明確的語(yǔ)義指向。對(duì) 4~5 詞詞組來(lái)說(shuō),詞組不具有單一的語(yǔ)義中心,如 trends in linguistics The Hague,或者說(shuō)它們具有跨句的組合性特征。所以,必須對(duì) LAC-86918 進(jìn)行較大規(guī)模地壓縮和精簡(jiǎn)。
2.2 步驟二: 運(yùn)用停用詞列表進(jìn)行二次篩選
對(duì) LAC-86918 進(jìn)行壓縮和精簡(jiǎn),是第二步的操作,即根據(jù)停用詞表( stopword list) 來(lái)進(jìn)行過濾和精簡(jiǎn),可以較大限度地區(qū)分術(shù)語(yǔ)與非術(shù)語(yǔ)。所謂的 “停用詞”,指高頻率的虛詞或與檢索目標(biāo)無(wú)關(guān)的高頻詞組。
使用停用詞表,符合第二類方法中的 NC-Value 理論( Frantzi et al 2000) ,它認(rèn)為在某些“重要”單詞語(yǔ)境中出現(xiàn)的候選術(shù)語(yǔ)應(yīng)該被賦予更高的權(quán)重, “停用詞表”的使用正是對(duì)這一原則的逆向使用,因?yàn)?ldquo;停用詞表”是可以認(rèn)定的“不重要”的單詞或詞組,可 以 把 它 們 或 與 之 搭 配 的 詞 組 過 濾 掉。 Domain Coherence [7]用 Basic 方法抽取最好的 200 個(gè)術(shù)語(yǔ)候選項(xiàng),再?gòu)乃鼈兊纳舷挛闹羞^濾其他詞性的單詞,過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動(dòng)詞和副詞,這種方法的逆向使用也與使用“停用詞表”的方法異曲同工,因?yàn)?“停用詞表”包含的過濾項(xiàng)包括各種虛詞( 還有 PL 和 AFL) ,過濾的結(jié)果與 Domain Coherence 方法只保留高頻名詞、形容詞、動(dòng)詞和副詞的方法在思路上是一致的。
從表 1 可以看出,LAC-86918 中包含了太多的虛詞成分( 如介詞、不定式的小品詞 to 等) ,另外還包含很多非學(xué)術(shù)的通用詞組和通用學(xué)術(shù)詞組,為了把這兩類詞組過濾掉,我們選擇了 PL 和 AFL 這兩個(gè)詞組庫(kù)。
PL 是 Martinez 和 Schmitt [16] 基于英國(guó)國(guó)家語(yǔ)料庫(kù)( BNC) 選取的 505 條非學(xué)術(shù)詞組庫(kù)( PHRASal expressions list) 。在 505 條非學(xué)術(shù)詞組中,有 119 條被兩位作者標(biāo)記為在書面文體中“少見或不存在”( rare or non-existent) ,只在口頭文本中有較大頻率,所以本研究只選取在書面文體中有較高頻率的 386 條短語(yǔ)( 386 = 505-119) ,包括 2 ~ 4 詞組成的非學(xué)術(shù)詞匯。
AFL 是由 Simpson-Vlach 和 Ellis [17]所創(chuàng)建的通用學(xué)術(shù)語(yǔ)料庫(kù)( academic formula list) ,總共 607 個(gè)詞組,包括三個(gè)部分,第一部分是在口語(yǔ)與書面語(yǔ)中均為高頻的 207 個(gè)核心詞組( core AFL academic formulas) ,第二部分是在書面語(yǔ)中高頻的 200 個(gè)詞組 ( written AFL top 200) ,第三部分是在口語(yǔ)文體中高頻的 200 個(gè)詞組( spoken AFL top 200) 。我們選取 207 個(gè)核心詞組和 200 個(gè)書面語(yǔ)詞組,共計(jì) 407 個(gè)。它們是由 3~5 詞組成的學(xué)術(shù)詞組。
選用 PL 和 AFL 的理由,是因?yàn)樗鼈兎謩e代表日常話語(yǔ)中的通用詞組和多學(xué)科的通用學(xué)術(shù)詞組,而本研究選用的語(yǔ)料是語(yǔ)言學(xué)語(yǔ)域的專門學(xué)科文本,其目標(biāo)是提取語(yǔ)言學(xué)語(yǔ)域的專門術(shù)語(yǔ),所以該術(shù)語(yǔ)表不會(huì)與 PL 和 AFL 交叉或共現(xiàn)。
運(yùn)用停用詞對(duì) LAC-86918 進(jìn)行二次篩選,得到 2 ~ 5 詞的術(shù)語(yǔ)分別為 6356 條、573 條、82 條和 25 條,總數(shù)是 7036,只有 LAC-86918 的不到1 /12。為了方便,我們把精簡(jiǎn)后的詞組庫(kù)稱為 LAC-7036。表 2 列出了 LAC-7036 中詞頻排序最高的 10 個(gè)術(shù)語(yǔ)詞組,這些詞組中大部分都具有術(shù)語(yǔ)的結(jié)構(gòu)特征,也體現(xiàn)術(shù)語(yǔ)的語(yǔ)義類型。
LAC-7036 的數(shù)量仍然太過龐大,而且,4 ~ 5 詞的詞組具有跨句的組合特征,許多外來(lái)語(yǔ)( 如 grammatica storica della lingua italiana) 也混跡其中,所以必須開啟第三步驟的篩選。
2.3 步驟三: 運(yùn)用互信息熵 MI 和詞組教學(xué)值 FTW 來(lái)進(jìn)行第三次篩選
第三步的篩選是運(yùn)用互信息熵 MI( mutual information) 和 詞 組 教 學(xué) 值 FTW ( formula teaching worth) 來(lái)體現(xiàn)語(yǔ)境的篩選功能,也是借鑒了上文的第二類方法[7,9]。我們先介紹一下互信息熵 MI 和詞組教學(xué)值 FTW。
互信息熵 MI [18]可以測(cè)量中心詞( node word) 和搭配詞( collocate) 之間的關(guān)聯(lián)強(qiáng)度 ( association strength) 或可搭配性( collocability) 。MI 的計(jì)算公式是: MI( x,y) = fobs( x,y) /fexp( x,y) 。在公式中,x 是中心詞,它的前后若干長(zhǎng)度內(nèi)的搭配詞為 y, MI( x,y) 是 x 和 y 之間的互信息熵。等式右邊是兩個(gè)函數(shù)式( f: function) 相除,x 與 y 的觀測(cè)共現(xiàn)頻數(shù) ( obs: observation) 的函數(shù) fobs( x,y) 為分子,零假設(shè)下中心詞與搭配詞的期望共現(xiàn)頻數(shù)( exp: expectation) 的函數(shù) fexp( x,y) 為分母[19]。
詞組教學(xué)值( FTW) 是 Simpson-Vlach 和 Ellis [17]提出的計(jì)算方法,用于評(píng)估教師在多大程度上認(rèn)為某詞組應(yīng)該成為教學(xué)內(nèi)容。FTW 是對(duì)互信息熵和詞頻的按比例取值,即 FTW = 0.56 MI +0.31 Freq,當(dāng)MI、Freq 和 FTW 三個(gè)參數(shù)取值相互沖突時(shí),SimpsonVlach 和 Ellis [17]的做法是 FTW 優(yōu)先。
所以,不管是 MI 還是 FTW,都或多或少地體現(xiàn)了詞組內(nèi)部各成分之間的相互期待,體現(xiàn)了“重要”的詞[7]與周邊詞之間相互吸引的強(qiáng)度,或者說(shuō)體現(xiàn)了“重要”的詞所受的語(yǔ)境約束的大小,所以 MI 和 FTW 一方面排除了詞頻對(duì)于術(shù)語(yǔ)遴選的唯一取舍功能,另一方面也可以彌補(bǔ)語(yǔ)料庫(kù)規(guī)模對(duì)于詞頻總數(shù)的影響。任何語(yǔ)料庫(kù)的規(guī)模都是有限的 ( 不管它實(shí)際有多大) ,一般來(lái)說(shuō),語(yǔ)料庫(kù)的規(guī)模越大,術(shù)語(yǔ)的出現(xiàn)頻次就越多,所以如果考慮 MI 并且將它與詞頻按一定比例折算成 FTW,就可以降低語(yǔ)料庫(kù)規(guī)模的影響。這種做法體現(xiàn)了上文第二類方法對(duì)于第一類方法的補(bǔ)足與糾偏。
我們遵循這種算法,把 FTW 的取值設(shè)定為 10.00,即只取 FTW 大于或等于 10.00 的詞組,得出 681 個(gè)語(yǔ)言學(xué)語(yǔ)域的術(shù)語(yǔ) 詞 組,我 們 稱 之 為 LAC-681,2~5 詞的詞組分別是 197 個(gè)、377 個(gè)、82 個(gè)、25 個(gè),在規(guī)模上又只有 LAC-7036 的不到1 /10,與 LAC-86918 相比只有不到 1 /127。對(duì) LAC-681 在此暫不舉例,因?yàn)樗譃閮刹糠郑渲幸徊糠质窃诘谒牟襟E( 見下一節(jié)) 的操作中被淘汰的部分,所以在下一節(jié)將有舉例,而保留的部分就是最終產(chǎn)品,即語(yǔ)言學(xué)語(yǔ)域的術(shù)語(yǔ)表。
2.4 步驟四: 基于人工語(yǔ)義判斷的第四次篩選
研究發(fā)現(xiàn),LAC-681 雖然經(jīng)過三次過濾,但仍然包含了較多非術(shù)語(yǔ)的詞組,必須進(jìn)行第四步的過濾。造成過濾不徹底的原因有兩個(gè): 一是在第二步驟中使用的停用詞表不可能剛好與術(shù)語(yǔ)詞組具有互補(bǔ)性,我們選擇停用詞表的原則是寧可過濾功能稍有欠缺,不可過濾功能太過強(qiáng)大; 另一個(gè)原因是 MI 和 FTW 的使用客觀上產(chǎn)生了一種負(fù)效應(yīng),因?yàn)樵究赡芡ㄟ^詞頻被過濾的非術(shù)語(yǔ)詞組,因?yàn)?MI 和 FTW 降低了詞頻的權(quán)重,所以一部分原本詞頻較低的詞組又進(jìn)入 LAC - 681 中,比如表 3 中的 tickling cookie monster 只出現(xiàn)了 2 次,但是它的內(nèi)部連貫性很強(qiáng),所以 MI 的取值高達(dá) 35. 02,結(jié)果 FTW 的值被拉高了,但它顯然不是語(yǔ)言學(xué)的術(shù)語(yǔ)。所以,為了把此類詞組過濾掉,必須借鑒上文的第三類方法,即運(yùn)用語(yǔ)料對(duì)比的方法,通過單詞在指定領(lǐng)域語(yǔ)料中的詞頻和其他語(yǔ)料中的詞頻進(jìn)行比較來(lái)排除。由于 LAC-681 的規(guī)模較小,所以我們采用人工判斷的方法,把語(yǔ)言學(xué)語(yǔ)域的詞組與非語(yǔ)言學(xué)語(yǔ)域的詞組區(qū)分開來(lái),排查的結(jié)果是剔除了 322 個(gè)詞組,其中有的詞組是語(yǔ)義不完整或者在結(jié)構(gòu)上 是 跨 句 的 詞 匯 組 合 ( 如 categorial grammar formal logic) 。表 3 是 322 個(gè)被排除的詞組中各種詞長(zhǎng)詞組 FTW 取值最大的 10 個(gè)例子,按 FTW 的降序排列。
排除了 322 個(gè)非術(shù)語(yǔ)的詞組后,余下的 359 個(gè)詞組就是最終產(chǎn)品,稱為 LAC-359,即語(yǔ)言學(xué)語(yǔ)域的術(shù)語(yǔ)表,其中第 1~97 是 2 詞術(shù)語(yǔ),共 97 個(gè),約占 27.02%,F(xiàn)TW 的平均值為 14.07; 第 98~320 是 3 詞術(shù)語(yǔ),共 223 個(gè),約占 62.12%,F(xiàn)TW 的平均值為 12. 85; 第 321 ~ 356 是 4 詞 術(shù) 語(yǔ),共 36 個(gè),約 占 10.03%,F(xiàn)TW 的平均值為 19.1; 第 357~359 是 5 詞術(shù)語(yǔ),共 3 個(gè),約占 0.83%,F(xiàn)TW 的平均值為26.1。在附錄中,每一種詞長(zhǎng)的術(shù)語(yǔ)都是按 FTW 的降序排列。
從上面的數(shù)據(jù)對(duì)比可以看出,3 詞術(shù)語(yǔ)最多,其次是 2 詞術(shù)語(yǔ),再次是 4 詞術(shù)語(yǔ),5 詞術(shù)語(yǔ)最少。從 FTW 來(lái)看,4 詞術(shù)語(yǔ)和 5 詞術(shù)語(yǔ)最高,它們的詞頻并不高,但是 MI 取值較高,即內(nèi)部成分之間具有較高的相互期待。2 詞術(shù)語(yǔ)和 3 詞術(shù)語(yǔ)的 FTW 相對(duì)偏低,它們的詞頻雖然較高,但是 MI 取值偏低。
3 結(jié)語(yǔ)
國(guó)外學(xué)者對(duì)術(shù)語(yǔ)的研制方法可以分為三類: 詞頻研究方法、利用語(yǔ)境的研究方法和語(yǔ)料對(duì)比的研究方法,他們各有優(yōu)勝之處,也各有其不足。本文提出的四步驟術(shù)語(yǔ)表研制方法吸納了三類方法的優(yōu)點(diǎn),同時(shí)回避了他們的不足。在四步驟方法中,第一步驟對(duì)應(yīng)詞頻研究方法,第二和第三步驟是語(yǔ)境研究方法的應(yīng)用和拓展,第四步驟是以人工篩選的方法體現(xiàn)語(yǔ)料對(duì)比的原則。通過對(duì) 56 萬(wàn)余字的英語(yǔ)語(yǔ)言學(xué)語(yǔ)料的多種操作,歸納出了 359 個(gè)英語(yǔ)語(yǔ)言學(xué)術(shù)語(yǔ)。本文的研究不僅是對(duì)英語(yǔ)語(yǔ)言學(xué)術(shù)語(yǔ)全面的嘗試性歸納,其中的研究方法可以應(yīng)用于各個(gè)學(xué)科的術(shù)語(yǔ)研究和術(shù)語(yǔ)表的研制。由于語(yǔ)料選擇的有限性和各種參數(shù)在取值上的局限性,LAC-359不可能窮盡一切術(shù)語(yǔ),而且受到學(xué)科發(fā)展階段性特征的局限,術(shù)語(yǔ)表還必須隨著時(shí)間推移而不斷更新。
本文的術(shù)語(yǔ)提煉方法,對(duì)于其他學(xué)科具有同等的適用性。但是,鑒于本文的語(yǔ)料是英文,如果其他學(xué)科所采用的語(yǔ)料是中文,而且中文是音節(jié)文字,詞句間有不同的斷句方法,所以我們建議采用多種方法對(duì)語(yǔ)料進(jìn)行分詞( parse) ,在分詞結(jié)果各不相同的前提下,建議采用“投票”軟件( 軟件名為 vote) 。英文或其他印歐語(yǔ)言的語(yǔ)料,詞與詞之間有空格分開,無(wú)須進(jìn)行分詞操作。
我們建議同時(shí)使用 hanlp、jieba 和 thulac 這三種分詞軟件,以《語(yǔ)言學(xué)綱要》[19]第一章第一節(jié)第一段為例,三種分詞效果對(duì)比如下。
hanlp 的分詞效果: 語(yǔ) 言/的/功 能/是/客 觀 存 在/的/。/功 能/既是/語(yǔ)言/的/屬性/,/也/是/我們/認(rèn)識(shí)/語(yǔ)言/的/一個(gè)/視角/。/語(yǔ)言/的/功能/是/多方面/的/,/如果/ 從/寬泛/的/意義/上/講/,/大致/都可/歸入/語(yǔ)言/ 的/社會(huì)/功能/和/思維/功能/兩/個(gè)/方面/。/
jieba 的分詞效果: 語(yǔ)言/的/功能/是/客觀存在/的/。/功能/既/ 是/語(yǔ)言/的/屬性/,/也/是/我們/認(rèn)識(shí)/語(yǔ)言/的/一個(gè)/視角/。/語(yǔ)言/的/功能/是/多方面/的/,/如果/ 從/寬 泛/的/意 義/上/講/,/大 致/都/可/歸 入/語(yǔ)言/的/社會(huì)/功能/和/思維/功能/兩個(gè)/方面/。/
thulac 的分詞效果: 語(yǔ)言/的/功能/是/客觀/存在/的/。/功能/既/ 是/語(yǔ)言/的/屬性/,/也/是/我們/認(rèn)識(shí)/語(yǔ)言/的/一個(gè)/視角/。/語(yǔ)言/的/功能/是/多方面/的/,/如果/ 從/寬 泛/的/意 義/上/講/,/大 致/都/可/歸 入/語(yǔ)言/的/社會(huì)/功能/和/思維/功能/兩/個(gè)/方面/。/
分歧存在于每段中的劃線部分,所以必須采用 “投票”程序,對(duì)三種分詞效果進(jìn)行“投票”,體現(xiàn) “少數(shù)服從多數(shù)”的原則。
投票結(jié)果: 語(yǔ)言/的/功能/是/客觀存在/的/。/功能/既/ 是/語(yǔ)言/的/屬性/,/也/是/我們/認(rèn)識(shí)/語(yǔ)言/的/一個(gè)/視角/。/語(yǔ)言/的/功能/是/多方面/的/,/如果/ 從/寬泛/的/意義/上/講/,/大致/都可/歸入/語(yǔ)言/ 的/社會(huì)/功能/和/思維/功能/兩/個(gè)/方面/。/
分詞后,還必須進(jìn)行人工校對(duì),比如將“客觀存在”分成兩個(gè)詞。國(guó)內(nèi)各學(xué)科的同行使用的語(yǔ)料一般是中文語(yǔ)料,可按上述方法處理語(yǔ)料。在語(yǔ)料處理完成之后,對(duì)于處理結(jié)果的統(tǒng)計(jì)和人工校對(duì)可以借鑒本文的方法。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >