當p值小於.05的時候,進行假設檢定的人就可以推論實驗組和對照組有差異的機會在20次當中,只會有不到1次。而當我們真得遇見這樣的可能性時,我們就可以大膽地說實驗組和對照組確實存在差異。但是僅僅透過點估計(point estimate),很可能因為抽樣誤差而對於實際的情況有誇張或不足的推論。只看統計顯著性的p值,是無法告訴我們差距大小。信賴區間(confidence interval)是p值無法告訴我們的。越小的樣本,信賴區間會越大、越寬;相對的,大樣本,的信賴區間小,研究者就更有信心地說樣本的推論接近母體。 當實驗組和對照組的操弄或處理的效果是非常小的時候,要說明兩個組別確實存在差異時,可能就不夠力(powerful)。假設實驗處理只有很小、很小的效果,當樣本數也非常小的時候,它的信賴區間便會擴大,於是可能存在的效果就會被遺忘在較大的信賴區間裡了。 即使樣本夠大,它可以說明母體具有統計上的顯著的差異,但是只靠p值仍無法知道這樣的效果究竟多大,也許這樣的效果根本不值得我們去追求。 只看p值就會遇到以上的問題,它有點像一人一票(vote-counting),只看最後的結果。如果我們想知道實驗組和對照組的差異多大時,這是p值無法提供的。 Hunt, M. (1999). How Science Takes Stock: The Story of Meta-Analysis (Revised ed. edition). New York: Russell Sage Foundation.
Tag: 語言學習
我讀《Foundations of Bilingual Education and Bilingualism》的〈Bilingualism: Definitions and Distinctions〉二
和杭士基使用了相同的術語:語言能力(language competence)和語言表現(language performance),但是Bachman將語言能力的內涵再進行了充實。在Bachman的模型裡頭,語言能力不只包括語法的知識,還包括在特定脈絡下使用語言的知識。具體內容可以再分兩大能力:組織能力和語用能力。組織的能力包括語法的能力和篇章的能力。語法的能力將句子內的詞彙以正確的順序呈現;篇章的能力則可以在口語或書面下使兩句以上的句子有連貫的呈現。 語用的能力則包括工具性的能力和社會語言的能力。工具性的能力,是以語言進行下面四個功能:傳達意義、達到目標、解決問題和捏造幻想。社會語言的能力則可以對於不同地區、不同風格的語言具有敏感度。 這些能力都是在和其它人互動時所不可或缺的能力,Bachman與Palmer(1996)則這它們視為一種策略的能力(strategic competence),
我讀《Foundations of Bilingual Education and Bilingualism》的〈Bilingualism: Definitions and Distinctions〉一
雙語論在討論到個人層次的時候,有兩個互相對立的觀點,它們分別是以單語觀的雙語論以及全面的雙語論。單語觀的雙語論也有人稱為「片斷式」(fractional)的雙語論,這樣的論點認為雙語者就是「兩個單語者所合成的一個人」。在這樣的論點下,「單語」才是「正常」的、「純淨」的,以台灣為例,即便在社會上存在以華語為第二語言的雙語者,這些雙語者仍會被要求以同華語母語者的標準去要求對於華語的閱讀或成就測驗。如果這些雙語者的華語無法同母語者的華語,那就要求他們的兩個語言都能達到熟練的程度,特別是他們的華語。當這些人的華語無法達到熟練的程度時,他們可能被視為弱勢。在台灣,新移民、新移民之子、未受過國民義務教育的皇民或少數語言的繼承者,就會被要求去參加識字班或體制外的語言課程。 相對於單語觀的雙語論,另一個對立的觀點就是全面的雙語論。全面的雙語論再認為雙語者是兩個單語者的總合,而認為一個雙語者,同一個華語單語者或者一個英語單語者一樣,都有它獨特的一面。如果一個華語單語者是短跑的選手、一個英語單語者是跳高的選手,那華語英語雙語者可能是跨欄的選手。要求跨欄的選手去和短跑選手比短跑或跳高的選手比跳高,是一個不公平的要求。全面的雙語論認為,即便雙語者和雙語者自己比較都不應該存在。雙語者的語言使用可能在任何情境下,某些情境下用某個語言,甚至混雜著使用兩個語言都有可能。全面的雙語論是理想,往往在現實條件下無法實現,尤其面對人力需求市場的挑戰時。
我讀《Foundations of Bilingual Education and Bilingualism》的〈The Measurement of Bilingualism〉二
當我們把實施語言考試的人,放在政治的脈絡下,作為一個政治的實體去思考的時候,我們可以把這樣子思考的角度作稱為「批判性語言測驗」(critical language testing) (Shohamy, 1997, 2001, 2006)。 「批判性語言測驗」主要問的問題包括「議題」和「誰的知識」: 測驗是測誰所關心的議題?不論是明文或隱藏的。透過測驗傳遞了什麼樣的政治或教育意涵?實施語言考試的人要自問,自己想創造一個什麼樣的社會語言願景?例如,語言考試要滿足既有的課程、流利級目標,或都仍有其它隱藏的目的? 測驗的知識是屬於已經確立、相對穩固的知識或者仍在辯證、尋求進行一步研究的知識?語言測驗的成績對於受試者而言有什麼樣的意義?受試者如此使用這個成績? 「測驗」變成假客觀之名,滲透主觀權力到每個受試者身上的工具。社會的知識建立在社會大眾對於測驗結果的恐懼和信任。測驗滲透了實施考試的人的主觀控制,並將非主流的人排除在外。於是,「測驗」也變成由少數人控制的工具。出題的人和教學的人如果是同一個的話,「測驗」就難免會淪為政治的工具。
我讀《Foundations of Bilingual Education and Bilingualism》的〈The Measurement of Bilingualism〉一
常模參照考試(norm-referenced test)和標準參照考試(criterion-refrenced test): 常模參照考在解釋個別評量結果時,所參考的對象是以該樣本團體的平均數為標準,依其在團體中所占的相對位置來解釋個別評量結果的教學評量方式 。這種評量的內涵,即是在比較個人得分和他人得分之間的高低。常模參照評量的目的,旨在區分學生彼此間的成就水準高低,以作為教育決策之用。 而標準參照考試於解釋個別評量結果時,所參考的對象是以教師在教學前即已事先設定好的效標為依據,依其是否達到這項標準(達成者即為學習「精熟」,未達成者即為學習「非精熟」)來解釋個別評量結果的教學評量方式。標準參照考試的目的,旨在找出學生已經學會和尚未學會的原因或困難所在,以幫助教師改進教學和學生改進學習。 語言能力(language competence)和語言表現(language performance): 「語言能力」,根據杭士基(Chomsky)的說法,是語言的心理表徵,屬於內隱的、非外顯的心智系統。 「語言表現」,則是「語言能力」外顯的證據。藉由觀察人們對於語言的理解和產出,以推論在人們在進行語言表現的時候存在語言能力。
「國際華語研習所」(International Chinese Language Program, ICLP)及「中國語文組」(Chinese Langauge Division)參訪
「國際華語研習所」(International Chinese Language Program, ICLP)的前身是「跨大學華語研究所」(Inter-University Program for Chinese Language Studies, IUP),由美國史丹佛大學,民國50年於國立台灣大學成立。民國八十六年,北京另外成立了「跨大學華語研究所」,原有師資、教材、傳統由「國際華語研習所」接棒交給國立台灣大學。目前由台灣大學外國語文學系的系主任梁欣榮教授兼任所長,而研究所執行長則由資深華語教師陳立元教授擔任。該單位其為學習華語的外國人提供華語教學服務,學生多為漢學家、律師、商人、外交官等,可以說是菁英中的菁英,其畢業學生有75巴仙進入學術界服務,25巴仙為法、政、商界要角。「國際華語研習所」以開設專業華語課程馳名,在我們造訪的時間,正好碰到正在上佛教華語的課程。其內容包括:「摩訶迦葉」、「頭陀第一」等,光是能用華語把上面這些名相念出來就不容易了,更何況要去解釋甚至說明歷史。這也顯示「國際華語研習所」的師資是獨步於台灣,甚至是整華人圈的華語教學界的。每一學期「國際華語研習所」招收學生約一百到一百五十位左右,超過的也不再收,學術表現或語言能力未達標準的也不收。目標市場很明顯地就鎖定在菁英階層。在學期結束前,學生們也被要求要以華語進行口頭報告。 在同一個建築物下的另一個華語教學單位,則是隸屬於台灣大學文學院語文中心的「中國語文組」(Chinese Langauge Division),其於民國73年成立。目前由台灣大學中國文學系林宏佳教授擔任組長,主要業務由蔡宜倩幹事執行。並由組內華語老師共同推舉三個委員組成教務小組進行組內業務的決策、人事異動、課程規劃、組織發展等等。 「中國語文組」開設有學期密集班課程,並提供國立台灣大學外藉生、交換生授予學分的華語課程,同時以豐富、多元的選修課程為其特色。並積極向海外招生,例如:赴美國參加華語教育展。根據幹事的評估,目前海外華語教學市場(美國)需求以駐點教師和國內教材為大宗。中國語文組目前尚未有自己發行的華語教材,主要華語教材為《實用視聽華語》、《生活華語》、《迷你廣播劇》和《新聞選讀》,和國內華語中心的情況類似。每學期註冊學生約有200到250人,目前以日本為最大宗,但是美國、印尼和越南學生數也在成長。 我們再把台灣大學的「華語教學碩士學位學程」與前面的「國際華語研習所」和「中國語文組」一起比較看看。「華語教學碩士學位學程」是由語言學研究所、中國文學系、外國語文學系共同組織而成的學程,並沒有專責機構對華語教學進行人才培育。「國際華語研習所」,由外國語文學系的系主任兼任,可以說是隸屬於外文系;「中國語文組」則由中國文學系的教授擔任組長,也可以說是隸屬於中國文學系。換句話說,台灣大學的華語教學就是在多方共同支援下所成的游擊組織。當然,換個角度想,台灣大學或許也考量國際華語教學市場並沒有新聞媒體、華僑或懷抱高度熱忱的華語老師們所稱「中文熱」,所以對於相關單位的設立也相對嚴謹而保守。
我讀Marina Vasilyeva, Heida Waterfall and Janellen Huttenlocher的《Emergence of syntax: commonalities and differences across children》
來自不同社經背景地位(socioeconomic backgrounds, SES)的嬰兒是否會句法的表現會有不同?或者有什麼部分是相同的?《Emergence of syntax: commonalities and differences across children》從嬰兒二十二個月大起開始觀察記錄,每四個月再去造訪一次這個嬰兒,直到嬰兒長到四十二個月大,每個嬰兒只少有五次家訪記錄,每次家訪記錄以錄像攝影九十小時,總共對四十五個嬰兒進行記錄。記錄的內容分為簡單句和複雜句,結果發現不論來自高社經地位或低社經地位的嬰兒,簡單句的產出存在相同的軌跡;而複雜句的部份,高社經地位的嬰兒較有優勢。杭士基(Chomsky, 1965)指出不論來自哪個語言環境的小孩,語料的輸入所扮演的功能就是用來啟動小孩子對於其語言參數設定的可能性。因此句法的發展也應該每個人都是一樣。然而,我們卻發現不同個體之間存在系統性的差異,這差異的來源有人說是個體基因上的變異(Pinker, 1994; Pinker & Bloom, 1990),也有人說是來自和其輸入的語言有關(Tomasello, 2005; Tomasello & Brooks, 1999)。 過去檢查系統性差異的指標包括麥克阿瑟的溝通發展庫(MacArthur Communicative Development Inventory, CDI)、平均言談長度(mean length of utterance, MLU)以及語法知覺測試(Test of Reception of Grammar, TROG)。溝通發展庫包括句子的長度和複雜度,主要由父母親的自我報告;平均言談長度則計算句子中出現的字詞或詞素數量,這無法體現結構的複雜度;語法知覺測試則包括簡單句和複雜句,但複合子句(multi-clause sentences)的佔比仍少。 《Emergence of syntax: commonalities and differences across children》直接對嬰兒進行錄像、將語料轉寫,再分別對於簡單句和複雜句進行分類。簡單句包括只使用一個動詞的問句(questions)、直述句(declaraatives)和祈使句(imperatives);而複雜句類包括情態動詞(modal verbs)和時態(emerging modals),包括:連結兩個動詞的聯合式(coordination)、受詞補語(objective complement)和受詞關連(objective relative)等。結果發現不論來自高社經地位或低社經地位的嬰兒,簡單句的產出存在相同的軌跡;而複雜句的部份,高社經地位的嬰兒較有優勢。 不可否認複雜句能夠表達複雜的思想,然而大多數人類溝通時的語言以簡單句為主,而且複雜句在日常生活中被使用的機會也少於簡單句。如果社經地位的差異造成複雜句的發展,那麼不論來自哪個社經背景而天生就會的簡單句是否就是人類所與生俱來的語言能力呢?
我讀曹峰銘(Feng-Ming Taso)、劉惠美(Huei-Mei Liu)和Patricia K. Kuhl《Speech Perception in Infancy Predicts Langauge Development in the Second Year of Life: A Longitudinal Study》
從語言學這個學科發展的角度來看,歷史眼光中總是告訴我們存在一個統一的語言部門。儘管如此,人們因為基因的差異仍可能存在變異(Fodor, 1983; Pinker, 1994)。《Speech Perception in Infancy Predicts Langauge Development in the Second Year of Life: A Longitudinal Study》一文就是試圖告訴我們,語言能力屬於天生的之中仍有變異性,而這個證據就是六個月大嬰兒對於語音感知(phonetic perception)的能力能夠用以預測其在十三個月大、十六個月大和二十四個月大時的語言能力。其中,語言能力以麥克阿瑟的溝通發展庫(MacArthur Communicative Development Inventories)作為測量指標。早期,人們透過高頻的奶嘴吸吮(high-amplitude sucking, HAS)去作為嬰兒判別語音的指標,透過嬰兒對於新語音的興奮,而使吸吮頻率提高以推論嬰兒具備辨別兩組語音的差別。近期,有人使用頭轉(head turn, HT)實驗,除了能夠依組別分出可區辨和不可區辨外,還可以更詳細也記錄個體之間的差異。而個體之間的差異的跨度,以本研究為例,正確率可以從47巴仙到97巴仙,而達到正確的門檻可以從7次到29次之多(30次為極限,超過30次未能達成任務即排除)(Tsao, 2004)。 要求受試者要判別的語音是芬蘭語裡頭的母音/u/和/y/,若給英語母語成人聽這兩個母音,他們可能會對應到英語裡頭的/u/和/i/母音,而不會將它們視為外國語音。然而其物理特徵是有差別的,芬蘭語的/u/和/y/的第一共振峰和第二共振峰與英語/u/和/i/的第一共振峰和第二共振峰都存在差異。把兩個對於英語環境下的嬰兒都是新奇語音的/u/和/y/來測試,透過頭轉實驗記錄六個月大的嬰兒能夠辨別新舊語音的最小次數以及正確判斷新舊語音的機率。 接著,在十三個月、十六個月和二十四個月的時候,由嬰兒父母填寫麥克阿瑟的溝通發展庫的問題作為嬰兒在詞組理解(phrases understood)、字詞理解(words understood)、字詞產生(words produced)、早期手勢(early gesture)、晚期手勢(late gesture)、不規則字詞產生(irregular words produced)、語法複雜度(grammatical complexity)等項目的語言表現。在多個項目中,都發現六個月大嬰兒對於語音的辨識能力能夠預測語言能力。 除了在專屬的、天生的語言能力,而個別的差異能夠解釋這樣的實驗結果外,或許認知能力(例如:專注力或學習能力)也可以用以解釋這樣子的差別。當六個月大的嬰兒在頭轉任務中具有較好的認知能力時,也許這是獨立於天生的語音能力,而使小嬰兒能夠在對於字彙的學習配對上有較好的表現。
我讀Miriam Dittmar、Kirsten Abbot-Smith、Elena Lieven和Micheal Tomasello的《German Children’s Comprehension of Word Order and Case Marking in Causative Sentences》
英語和德語是兩個在語言結構上具有差異的語言,特別在格標記(case marking)方面。德語句子所提供的語法線索包括語序(word order)和格標記,這提供了使用德語的人辨視致使句(causative sentence)裡頭的施事(agents)和受事(patients)。The dax mibbed the gazzer.The toma mibbed.The toma the gazzer mibbed. 在前面第一句和第二句中,我們都可以透過語序來對於句子中的名詞進行語義角色的指派,第一句是致使句,前者是施事,後者是受事;第二句則是唯一名詞進行唯一動作。但第三句,我們不禁會問是誰對誰做了mib這個動作? 在德語中,除了語序之外,還有什麼線索?德語還有主格和受格的區分,在陽性名詞的主格前會使用der前綴,而受格之前則以den前綴;在陰性名詞的主格和受格則都以die前綴。這比起英語只在代名詞作主格和受格的區分,有更多的線索。再來就是主詞和動詞的一致,如第三人稱動詞後綴s。最後,就是靠語義的動物性(animacy)作為線索。 貝特和馬惠尼(Bates & MacWhinney, 1987, 1989)就提出了競爭模型(competition model)以評估幼童如何對於不同語言的不同線索的習得提出解釋,同時當線索之間彼此衝突的時候,能夠來權衡哪個線索扮演較大的角色。為了把不同線索給量化,該模型有三個指標:線索量度(cue availability)、線索信度(cue reliability)和線索成本(cue cost)。線索量度就是頻率,線索信度就是在該語言中的一致性,線索成本則是線索的複雜度。例如在致使句中,語序和格標記都能夠提供施事和受事的辨視時,這就達到了一致性(coalitions)。以英語和義大利語小孩子為例,當我們設計實驗語料去破壞這一致性的時候,就可以發現英語的小孩仍以語序是否合語法的根據,而義大利語的小孩則以動物性作為判斷句子是否合語法的根據(Bates, 1984)。同樣的模型,還能檢驗希伯來語裡頭,小朋友主要依線索量度判斷句子合語法否,成人則依線索信度判斷。檢驗線索成本的研究較少,格標記可以視為當地線索(locas cues),因為它和名詞視為一個整體,而語序則是分散線索(distributed cues),因為它可能分佈在整個句子,對於人類的短期記憶有稍大的負擔。後者的複雜度,就比前者高。 這一個研究就是要透過新造動詞(novel verbs)去了解德語小孩對於德語習得時在語序和格標記的權重。該實驗所設計的語料有三大類,一類是格標記和語序都屬於典型的,也就是第一個名詞就是施事、第二個名詞就是受事,而且排除動物性的干擾並符合格標記;第二類是只存在格標記,而名詞出現的順序是先受事才施事,設計為讓語序和格標記是衝突;第三類是格標記模糊,只有語序唯一的線索。第四類則是熟悉的的動詞。其中,第二類這樣有衝突的是最難判斷的類型,也將會是說明德語習得最有力的證據。 研究先透過兒童指導言語(child-dricted speech)語料庫去計算其致使句中的線索量度、線索信度,再依線索量度和線索信度得到線索效度(cue vlidity)。接著透過演出理解任務(act-out comprehension)和手指指出的任務去得到受測者對於設計語料的判斷。 結果顯示在演出理解任務中,只有熟悉的動詞在兩歲7個月大的孩童中有統計上的顯著說能夠判別合語法否;但四歲10個月大的孩童中,除了第二類有衝突的語料外,其它三類都能有顯著。考量這是因為任務難易度使其表現受到限制。而手指指出的任務中,又多了七歲3個月大的嬰兒的組別,依序從兩歲7個月、四歲10個月到七歲3個月,在詞序的表現上是由低到高再到低,但格標記的表現則是陸續升高。這似乎說明人們預設的是以詞序作為語言理解,而透過外在環境(當然,也有可能是個體發展、成熟)而能夠以格標記來理解語言。
我讀宗像裕子(Yuko Munakata)的〈Graded representations in behavioral dissociations〉
一個本來在越南會修燈泡的人,來到台灣之後,你用你的華語去請他修燈泡,他聽不懂,所以你把這個越南人當成小孩子看待;檢視患有威廉氏症的病人所說的話,他的語句完全符合語法,但語義上是無法讓任何人理解的。過去,科學家們會利用語言和認知是兩個分開的、解離的行為去解釋這些現象。宗像裕子(Yuko Munakata)以漸進的、分級的表徵(graded representations)去重新解釋這些行為解離的現象。有時候同樣的行為,在不同的實驗任務下,卻會有不一樣的表現。如果我們將這些表現記錄為「有」和「沒有」的話,於是我們在研究的結論就很容易跑出解離的結論。但是不一樣的實驗任務,對同樣的行為表為卻不一樣的的行為記錄。這讓我們反省或許這和任務設計有關,任務本身是對於同一個行為有低度表徵(weak representations)和高度表徵(strong representations)的差異,而我們將這些表徵約略為一和零的差別了。 音韻失讀症(phonological dyslexia)的病人有這樣的狀況,當他看到「nust」的時候,他唸不出來。即便正常母語者知道這是非字詞(non-word),他們仍唸出個什麼東西來。但是如果說給病人聽的話,他就唸得出來了。過去的研究就用認知和語言是解離的觀點去解釋這樣的症狀:詞彙的、語義的屬於認知部份;語音的、語法的、結構的、規則的屬於語言部份,所以音韻失讀症的人只能唸得出字詞,非字詞是唸不出來的。 然而,如果你重覆讓這個音韻失讀症的病人聽標的非字詞,甚至給他書寫系統上、語義上、語音上等支持。原先無法唸出來的「低度表徵」會慢慢往「高度表徵」轉變。在神經網絡的模型下,也可以說是由於書寫系統、語義和語音的互動下,使得神經元活化而連結再生。 宗像裕子提出分級的表徵讓我們可以理解解離在不同面相可能發展或解釋的說法,但也不是所有解離都可以運用分級的表徵去解釋。