Tag: 假設

一個能夠搜尋平衡語料庫和華語文語料庫(COCT)的方法：透過CQP語法進行語料檢索

Post author By Dicky
Post date May 7, 2017
Categories In 語料與統計分析
6 Comments on 一個能夠搜尋平衡語料庫和華語文語料庫(COCT)的方法：透過CQP語法進行語料檢索

每每聽到「○○○語料庫『不好用』」的時候，「不好用」包含了許多可能性。它可能指的是語料庫的語料不夠多(數量)，也可能指的是語料庫所涵蓋的文體或範圍(質量)並非使用者所期待。學了一些入門的語料庫檢索的方法之後，我想大部分人在說「○○○語料庫『不好用』」這句話的時候，想表達的應該是「○○○語料庫(界面)的查詢功能『不好用』」。中央研究院的平衡語料庫自2007年開始未再更新，而檢索界面看起來最後設計是在2013年，它透過勾選、搜尋框和下拉選單等網頁工具給人一種「很好用」的印象。國家教育研究院的華語文語料庫(COCT)則自2013年開始蒐集語料，其語料數量已經超過平衡語料庫，同時透過國教院語料索引典系統的設置，在同一個系統內，可以檢索不同的語料庫(目前開放的為中研院平衡語料庫4.0、COCT 口語語料庫、華語中介語語料庫、COCT 書面語語料庫)的語料。索引典系統還「不太好用」，因為它還不能透過人類直觀的感覺去進行查詢，使用者必須學習電腦的語言(Simple Query或Corpus Query Processor, CQP)，才能找到符合要求的語料。在CQP的表示式中，[word=”把” & (pos=”Nf” | pos=”Na”)]的意思是查詢「把」這個詞中，屬於詞性是Nf和Na的語料。Nf和Na就是語料庫中，透過斷詞系統或人工檢查所標註的詞性，中研院詞類標記列表有所標註的代號。 CQP包含下面萬用字： [word=”好高.遠”].代替一個字 [word=”哈*”]*前字重覆0~n次 [word=”副.+”]+前字重覆0~n次 [word=”[台臺]灣”] [AB..]任選一個字 [word=”一[^百千萬]二[^百千萬]”][^AB…]否定一組字 [word=”(台北|高雄)市”]“(X|Y)Z”任選一組字根據上面的表示式和萬用字，我們可以就可以對電腦說很多話。假設我現在要查四字格裡頭，第一個字是「生」，第二個字是「死」的時候，我就可以用以下表示式：[word=”….”&char(word,0)=”生”&char(word,1)=”死”]同理，我可以請電腦幫我找，第一個字是「生」，第三個字是「死」[word=”….”&char(word,0)=”生”&char(word,2)=”死”]第一個字是「生」，第四個字是「死」[word=”….”&char(word,0)=”生”&char(word,3)=”死”]第二個字是「生」，第三個字是「死」[word=”….”&char(word,1)=”生”&char(word,2)=”死”]第二個字是「生」，第四個字是「死」[word=”….”&char(word,1)=”生”&char(word,3)=”死”]第三個字是「生」，第四個字是「死」[word=”….”&char(word,2)=”生”&char(word,3)=”死”] 接著我可以用|把上面這些條件取聯集，我就得到一個「四字格裡頭，包含『生』和『死』兩個字，而且『生』在前面，『死』在後面」的表示式[word=”….”&char(word,0)=”生”&char(word,1)=”死”]|[word=”….”&char(word,0)=”生”&char(word,2)=”死”]|[word=”….”&char(word,0)=”生”&char(word,3)=”死”]|[word=”….”&char(word,1)=”生”&char(word,2)=”死”]|[word=”….”&char(word,1)=”生”&char(word,3)=”死”]|[word=”….”&char(word,2)=”生”&char(word,3)=”死”] 跟日本人說話，我們要用日語；跟泰國人說話，我們要用泰語；跟語料庫說話，我們可以用第四代語料庫語言CQP。當然，有時候找個日語翻譯或泰語翻譯也是解決溝通上的方法，而和語料庫溝通的翻譯就是那些擁有資工專長的人們。 CQP的使用可以參考中國外語教育研究中心許家金的使用手冊。

我讀陳振宇的《整合分析》：「虛無假設統計檢定」的推論、作法與不足

Post author By Dicky
Post date November 15, 2016
Categories In 學術與投稿, 個人觀點與評論
No Comments on 我讀陳振宇的《整合分析》：「虛無假設統計檢定」的推論、作法與不足

研究者心裡面有一個所欲論述的假設(對立假設)，與之相反的就是虛無假設。研究者盡力收集證據的情況下，仍沒有足夠的證據能夠支持虛無假設時，研究者於是可以認為對立假設為真。通常，研究者所欲證實的假設，指的是某個變項所進行的操弄是有效果；而虛無假設則是操弄沒有效果。每一次研究的觀察都可能出現抽樣的誤差。該次的抽樣所觀察到的效果可能是真實的，也可能是來自沒有效果的母群抽樣。於是，研究者必須採取某種標準判斷。以大多數專業期刊所採取的標準或顯著水準0.05為例，即該研究者認為如果來自沒有效果的母群抽樣的機率不到5%的話，那麼研究者願意判定這個效果不是來自虛無假設的母群，而宣稱對立假設成立。宣稱對立假設成立的同時，虛無假設仍有最高5%的機率為真的可能性。如果這樣的情況發生了，就是型一誤差。不過，只要沒有進行普查的話，我們永遠不知道型一誤差是否會發生。「虛無假設統計檢定」的推論，決定選擇虛無假設或對立假設取決於研究者所採取的顯著水準。想像以下兩種情況，甲情況下p值是0.1，乙情況下p值是0.77，在顯著水準備為0.05的前提下，不論在甲情況或乙情況下，研究者都會選擇接受虛無假設，但是甲乙兩個情況下的檢定統計量可能是天差地遠。如果將顯著水準設為0.1，在甲情況下，研究者會拒絕虛無假設，而乙情況下仍會接受虛無假設。結果，只因為研究者的風險設定，就會決定了最後統計的判定和推論。陳振宇. (2013). 整合分析. In 社會及行為科學研究法(三)：資料分析 (3版.). 臺北市: 臺灣東華.

東南亞商貿與文化概論：印度化的東南亞(緬甸)

印度化印度化 vs. 漢化婆羅門教的種姓制度(06:00) vs. 佛教的慾望使自己痛苦(12:30) 問題與討論：如果你是古代東南亞城邦的領袖(假設當地只有萬物皆有靈的泛靈信仰(animism))，你會選婆羅門教或佛教作為國家信仰的宗教來治理跟隨你的人？蒲甘王朝袈裟革命/番紅花革命緬甸的民主化進程 http://www.bbc.com/news/world-asia-16546688?SThisFBhttp://www.storm.mg/article/73779 羅興亞難民問題與討論：你認為台灣可不可能提供難民庇護？台灣要付出什麼樣的代價？http://wknews.org/node/775http://www.storm.mg/article/50795http://udn.com/news/story/1/1736727https://www.amnesty.tw/news/1992http://newtalk.tw/news/view/2015-05-20/60339 毒品泛濫問題與討論：你覺得應該要禁種罌粟嗎？如果不種誰會受影響？https://zh.wikipedia.org/wiki/%E7%BD%8C%E7%B2%9Fhttp://blog.xuite.net/wjk0165191/twblog/137368594http://finance.big5.anhuinews.com/system/2005/06/28/001293591.shtmlhttp://zhidao.baidu.com/question/583558446.html