【第2回 e-TeachingAward】補足資料2_小川先生
5/12

249 図4 北京大学CCL語料庫検索系統検索画面図5 Ubuntu910上での自動用例収集画面中国語コーパスを活用した中級語彙3,000語の選定でもない。諸家の語彙集を参照したとはいえ、日頃の共学経験という極めて経験的な「カン」に拠って編まれたものであり、科学的な根拠に乏しく、 1,000語以上の語彙集を編むための方法論としては薄弱すぎる。そこで現代中国社会での利用頻度の高い語彙を計量的に把握するための方法として、中国語コーパスを利用することにした。2.2.中国語コーパスの現況 大規模中国語コーパス(語料庫)として、現在良く存在が知られているのは、「北京大学CCL語料庫検索系統」(http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp)と「国家語言資源監測与研究中心」(http://202.114.40.172:9090/cqs/)であろう。このほかにも台湾の中央研究院、香港城市大学も語料庫を提供しているほか、日本の関西大学では中国語教科書の例文データをコーパスとして提供している。 このなかで先駆的な存在は北京大学であり、士汶教授を中心とする研究グループによって『現代漢語語法信息詞典』(清華大学出版社)が刊行されている。北京大学コーパスは現代中国語で利用される文例語彙を幅広く収集するために、その素材を新聞雑誌から文学作品に至るまで広く網羅し、テキストデータでおよそ3億字(2009年7月20日現在)を蓄積している。 中国語コーパスは基本的に動詞などを中心とする語法用例の収集が目的であり、語彙頻度に着目する研究は必ずしも多いとは言えなかったが、近年はコーパスデータに基づく『現代漢語常用詞表』(商務印書館)が2008年に、『中国語言生活状況報告』(商務印書館)が2005年より毎年刊行されるようになった。こうしたデータも援用することによって、よりアップデートな語彙集を編むのが私たちの狙いである。2.3.用例収集及び自動推薦システム(詹善斌) 以上の意図を実現するために、私たちはHSKの語彙集を検証するところから、作業を始めた。北京大学のコーパスはウェブ上で公開されている。本学の理工学術院の詹善斌氏(博士後期課程在学)の助力を得て、用例収集作業をPerlによって自動化し、HSK単語の用例数

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer10.2以上が必要です