CORPUS LING

1. รหัสวิชา 2209673

2. จำนวนหน่วยกิจ 3 หน่วยกิต

3. ชื่อวิชาภาษาศาสตร์คลังข้อมูล

4. คณะอักษรศาสตร์/ ภาควิชาภาษาศาสตร์

5. ภาคการศึกษาต้น

6. ปีการศึกษา 2559

7. ชื่อผู้สอน  รศ.ดร. วิโรจน์ อรุณมานะกุล

8. เงื่อนไขรายวิชาไม่มี

9. สถานภาพของวิชา วิชาเลือก

10. ชื่อหลักสูตรภาษาศาสตร์

11. วิชาระดับปริญญาโท/เอก

12. จำนวนชั่วโมงที่สอน/สัปดาห์ 3 ชั่วโมง (พุธ 9.00-12.00 น.)

13. เนื้อหาวิชา

การออกแบบและการสร้างคลังข้อมูลภาษา การใช้คลังข้อมูลภาษาในการวิจัยทางภาษาศาสตร์ และการวิจัยวรรณกรรม เครื่องมือและวิธีการที่จำเป็นในการสร้างค้นคืน และวิเคราะห์คลังข้อมูลภาษา

14. ประมวลการเรียนรายวิชา

14.1 วัตถุประสงค์   นิสิตสามารถ

1. อธิบายความสำคัญของคลังข้อมูลภาษาในงานด้านต่างๆ เกี่ยวกับภาษา

2. ออกแบบและสร้างคลังข้อมูลทางภาษา

3. ใช้โปรแกรมประยุกต์เพื่อการจัดเก็บและวิเคราะห์คลังข้อมูล


14.2 เนื้อหารายวิชาต่อสัปดาห์

10 สค  ความเป็นมาของภาษาศาสตร์คลังข้อมูล (pdf)

17 สค  การใช้โปรแกรม Concordance, Collocation, Word Cloud

24 สค  คลังข้อมูลภาษากับงานวิจัยภาษาศาสตร์ (pdf)

31 สค  คลังข้อมูลภาษากับการเรียนการสอนภาษา, คลังข้อมูลภาษาผู้เรียน [pdf]

7 กย  คลังข้อมูลภาษากับการแปลและการศึกษาการแปล [pdf]

14 กย  คลังข้อมูลภาษากับการทำพจนานุกรมและประมวลศัพท์ [pdf]

21 กย  นิสิตเสนอร่างโครงการ

5 ตค  การสร้างคลังข้อมูลภาษา : การรวบรวม text ด้วยวิธีต่างๆ การใช้ Httrack, DeHTML [pdf]

12 ตค  การออกแบบคลังข้อมูล ตัวอย่างคลังข้อมูลต่างๆ  เช่น BNC, ANC, ICE, etc [pdf]

19 ตค  การกำกับข้อมูลภาษา : TEI & XML, Annotation tools [pdf]

26 ตค  สถิติในงานที่ใช้คลังข้อมูลภาษา [pdf]

2 พย  การใช้โปรแกรม R คำนวณสถิติ

9 พย  อินเทอร์เน็ตกับคลังข้อมูลภาษา [pdf]

16 พย  การทำเหมืองตัวบท (Text Mining) [pdf]

23 พย  นิสิตนำเสนอรายงาน


14.3 วิธีจัดการเรียนการสอน (Method)

การบรรยายเชิงอภิปราย  11 ครั้ง 

การสาธิต 2 ครั้ง 

การนำเสนองานที่ได้รับมอบหมาย 2 ครั้ง 

14.4 สื่อการสอน

สื่อนำเสนอในรูปแบบ Powerpoint

สื่ออิเล็กทรอนิกส์ / เว็บไซต์

อื่นๆ โปรแกรมคอนคอร์แดนซ์  โปรแกรม Httrack, Collocation Extract

14.5 การมอบหมายงาน ผ่านระบบเครือข่าย (Assignment through Network System)

14.5.1 ข้อกำหนดวิธีการมอบหมายงาน และส่งงาน (Assigning and Submitting Method)

ส่งและรับงานผ่านอีเมล์

14.5.2 ระบบจัดการการเรียนรู้ที่ใช้ (Learning Management System)

ติดตามเอกสารประกอบจากเว็บรายวิชา

14.6 การวัดผลการเรียน

14.6.1 การประเมินความรู้ทางวิชาการ (รายงาน)ร้อยละ 50

14.6.2 การประเมินงานหรือกิจกรรมในชั้นเรียนร้อยละ 10

14.6.3 การประเมินผลงานที่ได้มอบหมาย (assignments)ร้อยละ 40

***  การลักลอกงานวิชาการ (plagiarism) ถือเป็นความผิดร้ายแรงทางวิชาการ  หากพบว่ามีการลักลอกงานวิชาการในงานที่ต้องนำส่งในรายวิชานี้  นิสิตจะถูกปรับตกเป็น  F ในวิชานี้ทันที [คู่มือเรื่อง plagiarism ของบัณฑิตวิทยาลัย] ***

15. รายชื่อหนังสืออ่านประกอบ

15.1 หนังสือบังคับ

- วิโรจน์  อรุณมานะกุล   2553  ภาษาศาสตร์คลังข้อมูล: หลักการและการใช้   โครงการเผยแพร่ผลงานวิชาการ  คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย [pdf]

- McEnery, Tony and Andrew Wilson . 2001. Corpus Linguistics. 2nd Edition. Edinburgh : Edinburgh University Press.

15.2 หนังสืออ่านเพิ่มเติม

- Lüdeling, A. and M. Kytö, Eds. 2009. Corpus linguistics : an international handbook Berlin - New York, Walter de Gruyter.

- Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman.

- Meyer, C. F. 2002. English corpus linguistics : an introduction. Cambridge, U.K. ; New York: Cambridge University Press.

15.3 บทความวิจัย/บทความวิชาการ

Introduction

- McEnery, Tony and Andrew Wilson . 2001. Chapter 1 : Early Corpus Linguistics and the Chomskyan Revolution, In Corpus Linguistics. 2nd Edition. Edinburgh : Edinburgh University Press. [*]

- Aarts, Jan. 2002. Does corpus linguistics exist? Some old and new issues. In From the COLT's mouth ... and others, eds. Leiv Egil Breivik and Angela Hasselgren, 1-17. Amsterdam: Rodopi [*]

- Svartvik, Jan. 2007. Corpus linguistics 25+ years on. In Corpus linguistics 25 years on, ed. Roberta Facchinetti, 11-26. Amsterdam: Rodopi. 

- Johansson, Stig. 2004. Corpus linguistics—past, present, future: A view from Oslo. In English Corpora under Japanese Eyes, eds. Junsaku Nakamura, Nagayuki Inoue and Tomoji Tabata, 3-24. Amsterdam: Rodopi.

- An Introduction to Corpus Linguistics (https://www.press.umich.edu/pdf/9780472033850-part1.pdf)

Corpora and Language Studies

- Meyer, C. F. 2002. Chapter1: Corpus linguistics and linguistic theory. In English corpus linguistics : an introduction. Cambridge, U.K. ; New York: Cambridge University Press. [**]

- McEnery, Tony and Andrew Wilson . 2001. Chapter 4 : The Use of Corpora in Language Studies, In Corpus Linguistics. 2nd Edition. Edinburgh : Edinburgh University Press. [*]

- Stig Johansson. 2000. Contrastive Linguistics and Corpora. (http://www.hf.uio.no/forskningsprosjekter/sprik/docs/pdf/sj/johansson2.pdf)

- Kennedy, Graeme. 1991. Between and through: The company they keep and the functions they serve. In English Corpus Linguistics: Studies in Honor of Jan Svartvirk. London: Longman.

- Johansson, Christine. 1993. Whose and of which with nonpersonal antecedents in written and spoken English. In Clive Souter and Eric Atwell, eds., Corpus-based computational linguistics. Amsterdam: Rodopi.

- Sinclair, John. 1991. The meeting of Lexis and Grammar. Chapter 6 in Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Corpora and Language Teaching

- Gavioli, L. 2005. Chapter 2: Corpus linguistics and language teaching and learning In Exploring corpora for ESP learning. Amsterdam ; Philadelphia: John Benjamins. [**]

- Bernardini, Silnia. 2004. Corpora in the Classroom. In John Sincliar (ed.) How to Use Corpora in Language Teaching [*]

- Johns, T. 2002. Data-driven Learning: The Perpetual Challenge. In B. Kettemann and G. Marko (eds.). Language and Computers, Teaching and Learning by Doing Corpus Analysis. Proceedings of the Fourth International Conference on Teaching and Language Corpora, Graz 19-24 July, 2000., pp. 107-117. Rodopi. [*]

- Kennedy, Graeme. 1991. Preferred ways of putting things with implications for language teaching. In Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82 Stockholm, 4-8 Aug. 1991. 

- Murison-Bowie, Simon. 1996. Linguistics Corpora and Language Teaching. In Annual Review of Applied Linguistics 16: 182-199.

- Aston, Guy. 1995. Corpora In Language Pedagogy: Matching Theory And Practice. In Guy Cook and B. Seidlhofer, eds., Principle & Practice in Applied Linguistics: Studies in honour of H.G. Widdowson. Oxford: Oxford University Press.

Corpora and Translation

- Baker, Mona. 1993. Corpus Linguistics and translation Studies: Implications and Applications. In Text and Technology in honor of John Sinclair ed. by Mona Baker, Gill Francis and Elena Tognini Bonelli [**]

- Granger S. (2003) The corpus approach: a common way forward for Contrastive Linguistics and Translation Studies. In Granger S., Lerot J. and Petch-Tyson S. (eds.) Corpus-based Approaches to Contrastive Linguistics and Translation Studies. Amsterdam & Atlanta: Rodopi, 17-29. [*]

- Olohan, M. 2004. Introducing corpora in translation studies. London ; New York: Routledge.

- Baker, Mona (1996) ‘Corpus-based Translation Studies. The Challenges that Lie Ahead’, in Harold Somers (ed) Terminology, LSP and Translation.

- Federico Zanettin. 2002. Corpora in Translation Practice. In First International Workshop On Language Resources (Lr) For Translation Work & Research

- Laviosa, Sara 1998. The Corpus-Based Approach: A New Paradigm In Translation Studies. Meta, XLIII, 4, 1998.

- Schmied, Josef and Schaffler, Hldegard. 1996. Approaching translationese through parallel and translation. In Synchronic corpus linguistics Papers from the sixteenth International Conference on English Language Research on Computerized Corpora, Toronto 1995. Amsterdam: Rodopi.

- OLOHAN, Maeve. 2002. Comparable Corpora in Translation Research: Overview of Recent Analysis Using the Translational English Corpus. In First International Workshop On Language Resources (Lr) For Translation Work & Research

Corpus and Lexicography

- Heid, Ulrich. 2009. Corpus linguistics and lexicography in Lüdeling, A. and M. Kytö, Eds. Corpus linguistics : an international handbook Berlin - New York, Walter de Gruyter. [**]

- Kilgarriff, Adam. 2006. Where to go if you would like to find out more about a word than the dictionary tells you. Macmillan English Dictionary Magazine, Jan-Feb 2006 (www.kilgarriff.co.uk/Publications/2006-K-MEDezine.doc) [*]

- Kilgarriff, Adam. 2003. What computers can and cannot do for lexicography.

Corpus design

- Sinclair, John. 2004. Corpus and Text : Basic Principle. In AHDS Guide to Good Practice: Developing Linguistic Corpora. [**]

- Nancy Ide, Randi Reppen, Keith Suderman. The American National Corpus: More Than the Web Can Provide

- Kennedy, Graeme. 1998. Chapter 2 : The design and development of corpora. In An Introduction to Corpus Linguistics. London: Longman.

- Michael Beißwenger and Angelika Storrer. 2009. Corpora of Computer-Mediated Communication. in Lüdeling, A. and M. Kytö, Eds. Corpus linguistics : an international handbook Berlin  New York, Walter de Gruyter. 

Learner Corpora

- Granger, Sylviane. 2009. Learner corpora. in Lüdeling, A. and M. Kytö, Eds. Corpus linguistics : an international handbook Berlin  New York, Walter de Gruyter. [**]

- Tono, Y. 2003. Learner corpora: design, development and applications. In P. R. Dawn Archer, Andrew Wilson and Tony McEnery (ed.). Proceedings of the Corpus Linguistics 2003 conference, pp. 800-809. Lancaster University. [*]

- Granger, S. 2004. Computer learner corpus research: current status and future prospects. In U. C. T. A. Upton (ed.). Applied Corpus Linguistics: A Multidimensional Perspective, pp. 123-145. Amsterdam & Atlanta: Rodopi. [*]

Phraseology and Collocation

- Anderson, W. J. 2006. Chapter 2 in The phraseology of administrative French : a corpus-based study. Amsterdam, Rodopi [**]

- Oaks, Micheal P. Statistics for Corpus Linguistics. Chapter 4: Concordance, collocations and dictionaries.

- Manning, Christopher D. and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. (Chapter 5: Collocation) (http://www-nlp.stanford.edu/fsnlp/promo/)

Corpora and Stylistics

- Wijitsopon, Raksangob. 2007. A Corpus Stylistic Perspective on an Irony in Pride and Prejudice. In  Aroonmanakun, W. (ed.) Unfolding Linguistics. Bangkok: Chulalongkorn University Press. [*]

- Wynne, M. 2005. Stylistics: Corpus Approaches. In E. K. Brown and A. Anderson (eds.). Encyclopedia of language & linguistics, pp. 223-226. Amsterdam ; Boston: Elsevier. [*]

Text encoding, TEI & XML

- Timm Lehmberg and Kai Wörner. 2009. Annotation standards. in Lüdeling, A. and M. Kytö, Eds. Corpus linguistics : an international handbook Berlin - New York, Walter de Gruyter. [*]

- A gentle introduction to XML (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html) [*]

- TEI Lite: An Introduction to Text Encoding for Interchange (http://www.tei-c.org/Guidelines/Customization/Lite/teiu5_en.pdf) [*]

- Introduction to XML and the TEI workshop (http://www.tei-c.org/Talks/MITH/index.xml)

- Corpus Encoding Standard (http://www.cs.vassar.edu/CES)

- brat rapid annotation tool (http://brat.nlplab.org)

- Annotator (http://annotatorjs.org)

Corpora and statistics

- Marco Baroni, Trento and Stefan Evert. 2009. Statistical methods for corpus exploitation. in Lüdeling, A. and M. Kytö, Eds. Corpus linguistics : an international handbook Berlin - New York, Walter de Gruyter. [*]

- Douglas Biber. 2009. Multi-dementioanl approaches. in Lüdeling, A. and M. Kytö, Eds. Corpus linguistics : an international handbook Berlin - New York, Walter de Gruyter. [*]

Comparing corpora

- Rayson, Paul, and Roger Garside. 2000. Comparing Corpora using Frequency Profiling. in ACL2000, Workshop on Comapring Corpora. [*]

- Kilgariff, Adam. 2001. Comparing Corpora. International Journal of Corpus Linguistics, Volume 6, Number 1, 2001 , pp. 97-133(37)  [*]

Corpora and the web

- Meyer, C. F., Grabowski, R., Han, H.-Y., Mantzouranis, K. and Moses, S. 2003. The World Wide Web as Linguistic Corpus. Language and Computer 46: 241-254. [*]

- Fletcher, W. H. 2004. Making the Web More Useful as a Source for Linguistic Corpora. In U. Connor and T. A. Upton (eds.). Applied corpus linguistics : a multidimensional perspective. Language and computers no. 52, pp. 191-205. Amsterdam: Rodopi. [*]

- Martin Volk. 2002. Using the Web as Corpus for Linguistic Research. in: Renate Pajusalu and Tiit Hennoste (eds.): Tähendusepüüdja. Catcher of the Meaning. A Festschrift for Professor Haldur Õim. Publications of the Department of General Linguistics 3. University of Tartu.

Text Mining

- Berry, Michael W. (ed.) 2004. Survey of text mining : clustering, classification, and retrieval. Springer.

-A gentle introduction to text mining using R (https://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining-using-r/)

- Intro to TM package. (https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf)

- Mikolov et al. 2013. Distributed Representations of Words and Phrases and their Compositionality. (http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)

- Word2vec Tutorial (http://rare-technologies.com/word2vec-tutorial/#app)

- word2vec Parameter Learning Explained  (http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf)

- Vector representations of words (https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html)




15.4 สื่ออิเล็กทรอนิกส์ หรือ เว็บไซต์ที่เกี่ยวข้อง 

- Thai National Corpus (http://ling.arts.chula.ac.th/tnc2/)

- Thai Concordance Online  (http://ling.arts.chula.ac.th/ThaiConc/)

- โปรแกรม concordance  ได้แก่  

- AntConc (http://www.antlab.sci.waseda.ac.jp/antconc_index.html) Free

- Simple Concordance (http://www.textworld.eu/scp/index.html) Free

- Concordance (http://www.concordancesoftware.co.uk/)  30 days trail $87

- MonoConc (http://www.monoconc.com/)  $85

- WordSmith (http://www.lexically.net/wordsmith/)  50 GBP

- โปรแกรม Collocation Extract, DeHTML, HTTrack (http://www.httrack.com/)

การติดต่อผู้สอน

โทรศัพท์ 218-4696   ตึกบรมราชกุมารี 1231

โทรสาร   218-4695  email: awirote@chula.ac.th

http://pioneer.chula.ac.th/~awirote/

© Wirote 2012