ภาษาศาสตร์คอมพิวเตอร์คืออะไร
เป็นที่รู้กันดีว่า การที่มนุษย์เราจะสั่งให้คอมพิวเตอร์ทำงานอะไรนั้น
เราจำเป็นต้องมีโปรแกรมที่เขียนขึ้นด้วยภาษาที่คอมพิวเตอร์เข้าใจได้
เช่น ภาษาแอสเซมบลี ภาษาซี ภาษาเบสิก ความฝันที่จะทำให้คอมพิวเตอร์สามารถพูดคุยติดต่อกับมนุษย์ด้วยภาษาของมนุษย์เองนั้นเป็นความฝันที่มนุษย์มีมานานแล้ว
ดังที่เราจะเห็นความคิดเหล่านี้ปรากฎอยู่ในหนังสือหรือภาพยนตร์นิยายวิทยาศาสตร์ต่างๆอยู่เสมอในรูปของหุ่นยนตร์ที่สามารถพูดคุยติดต่อสื่อสารกับมนุษย์ได้เหมือนมนุษย์คนหนึ่ง
เช่น คอมพิวเตอร์ที่ชื่อว่า HAL ในหนังสือและภาพยนตร์เรื่อง 2001: A Space
Odyssey โดยที่ HAL เป็นคอมพิวเตอร์ประจำยานอวกาศที่สามารถพูดคุยกับนักบินอวกาศ
สามารถทำความเข้าใจกับประโยคที่ได้ยิน และมีความคิดเป็นของตัวเอง
HAL เป็นตัวอย่างของการประยุกต์เรื่องปัญญาประดิษฐ์ (artificial intelligence)
ที่นอกจากจะทำให้คอมพิวเตอร์สามารถคิดใช้เหตุผล มีฐานความรู้ต่างๆและรับรู้เรื่องของโลกภายนอกได้แล้ว
HAL ยังมีสามารถทางด้านภาษา สามารถฟังและรับรู้คลื่นเสียงที่ได้ยินว่าพูดถึงประโยคอะไร
(speech recognition) สามารถเข้าใจประโยคที่ได้ยินว่าประกอบด้วยคำอะไรบ้างมีความหมายอย่างไร
(natural language understanding) และสามารถถ่ายทอดความคิดที่ต้องการสื่อออกมาเป็นภาษาของมนุษย์
(natural language generation) และสามารถถ่ายทอดประโยคที่ต้องการออกมาในรูปของคลื่นเสียงที่มนุษย์สามารถได้ยินและรับรู้ได้
(speech synthesis)
ประโยชน์ที่ได้จากการทำให้คอมพิวเตอร์สามารถติดต่อสื่อสารกับมนุษย์ด้วยภาษามนุษย์เองนั้นชัดเจนในตัวเอง
เพราะจะส่งผลให้การใช้งานคอมพิวเตอร์เป็นไปอย่างสะดวกมากขึ้น
และทำให้เราสามารถนำคอมพิวเตอร์มาช่วยในงานด้านต่างๆที่เกี่ยวข้องกับภาษาได้มากขึ้น
เช่น เป็นเครื่องแปลภาษามนุษย์จากภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง (machine
translation) ช่วยตรวจและวิเคราะห์เอกสารต่างๆที่มีว่าเกี่ยวข้องกับเรื่องใด
ช่วยในการค้นคืนข้อมูล (information retrieval) ตามความต้องการของผู้ใช้ได้
หรือช่วยสรุปสาระและประเด็นสำคัญๆที่ปรากฎในเอกสารนั้นๆ (information
extraction) เป็นต้น ศาสตร์ที่เกี่ยวข้องกับการทำให้คอมพิวเตอร์เข้าใจภาษามนุษย์นี้คือศาสตร์ที่เรียกว่า
ภาษาศาสตร์คอมพิวเตอร์ (Computational Linguistics) หรือเรียกอีกชื่อหนึ่งว่าการประมวลผลภาษาธรรมชาติ
(Natural Language Processing) ศาสตร์ทางด้านนี้เป็นแขนงวิชาหนึ่งที่เกี่ยวข้องกับศาสตร์หลายๆศาสตร์
ได้แก่ คอมพิวเตอร์ ภาษาศาสตร์ จิตวิทยา วิศวกรรมไฟฟ้า และสถิติ
โดยที่ในทางคอมพิวเตอร์จะเน้นที่การศึกษาในเรื่องของระบบการประมวลผลภาษาธรรมชาติ
(NLP) เรื่องของการแทนรูปความรู้ (knowledge representation) เรื่องของเทคนิคต่างๆของการแจงส่วนประโยค
เป็นต้น ในทางภาษาศาสตร์จะเน้นที่เรื่องของการวิเคราะห์องค์ประกอบต่างๆของภาษา
ในทางวิศวกรรมไฟฟ้าจะสนใจในแบบจำลองต่างๆ ที่ใช้สำหรับระบบต่างๆทางด้านเสียง
ไม่ว่าจะเป็นทางด้านการสังเคราะห์เสียง (speech synthesis) หรือการรู้จำเสียง
(speech recognition) ในทางสถิติสนใจเรื่องของการประยุกต์ใช้ความรู้ทางสถิติในแบบจำลองภาษา
(language model) ที่ใช้
[อ่านรายละเอียดต่อในบทความฉบับเต็ม ภาษาศาสตร์คอมพิวเตอร์คืออะไร
(pdf
format)]
See also :
ผู้เรียนภาษาศาสตร์คอมพิวเตอร์ควรมีคุณสมบัติอย่างไร
ผู้ที่เข้ามาเรียนในสาขานี้โดยปกติจะมาจากสองสาขาใหญ่ๆ คือ คอมพิวเตอร์ หรือ
ภาษาศาสตร์ ผู้ที่มาจากพื้นความรู้ทางคอมพิวเตอร์จะเน้นที่การทำความเข้าใจหลักการต่างๆทางภาษาศาสตร์
เพื่อพัฒนาระบบ NLP สำหรับทำงานด้านต่างๆที่เกี่ยวกับภาษา ส่วนผู้ที่มาจากสายภาษาศาสตร์
จะเน้นที่การเข้าใจระบบการทำงานของคอมพิวเตอร์เพื่อหาความรู้ทางภาษาศาสตร์ที่เหมาะสมสำหรับใช้ในระบบ
NLP เหล่านั้น ดังนั้น ผู้ที่ไม่มีพื้นทางคอมพิวเตอร์ จึงจำเป็นต้องศึกษาเรื่องการเขียนโปรแกรม
เพื่อเข้าใจว่าคอมพิวเตอร์คิดอย่างไรเสียก่อน และเพื่อที่จะสามารถทำงานร่วมกับนักคอมพิวเตอร์ได้ในอนาคต
ดังนั้น สำหรับนักเรียนสายภาษาศาสตร์ควรมีคุณสมบัติพื้นฐานดังนี้
-
สนใจเรื่องคอมพิวเตอร์ สามารถใช้งานคอมพิวเตอร์ทั่วๆไปได้ดี
-
รู้จักคิดอย่างมีเหตุมีผลเป็นขั้นตอน เพื่อมองภาพการทำงานอย่างเป็นขั้นเป็นตอนได้
-
กระตือรือร้นและสนุกที่จะแสวงหาความรู้ใหม่ๆ เพราะเป็นสาขาที่มีการพัฒนาเปลี่ยนแปลงสูง
-
มีความขยันและมานะบากบั่น ไม่ย่อท้อในการแก้ไขโปรแกรมให้ทำงานได้ตามต้องการ
-
ไม่เกลียดวิชาทางด้านคณิตศาสตร์โดยเฉพาะเรื่องทฤษฎีความน่าจะเป็น (probability
theory) เพราะเป็นพื้นฐานสำคัญสำหรับงานด้าน NLP ในปัจจุบัน
งานทางด้านภาษาศาสตร์คอมพิวเตอร์มีอะไรบ้าง
หากใครติดตามประกาศรับสมัครงานใน Linguists mailing list คงจะสังเกตเห็นชัดว่า
งานด้านภาษาศาสตร์คอมพิวเตอร์เป็นงานที่เป็นที่นิยมสูงมากในระดับสากล
ดังตัวอย่างจากการสุ่มดูประกาศรับสมัครงานของ mail ที่เข้ามาวันที่ 24-27
Aug 2000 พบว่ามีเพียงรายการเดียวที่ไม่ใช่งานด้านภาษาศาสตร์คอมพิวเตอร์ ดังนี้
*11.1796, Jobs: Computational Linguist, Net Zero California
*11.1797, Jobs: Speech Recognition, Nuance
*11.1798, Jobs: Dialog Designer/Voice Recognition, Televigation
*11.1805, Jobs: Comp Ling, Cameron Halifax Associates New York
11.1808, Jobs: Translation, TransPerfect Translations Michigan
*11.1809, Jobs: Comp Ling/NLP PhD, Heriot-Watt Univ UK
งานด้านภาษาศาสตร์คอมพิวเตอร์มีความหลากหลายพอควร มีตั้งแต่ผู้ที่สนใจเรื่องของเสียงเพื่อใช้กับระบบ
speech synthesis, speech recognition สนใจเรื่องของการวิเคราะห์ text
ระดับต่างๆ เช่น งานด้าน machine translation, information retrieval,
information extraction, text mining ในยุคปัจจุบันที่ Information
Technology มีความสำคัญมากขึ้นเรื่อยๆ langauge processing จึงเป็นส่วนหนึ่งที่จำเป็นสำหรับงานด้าน
Information technology ในอนาคต
See also :
มีตลาดงานในประเทศบ้างไหม?
ต้องยอมรับว่างานด้านนี้โดยธรรมชาติเป็นงานวิจัย ตลาดงานในประเทศจึงแคบอยู่ในปัจจุบัน
เนื่องจากหน่วยงานที่ทำวิจัยด้าน NLP จะเป็นหน่วยงานของรัฐ เช่น ศูนย์เทคโนโลยีอิเล็คทรอนิกส์และคอมพิวเตอร์
(NECTEC) และมหาวิทยาลัยต่างๆ บริษัทเอกชนที่มีนักวิจัยเองโดยตรง เช่น
บริษัท IBM Thailand ยังมีน้อย แต่ในอนาคตอันใกล้ มีแนวโน้มที่บริษัทคอมพิวเตอร์ต่างชาติทั้งหลายจะเข้ามาเปิดตลาดในประเทศมากขึ้น
โดยต้องการนักภาษาศาสตร์คอมพิวเตอร์ที่รู้ภาษาไทยเพื่อช่วยในกระบวนการ localization
คือช่วยปรับโปรแกรมต่างๆให้ใช้งานกับภาษาไทยได้โดยตรง และช่วยวิเคราะห์ระบบภาษาไทยสำหรับใช้ในการพัฒนาระบบ
NLP ภาษาไทย หรือจัดเตรียมคลังข้อมูลภาษาไทยสำหรับใช้ในกระบวนการดังกล่าว
ดังจะเห็นจากประกาศรับสมัครงานต่างประเทศที่ระบุโดยเฉพาะว่าต้องการผู้ที่รู้ภาษาไทย
เช่น
LINGUIST
List 10.1913 Sat Dec 11 1999 Jobs: Comp Ling: Farsi, Project Manager/Thai
LINGUIST
List 10.1247 Fri Aug 27 1999 Jobs: Programmers/Text Analysis, Sp Synthesis
Systems
LINGUIST List
8.580 Thu Apr 24 1997 Jobs: Thai, Research posts
LINGUIST List
8.619 Mon Apr 28 1997 Jobs: Corrections: TESOL, Arabic/Thai lang
ภาษาศาสตร์คอมพิวเตอร์จึงเป็นอีกทางเลือกของรูปแบบงานใหม่ๆทางภาษาศาสตร์
ที่ไม่ใช่เป็นเพียงงานสอนภาษา หรืออย่างน้อยที่สุด ทำให้ผู้เรียนด้านนี้มีความสามารถพอที่จะนำคอมพิวเตอร์มาประยุกต์ใช้เพื่อศึกษาภาษาในด้านต่างๆได้
นิสิตในสาย
-
Nattawut Chairoek Thesis: "การตัดคำและการกำกับหมวดคำภาษาไทยแบบเบ็ดเสร็จด้วยคอมพิวเตอร์"
-
Wipharuk Kanolrattananukul. Thesis: "Word Sense Dosambiguation in Thai
Using Decision List Collocation". (pdf)
-
Wanwara Chairoek
-
Songtham Vongvirulh
ดู หลักสูตรสายภาษาศาสตร์คอมพิวเตอร์
Prepared by Wirote
Aroonmanakun
Back to : Department of
Linguistics, Chulalongkorn University