กาฝากอยากเล่า – เรื่องราวของ Voice Recognition ตอนที่ 2

10โดยส่วนตัวของผมแล้ว เรื่องราว Voice Recognition และ Voice Comprehension ที่ผมกำลังจะพูดถึงในบล็อกตอนนี้ เป็นเทคโนโลยีที่น่าสนใจ และอยากให้ท่านผู้อ่านได้ทำความรู้จักกันครับ เพราะในเร็วๆ นี้มันจะกลายเป็น HMI (Human Machine Interface) แบบใหม่ (ขออนุญาตใช้ศัพท์สูงหน่อย จริงๆ แล้ว HMI มันเป็นเรื่องเชิงอุตสาหกรรมมากกว่า แต่ผมว่ามันเอามาเรียกรวมในส่วนของ Consumer Product ได้เหมือนกันนะ) … โดยความเชื่อส่วนตัวของผม ถ้าเกิดเราเข้าใจถึงการทำงานของอะไรก็ตามแล้ว เราก็จะสามารถใช้งานมันได้อย่างมีประสิทธิภาพมากขึ้นครับ

——————— พื้นที่โฆษณา ———————

ช่วงนี้ @AdeccoThailand มีตำแหน่งงานน่าสนใจมานำเสนอครับ คือ Area Sales Manager, Retail Manager และ Product Consultant ครับ แต่ด้วยข้อตกลงกับลูกค้า จึงไม่สามารถเปิดเผยได้ว่าเป็นบริษัทอะไรที่กำลังหาพนักงาน แต่บอกได้คำเดียวว่าเป็นบริษัทด้านไอทีชั้นนำของโลกทีเดียว ถ้าได้ไปทำงานที่นี่บอกตรงๆ ว่า เมพสุดๆ ครับ … ใครที่คิดว่าผ่าน Qualification ละก็ ลองสมัครเล๊ยยยยย!!

———————————————————-

 

ความน่าหลงไหลของเทคโนโลยี Voice Recognition สำหรับผู้ผลิต

ผมเคยเขียนบล็อกเรื่อง เมื่อแค่ Exclusive Content ไม่เพียงพออีกต่อไป เอาไว้ โดยเสนอว่าการสร้างจุดขายให้กับสินค้าด้วยแค่ Exclusive Content นั้นมันไม่เพียงพอแล้ว เพราะเอาเข้าจริงๆ เจ้า Content ที่เป็น Exclusive นี่มันไม่ได้อยู่ยั้งยืนยงตลอดไป ด้วย 2 เหตุผลหลักๆ คือ

  • เมื่อเวลาผ่านไป Content มันเก่า ไม่อัพเดต หรือมี Content อื่นๆ ที่น่าสนใจกว่าเกิดขึ้นมา ความเป็น Exclusive มันก็จะด้อยค่าลงไป
  • บ่อยครั้งที่สัญญาความเป็น Exclusive จะมีอายุกำหนดไว้ เช่น การที่ Capcom จะให้ Street Fighter มาลงบนสมาร์ทโฟนของ LG แบบ Exclusive แต่ก็จะจำกัดอยู่ที่ 3 เดือน หลังจากนั้นค่ายอื่นๆ ก็จะสามารถมี Street Fighter ได้เหมือนกัน

สิ่งที่แบรนด์ต่างๆ ต้องทำก็คือ การสร้าง Exclusive Experience ให้กับผู้ใช้งานมากกว่า ซึงถ้าใครอ่านหนังสือ Steve Jobs ของ Walter Isaacson ก็จะรู้ว่านี่คือปรัชญาที่อยู่เบื้องหลังของผลิตภัณฑ์ต่างๆ ที่ Steve Jobs คิดค้นขึ้นมา

เมื่อฮาร์ดแวร์ระดับ High-end กลายเป็นสิ่งที่มีให้เห็นกันอยู่ดาษดื่น ไม่ใช่อะไรที่จะสร้างความรู้สึก Exclusive Experience ให้กับผู้ใช้งานอีกต่อไป ถึงเวลาที่จะต้องหาอะไรใหม่ๆ ให้กับผู้ใช้งาน ซึ่งมันพาลให้นึกถึงตอนที่ Steve Jobs เปลี่ยนแปลงวงการคอมพิวเตอร์ ด้วยการนำ Graphical User Interface (GUI) มาสู่สายตาประชาชนผ่านทางเครื่อง Macintosh ในราวๆ ปี ค.ศ. 1984 … ถึงเวลาที่แบรนด์ต่างๆ ต้องมองหา User Interface ใหม่ๆ ให้กับผลิตภัณฑ์ของตัวเองซะแล้ว และ Voice Recognition ก็ถือว่าเป็นทางออกที่ดีทีเดียว เพราะนอกจากจะใช้สำหรับสั่งงานอุปกรณ์ได้เหมือน User Interface อื่นๆ ได้เท่าๆ กัน หรือบางครั้งก็ได้ดีกว่าอีกด้วย (เช่น การใช้งาน Google Translate นั้น ถ้าสั่งด้วยเสียงได้ก็จะสะดวกกว่าพิมพ์อีก)

 11
ภาพจาก BBC Research

และนั่นก็ทำให้ธุรกิจที่เกี่ยวกับ Voice Recognition นั้นค่อนข้างสดใสทีเดียว อ้างอิงจาก BBC Research แล้วจะเห็นว่ามีการคาดการณ์ว่าในปี ค.ศ. 2015 จะมีการเติบโตในธุรกิจด้านนี้สูงมาก ทั้งในส่วนของฮาร์ดแวร์, ซอฟต์แวร์ และตัวอุปกรณ์เอง

 

Voice Comprehension ก้าวใหม่ของ Voice Recognition

12ผมพูดถึง Voice Comprehension เวลาที่ผมพูดถึง Siri ของ iPhone 4S ในบล็อกตอนที่แล้ว เชื่อว่าหลายๆ คนอาจจะยังงงอยู่ว่ามันคืออะไรใช่ไหมล่ะครับ … ลองนึกถึงวิธีการทำงานของ Voice Recognition ที่ผมพูดถึงไปในตอนที่ผ่านมาดูนะครับ หลักการหลักๆ จริงๆ คือ การแยกแยะเสียงออกเป็น Phonemes แล้วทำการเทียบเคียงกับคำต่างๆ ที่มีอยู่ในฐานข้อมูล

ขั้นตอนในการทำงานของการสั่งอุปกรณ์ด้วยเทคโนโลยี Voice Recognition อีกขั้นก็คือ การเทียบคำที่ได้มากับคำสั่งที่มีในฐานข้อมูล เช่น

  • จะโทรหาใคร ให้สั่งว่า Call แล้วตามด้วยชื่อ
  • จะส่ง SMS หาใคร ให้สั่งว่า Send SMS แล้วตามด้วยชื่อ
  • จะส่งอีเมล์หาใครให้สั่งว่า Send Email แล้วตามด้วยชื่อ
  • จะสร้างตารางนัดหมายให้สั่งว่า Create an event

หากคำสั่งที่พูดไปตรงกับชุดคำสั่งใดในฐานข้อมูล ตัวอุปกรณ์ก็จะทำงานตามที่ได้ถูกกำหนดเอาไว้นั่นเอง โดยมีการกำหนดชัดเจนเป็น

แต่ Voice Comprehension มันเป็นอะไรที่ก้าวข้ามจากตรงนั้นไปอีก โดยอาศัยสิ่งที่เรียกว่า ปัญญาประดิษฐ์ (Artificial Intelligence หรือ AI) เข้ามาช่วยในการประมวลผล เพื่อให้อุปกรณ์เข้าใจคำสั่งได้ดียิ่งขึ้นครับ … Siri ของ Apple iPhone 4S ถือเป็นตัวอย่างที่ดีของ Voice Comprehension ครับ

ความน่าเบื่ออย่างหนึ่งของ Voice Recognition ก็คือ การถูกตีกรอบจำกัดว่าจะต้องสั่งยังงั้นยังงี้ถึงจะทำตามคำสั่งได้ สำหรับผู้ใช้งานแล้วมันไม่ได้ให้ประสบการณ์ที่ดีเลย เพราะมันขัดกับหลักการทางด้านภาษาของเรา … ลองนึกถึงเวลาที่เราอยากจะเช็คตารางนัดหมายดูครับ ถ้าเราสั่งงานเลขาของเรา เราก็มีวิธีบอกตั้งหลายแบบ เช่น

  • เช็คตารางนัดหมายสัปดาห์หน้าให้หน่อย
  • สัปดาห์หน้ามีอะไรบ้าง?
  • ขอดูตารางนัดหมายสัปดาห์หน้าหน่อยสิ

เราอยากจะสามารถสั่งงานอุปกรณ์ต่างๆ ของเราได้แบบนี้อ่ะ ดังนั้นแค่ Voice Recognition มันไม่เพียงพอครับ ตรงนี้เองที่ทำให้ Voice Comprehension เหนือกว่า เพราะผู้ใช้งานไม่จำเป็นต้องถูกจำกัดไว้ด้วยรูปแบบการสั่งงานที่เฉพาะเจาะจง ด้วยปัญญาประดิษฐ์ ทำให้ซอฟต์แวร์สามารถวิเคราะห์รูปประโยคของคำพูด แล้วนำมาประมวลผลเพื่อตัดสินใจได้ว่าผู้ใช้งานต้องการอะไร เช่น

  • หากขึ้นต้นด้วย 5W1H (Who/What/Where/When/Why และ How) คือต้องการถามคำถาม ดังนั้นน่าจะเริ่มจากการค้นหาข้อมูลจากฐานข้อมูล หรือจาก Search Engine
  • หากขึ้นต้นด้วยคำกริยาต่างๆ คือการสั่งให้ทำงานอะไรบางอย่าง เช่น Call ก็คือโทรหาใครซักคน, Send a message คือส่งข้อความ เป็นต้น
  • คำนามบางคำอาจบอกให้ทราบถึงสิ่งที่ต้องการจะทราบ

อีกจุดสำคัญก็คือ ตัวซอฟต์แวร์มีคลังคำศัพท์ที่ใช้ทดแทนกันได้ ยกตัวอย่างเช่นถ้าผมอยากจะสั่งให้ Siri เช็คว่าตารางนัดหมายของผมในสัปดาห์หน้ามีอะไรบาง ผมก็สามารถเลือกสั่งได้หลากหลายทีเดียว เช่น See my appointment next week, What happened nextweek หรือจะแค่ Next week เฉยๆ ก็ได้ หรือแม้แต่บางครั้งที่ Siri อาจฟังผมผิดไปบ้าง เช่น เป็น Be my appointment next week แทน ก็ยังสามารถประมวลผลได้ถูก เพราะ Keyword สำคัญ (ในที่นี้คือ Next week) มันยังถูกต้องอยู่

 

14151617

 

13ถามว่า Siri นี่สุดยอดแล้วหรือยัง? คำตอบของผมก็คือ “ยัง” ครับ แม้ว่า Siri จะแหกข้อจำกัดเรื่องการออกคำสั่งแล้ว แต่มันก็ยังติดขัดอยู่ในหลายๆ ส่วน เช่น การคาดเดาผิด อันเป็นผลจากประโยคคำสั่งที่ผู้ใช้งานพูดมี Keyword ที่กำกวม หรือ ไม่เข้าใจสำเนียงของผู้พูด (ตอนนี้ Siri เข้าใจเฉพาะ อังกฤษออสเตรเลีย, อังกฤษ/อังกฤษ, อังกฤษ/อเมริกัน, ฝรั่งเศส และ เยอรมัน) นอกจากนี้ก็ยังขาดความสามารถในการโต้ตอบครับ โดยมากการพูดคุยกับ Siri จะเป็นในลักษณะของ “ถามตอบกันทีละประโยคมากกว่า

เมื่อเร็วๆ นี้ก็มีข่าวมาอีกว่า Apple จะออก Apple TV (ตัวที่เป็น TV จริงๆ ไม่ใช่แค่กล่องมาต่อกับ TV) และอาจจะนำเอา Siri ไปใช้บน Apple TV ด้วย ลองจินตนาการถึงการสั่งให้ TV เปลี่ยนช่อง หรือหารายการที่ชอบ (ในกรณีของ Internet TV) ด้วยเสียง … ถ้าได้ขนาดนั้นละก็ ต่อไปนี้เราก็ไม่ต้องกลัวลืมว่าวางรีโมทคอนโทรลไว้ที่ไหนแล้วสินะ

 

คาดเดาทิศทางในการพัฒนาของ Voice Recognition

อนาคตของ Voice Recognition นั้น สำหรับผมแล้ว ผมมองว่าจะเป็นการพัฒนาใน 3 ด้านหลักๆ คือ

  • Voice Comprehension เพื่อปลดข้อจำกัดที่ว่าจำเป็นต้องสั่งงานตามรูปแบบที่กำหนด สามารถเลือกใช้คำพูดได้หลากหลายในการสั่งงานแบบเดียวกัน ดังนั้นจึงทำให้ใครก็สามารถใช้งานได้ตามนิสัยการพูดที่ตนเองถนัด และยังรองรับสำเนียงภาษาต่างๆ ด้วย
  • Semantic Meaning คือการพัฒนาปัญญาประดิษฐ์ให้เข้าใจถึงความหมายของประโยคจริงๆ ซึ่งนั่นจะทำให้มันเหมือนคนยิ่งขึ้น เพราะสามารถใช้พวกศัพท์แสลงต่างๆ ได้ด้วย เช่น Give kafaak a ring หมายถึงให้โทรหา kafaak ครับ (ตอนนี้ถ้าสั่งแบบนี้ Siri มันจะนึกว่าผมจะค้นหาสถานที่ซะงั้น)
  • Conversation คือ การพัฒนาปัญญาประดิษฐ์ให้มีการโต้ตอบกับเราในลักษณะของการสนทนามากขึ้น สามารถประมวลผล คาดเดาคำสั่งของเราได้ จากประวัติการสนทนากับเราก่อนหน้า เช่น ถ้าคุยกันเรื่องนัดหมายแล้วพบว่ากำลังจะไปหาคนคนหนึ่ง (ซึ่งมีการระบุพิกัดสถานที่เอาไว้) แล้วสั่งต่อได้เลยว่านำทางไปยังสถานที่ตามนัดหมายได้เลย เป็นต้น (ตอนนี้ Siri ทำได้ในบางส่วนแล้ว เช่น การสั่งให้ส่งอีเมล์หรือ SMS สามารถสั่งกำหนดผู้รับและ Subject ได้แล้ว Siri ยังสามารถคุยเพื่อขอให้เราบอกเนื้อหาของข้อความที่อยากส่ง แล้วถามต่อได้ว่าจะส่งหรือจะ Cancel เป็นต้น)

@kafaak

ในอดีตเมื่อครั้งยังไม่ต๊อกต๋อย เคยเป็นผู้บริหารฝ่ายผลิตของโรงงานอุตสาหกรรม แต่ภายหลังเลือกงานที่ให้เวลากับชีวิต เพื่อมาอัพเดตเทรนด์เทคโนโลยีมากกว่า ปัจจุบันเป็นทั้งไอทีต๊อกต๋อยในสถานศึกษา เป็นบล็อกเกอร์ต๊อกต๋อยที่เขียนไปเรื่อยทั้งเรื่องเทคโนโลยี โซเชียลมีเดีย การตลาดดิจิตอล และจิตวิทยา เป็นที่ปรึกษาด้านการตลาดดิจิตอลให้กับธุรกิจ SMEs หลายแห่ง และเป็นวิทยากรรับเชิญด้านเทคโนโลยี การตลาดดิจิตอล และโซเชียลมีเดีย เป็นบางครา

You may also like...

Leave a Reply

%d bloggers like this: