กาฝากอยากเล่า – เรื่องราวของ Voice Recognition ตอนที่ 1

Print Friendly, PDF & Email

01

Mary Meeker กล่าวถึงเทรนด์ของ User Interface ของยุค 2000s นี้เอาไว้ในงาน Web 2.0 Summit ประจำปี 2011 เอาไว้ว่า จะเป็นยุคของ Touch/Sound/Move แต่หากมองย้อนกลับไปในอดีตแล้ว ความพยายามของการป้อนข้อมูล/สั่งงานอุปกรณ์ต่างๆ มีกันมานานมากแล้ว อยากให้ลองนึกถึงตอนที่ Nokia ออกตัวโทรศัพท์มือถือที่สามารถโทรออกได้ด้วยเสียง หรือตอนที่ Microsoft เปิดตัวคุณสมบัติการจดจำเสียง (Voice Recognition) บนตัว Microsoft Office XP นั่นมันก็เป็นสิบปีมาแล้วทีเดียวนะเนี่ย … เร็วๆ นี้ Apple ก็เพิ่งเปิดตัวคุณสมบัติ Voice Recognition ของตัวเองบ้าง ที่เรียกว่า Siri บน iPhone 4S แต่ว่าจากการรีวิวของเว็บต่างๆ รวมถึงการใช้งานด้วยตัวของผมเอง ก็ต้องบอกว่ามันได้รับการพัฒนาไปมากมายทีเดียวเชียว และผมก็รู้สึกว่าเราน่าจะมาทำความรู้จักกับเทคโนโลยีนี้กันหน่อยดีกว่าไหม?

——————— พื้นที่โฆษณา ———————

ช่วงนี้ @AdeccoThailand มีตำแหน่งงานน่าสนใจมานำเสนอครับ คือ Area Sales Manager, Retail Manager และ Product Consultant ครับ แต่ด้วยข้อตกลงกับลูกค้า จึงไม่สามารถเปิดเผยได้ว่าเป็นบริษัทอะไรที่กำลังหาพนักงาน แต่บอกได้คำเดียวว่าเป็นบริษัทด้านไอทีชั้นนำของโลกทีเดียว ถ้าได้ไปทำงานที่นี่บอกตรงๆ ว่า เมพสุดๆ ครับ … ใครที่คิดว่าผ่าน Qualification ละก็ ลองสมัครเล๊ยยยยย!!

———————————————————-

 

ไม่ต้องย้อนไปไกลถึงยี่สิยกว่าปีก่อนหรอกครับ เอาแค่สิบกว่าปีก่อน เทคโนโลยี Voice Recogntion ก็ยังห่างไกลจากสมัยนี้เยอะแล้วครับ ข้อจำกัดหลักๆ คือเรื่องของฮาร์ดแวร์ครับ ทั้งลำโพงที่จะรับเสียงเข้ามา ทั้งหน่วยประมวลผลที่ยังไม่รวดเร็วเท่าไหร่ เลยทำให้การใช้งานไม่หลากหลายและค่อนข้างจำกัด เช่น

  • ฟีเจอร์โทรออกด้วยเสียงของ Nokia เอง ก็ต้องใช้การอัดเสียงไว้ล่วงหน้าก่อน จากนั้นเวลาสั่งโทรตัวเครื่องก็จะทำการเทียบเสียงของเรากับเสียงที่บันทึกไว้ (ซึ่งนั่นทำให้เพื่อนผมต้องบันทึกเสียงหลายแบบสำหรับใช้โทรหาแฟนของเขา ได้แก่ “เอ๋จ๋า (เสียงหวานๆ)”, “เอ๋ (เสียงห้วนๆ)”, “ไอ้เอ๋ (เสียงดุๆ)” ฯลฯ จะได้สามารถสั่งโทรหาแฟนด้วยเสียงได้ในทุกอารมณ์ (เหอๆ … เอ็งแน่มาก)
  • ฟีเจอร์การสั่งพิมพ์งานด้วยเสียงของ Microsoft Office XP ผมจำได้ว่าต้องเสียเวลาประมาณ 2 วันกับการนั่งอ่านให้ตัวโปรแกรมฟัง เพื่อจะได้จดจำสำเนียงและเสียงของผมได้ และถึงขนาดนั้นแล้วก็ยังฟังผมถูกแค่ 85% และพิมพ์ช้ากว่าที่ผมพิมพ์เองเกือบ 2 เท่า

ใช้ครับ เทคโนโลยี Voice Recognition ยังขาดอะไรอีกเยอะทีเดียว … แต่ลองมาดูกันก่อนดีกว่าว่าพื้นฐานนั้นมันเป็นยังไง

 

พื้นฐาน Voice Recognition

ขออ้างอิงจาก Infographic จาก www.medicationtranscription.net ที่ผมเอามาจาก Mashable ครับ

02

1. ก่อนอื่นเลยก็คือ เราพูดอะไรก็ได้ออกมา

2. จากนั้นเครื่องคอมพิวเตอร์ (หรืออุปกรณ์อื่นๆ) ก็จะรับฟัง … แน่นอนว่าตรงนี้หมายความว่า เครื่องคอมพิวเตอร์หรืออุปกรณ์นั้นๆ จะต้องมีไมโครโฟนรับเสียงของเราด้วย

3. ฮาร์ดแวร์และซอฟต์แวร์ของตัวเครื่องจะทำการวันความถี่และขนาดของคลื่น จากนั้นทำการ Normalize ความเร็วของคลื่น และทำการแยกแยะเอาเสียงรบกวน (Noise) ออก … อุปกรณ์ใหม่ๆ ในปัจจุบันจะมีเทคนิค Noice Cancellation ที่ดีขึ้นมากแล้ว

03

4. และ 5. คอมพิวเตอร์จะทำการแบ่งแยกสัญญาณเสียงออกเป็นองค์ประกอบย่อยๆ ที่เรียกว่า Phonemes

Phonemes คือหน่วยย่อยที่สุดของเสียงที่ใช้ประกอบขึ้นมาเป็นคำ เช่นคำว่า Good นั้นก็จะแยกออกเป็น G OO และ D มี 3 Phonemes ครับ

04

6., 7. และ 8. จะเป็นหน้าที่ของซอฟต์แวร์แล้วที่จะนำ Phonemes แต่ละตัวมาค้นหาคำที่มีเสียงตรงกับ Phonemes นั้นๆ โดยจะค่อยๆ ทำไปทีละ Phonemes ซึ่งตรงนี้จุดสำคัญอยู่ที่ตัวฐานข้อมูลที่ซอฟต์แวร์จะใช้เปรียบเทียบเสียงของแต่ละ Phonemes นั่นเอง

05

 

จุดสำคัญก็คือ จำนวนคำศัพท์ที่มีอยู่ในคลังของซอฟต์แวร์ครับว่ามีมากน้อยแค่ไหน เพราะยิ่งมีคำศัพท์มาก ก็ยิ่งมีตัวเปรียบเทียบมาก ก็ยิ่งแม่นยำมาก (แต่แลกมาด้วยสเปกเครื่องที่ต้องสูงขึ้นด้วย เพื่อที่จะสามารถเปรียบเทียบกับข้อมูลจำนวนมหาศาลได้รวดเร็ว … ตรงนี้ Cloud Computing อาจเป็นทางออกทางหนึ่ง คือ ส่งข้อมูลเสียงไปประมวลผลกับเซิร์ฟเวอร์ที่มีประสิทธิภาพสูงกว่าที่อยู่บน Cloud)

06

ย้อนกลับไปในอดีตเมื่อเกือบ 20 ปีก่อน ความแม่นยำของเทคโนโลยี Voice Recognition อยู่แค่ 10% เท่านั้นเอง และภายใน 2 ปีก็ได้รับการพัฒนาเพิ่มเป็น 48% และมาค้างเติ่งอยู่ที่ 81% ในช่วงปี ค.ศ. 1999-2001 ครับ

เทียบกับตัวคนเป็นๆ ซึ่งสามารถรู้จำคำพูดได้มากถึง 96% แล้ว ถือว่ายังห่างชั้น

 

ความพยายามของมหาค่ายยักษ์ใหญ่

07

ในช่วงหลายปีที่ผ่านมา Voice Recognition ไม่ได้มีอะไรหวือหวาเป็นข่าวให้เห็นมากนัก แต่ไม่ได้หมายความว่าความพยายามในการพัฒนาเทคโนโลยีดังกล่าวจะหดหายไปครับ บริษัทไอทีทั้งใหญ่น้อยต่างก็มีผลิตภัณฑ์ที่ใช้เทคโนโลยีดังกล่าวออกมาอยู่เนืองๆ โดยเฉพาะ 3 ยักษ์ใหญ่อย่าง Microsoft, Google และ Apple ครับ

โดย Microsoft ได้ซื้อกิจการของ Tellme Networks ผู้ให้บริการ Voice Services บนโทรศัพท์มือถือมา ซึ่งแน่นอนว่าเป้าหมายก็คือการเอามาใช้กับผลิตภัณฑ์สมาร์ทโฟน (Windows Phone 7) ของตน และอาจรวมไปถึงอุปกรณ์พกพาอื่นๆ ในอนาคตอีก

08

ด้าน Google นั้นคงไม่ต้องพูดถึง เพราะเปิดตัว Google Voice Search บนระบบปฏิบัติการ Android และผ่านทางบราวเซอร์ของเครื่องคอมพิวเตอร์ไปแล้ว และยังมี Google Translate ที่ ณ ขณะที่ผมกำลังเขียนบล็อกอยู่ในขณะนี้ สามารถแปลภาษาระหว่างอังกฤษและสเปนได้ค่อนข้างเนียนทีเดียว นี่ยังไม่นับถึงแผนการ Android @ Home อี่ก

09

Apple เองก็ก้าวเข้ามาสู่แวดวงนี้ด้วยเช่นกัน โดยเปิดตัวฟีเจอร์ที่เรียกว่า Siri (อ่านว่า สิ-ริ) บนสมาร์ทโฟนตัวใหม่ล่าสุดประจำปี ค.ศ. 2011 คือ iPhone 4S เลย ทว่าลักษณะของ Siri นั้นจะแตกต่างออกไปจาก Voice Recognition แบบเดิมๆ ที่ใครต่อใครเขาทำกัน โดยทำออกมาในลักษณะของปัญญาประดิษฐ์ (AI : Artificial Intelligence) ซึ่งสามารถโต้ตอบกับผู้ใช้งานได้ และออกมาในแนวของ Voice Comprehension มากกว่าครับ

แหม มันช่างสอดคล้องกับข้อมูลที่ Mary Meeker มานำเสนอใน Web Summit 2.0 เสียนี่กระไรล่ะ … ว่าแต่ว่าอนาคตของ Voice Recognition มันจะไปทางไหนล่ะเนี่ย? ตอนหน้าเราค่อยมาดูกันครับ

(ติดตามตอนต่อไป)

@kafaak

ในอดีตเมื่อครั้งยังไม่ต๊อกต๋อย เคยเป็นผู้บริหารฝ่ายผลิตของโรงงานอุตสาหกรรม แต่ภายหลังเลือกงานที่ให้เวลากับชีวิต เพื่อมาอัพเดตเทรนด์เทคโนโลยีมากกว่า ปัจจุบันเป็นทั้งไอทีต๊อกต๋อยในสถานศึกษา เป็นบล็อกเกอร์ต๊อกต๋อยที่เขียนไปเรื่อยทั้งเรื่องเทคโนโลยี โซเชียลมีเดีย การตลาดดิจิตอล และจิตวิทยา เป็นที่ปรึกษาด้านการตลาดดิจิตอลให้กับธุรกิจ SMEs หลายแห่ง และเป็นวิทยากรรับเชิญด้านเทคโนโลยี การตลาดดิจิตอล และโซเชียลมีเดีย เป็นบางครา

You may also like...

1 Response

  1. Khonsankala says:

    Good article krap

Leave a Reply

%d bloggers like this: