ستتاح قريباً قراءة الشفاه حاسوبياً تعليم الحاسبات قراءة الشفاه سيؤدي إلى دقة الآلة في تمييز الكلام التشابه في مخارج بعض الحروف سيصعب الأمر ولكن لن يحول دون نجاحه
|
إعداد: عصمت نجيب
لن تتوقف التطورات التقنية عند حد حسب ما هو ملاحظ على صعيد الواقع، فما إن يتحقق حلم من أحلام تبدو في ظاهرها مستحيلة ويتحول هذا الحلم إلى واقع، حتى يخرج إلى الوجود حلم جديد سرعان ما يصبح واقعا هو الآخر..
فبعد الحاسب الذي يستطيع تمييز الأصوات، يأتي الحاسب الذي يستطيع قراءة الشفاه. فقد تغيرت طبيعة ومهام الحاسبات الشخصية كثيرا في العقود القليلة الماضية، لكن ليس إلى الحد الذي يمكن لمطوريها أو مستخدميها أن يصرحوا بأنها وصلت حد الكفاية.
فما زالت الكتابة على لوحة المفاتيح بمساعدة الفأرة هي أكثر وسائل الاتصال شيوعاً. وتظل الضربات العنيفة والمتتالية على مجموعة من المفاتيح عملاً صعباً ومتعباً، خصوصاً وأن المستخدم يبقى مقيداً إلى لوحة المفاتيح.
يقدم نظام التمييز الصوتي بعض الراحة، فهو يعمل بطريقة جيدة للإملاء داخل المكتب، لكنه لا يكون فعالا في الأماكن التي بها ضوضاء وضجيج مثل السيارات أو محطات القطار أو أماكن آلات الصرف الآلي في الشارع. حيث يمكن أن يعطل الضجيج نظام التمييز الصوتي ويجعله يتعثر حتى في ظل أحسن الظروف، وما زال البشر أفضل بكثير من أي حاسب في دقة تمييز الكلام.
بحثا عن الدقة
تعليم الحاسبات قراءة الشفاه يمكن أن يؤدي إلى تحسن ملحوظ في دقة نظام تمييز الكلام الآلي، وطبيعي أن يستخدم المستمعون حركات الفم للتمييز بين الكلمات. فإذا أمكن إضافة مثل هذه الإمكانية إلي بنك البيانات الخاص بالحاسب وبمساعدة كاميرات رخيصة ومعالجات قوية فيمكن لبرامج تمييز الكلام أن تعمل أفضل بكثير حتى في الأماكن الصاخبة، يقوم العلماء في مركز أبحاث أي بي إم في مقاطعة وستشيستر، وفي مراكز إنتل في الصين وكاليفورنيا، وفي معامل أخرى كثيرة، بتطوير أنظمة رقمية لقراءة الشفاه كي تزيد من دقة تمييز الكلام.
أمضى تشالاباثي نيتي، وهو باحث في مركز أبحاث توماس واتسون التابع لشركة أي.بي.إم في نيويورك الأعوام الأربعة الماضية وهو يركز في تحسين أداء تمييز الكلام باستخدام الكاميرات. ويدير د. نيتي البحث الخاص بالتقنيات السمعية والبصرية للكلام، ويقول: «نحن البشر ندمج الإدراك السمعي والبصري سوياً كي نحدد الكلام، ويمكن أيضاً تدريب الكومبيوتر كي يقوم بنفس هذا العمل».
التحديد ثم التركيز
وفي أي.بي.ام تبدأ هذه العملية بجعل الكومبيوتر والكاميرا تحددان مكان الشخص الذي يتحدث وبالبحث في النقط المنفردة التي تشكل المنظر يتم البحث عن النقط الخاصة بالجلد كمثال ثم باستخدام النماذج الإحصائية والتي تكشف أي شئ في المنطقة يشبه الوجه. ثم بوجود الوجه في المنظر تقوم أنظمة العد والحساب (خوارزميات الرؤية) بالتركيز علي منطقة الفم ليتم تقدير موقع كثير من المعالم متضمنة أركان ومركز الشفاه.
إذا نظرت الكاميرا فقط إلى الفم، وعلى الرغم من أنه يتم التفريق بصرياً بين حوالي 12 إلى 14صوتا فقط، فإن الإختلاف بين حرف«p» و شبيهه «b» صعب، لذلك قامت المجموعة بتكبير منطقة مجال الإبصار لتشمل عدة أنواع من الحركات. ويقول د. نيتي «لقد حاولنا استخدام وسائل إضافية مرئية واضحة مثل حركات الفك والخد السفلي وحركات أخرى للسان والأسنان، وقد اتضح أن هذا شئ مفيد ونافع». ثم تم دمج وسائل الإيضاح البصرية والسمعية وتحليلها بواسطة نماذج إحصائية والتي تنبأت بماذا كان يقول المتحدث.
اختبرت المجموعة النظام الجديد مراراً باستخدام الكاميرات الرخيصة للكومبيوتر النقال، وعند إدخال ضوضاء سمعية كثيرة في الخلفية فقد عمل التحليل المدمج للمجموعة السمعية والبصرية بشكل جيد مبينا تحسن قدره 100% في الدقة مقارنة باستخدام التحليل السمعي فقط.
كانت هذه نتائج مبشرة ولكن كما أوضح د.نيتي فإن استديو الاختبار ليس هو العالم, فكثير من الأنظمة المعتمدة على الكاميرا تعمل بشكل جيد في الظروف المحكمة للمعمل ولكن تفشل عند اختبارها في سيارة مثلاً حيث الإضاءة غير منتظمة أو أوجه الأشخاص بعيدة عن الكاميرا.
ولمواجهة مثل هذه الظروف يقوم هو وزملاؤه بتطوير العديد من الحلول، واحدة من هذه الحلول هي سماعة سمعية بصرية توضع على الرأس وملصق بها كاميرا صغيرة جداً وهي الآن تحت الاختبار كنموذج أولي وبهذه الطريقة يمكن رؤية منطقة الفم دائماً بغض النظر عن حركة الرأس أو المشي. وتبحث أي.بي.ام استخدام الإنارة تحت الحمراء لمنطقة الفم كي تمدها بإضاءة ثابتة طوال الوقت.
يقول د. نيتي أن مثل هذه السماعات يمكن أن تكون مفيدة في أماكن العمل حيث يقوم الأشخاص بملء نماذج أو إدخال بيانات باستخدام برامج تمييز الكلام.
حلول أخرى
هناك حل آخر لتغيير ظروف الصورة وهو نظام التغذية الراجعة الذي تم ابتكاره بواسطة مجموعة الباحثين في أي.بي.ام «يقوم نظامنا بتعقب مستويات الثقة حيث أنه يدمج الميزات السمعية والبصرية، ويقوم باتخاذ القرار بناء علي الوزن النسبي للمصدرين، فعندما يدير المتحدث رأسه بعيداً عن مكبر الصوت فإن مستوى الثقة يصبح صفراً ويقوم النظام بتجاهل المعلومات البصرية وببساطة يستخدم المعلومات الصوتية، وعندما تكون المعلومات البصرية قوية يتم شملها واستخدامها.كلما أصبح عدد النقاط علي شاشة الكومبيوتر أكثر لمنطقة الفم،كلما كانت المعلومات التي تحصل عليها أفضل وموثوق بها.
والهدف من النظام هو أن يكون أفضل من الاعتماد على النظام السمعي أو البصري فقط, وعلى الأسوأ فإن هذا النظام جيد مثل النظام السمعي، وعلى احسن تقدير فإنه أفضل بكثير.
قام الباحثون في إنتل أيضاً بتطوير برامج للتحليل السمعي البصري المدمج للكلام وأصدرت البرنامج للاستخدام العام كجزء من مكتبة رؤيا الكومبيوتر الخاصة بالشركة، ويقول أرا نيفيان وهو باحث في إنتل، وهو الذي قام بقيادة المشروع,«إننا نقوم باستخلاص الشكل البصري ثم الشكل الصوتي ثم نقوم بدمجهما باستخدام نموذج يقوم بتحليلهما منضمين سوياً». في الاختبارات أمكن للنظام أن يحدد ويعرف أربع كلمات من خمس في بيئة ومحيط ملئ بالضجيج. أضاف د.نيفيان «كانت النتائج جيدة للغة الصينية مثلها مثل الإنجليزية» مقترحاً أن يتم تقديم النظام في أماكن أخرى.
أجيلوس كاتساجيلوس وهو أستاذ هندسة كهرباء وكومبيوتر في جامعة نورثويسترن بإفانستون بولاية إلينوي، يقوم أيضاً بتطوير نظام الإدراك السمعي البصري للكلام، ويقول أنه كمبدأ إذا أمكن استخدام كل من التحليل الصوري والسمعي فإنه يمكن أن تكون هناك دقة أكثر في تحديد الأشخاص والتعرف عليهم، وهو ما كان يمكن استخدامه للتعرف على شخص الرئيس صدام حسين في أحاديثه وهل هو شخصياً الذي يظهرفي الفيديو أم شبيه له.
أيان ماتثيوس وهو عالم باحث في جامعة كارنيجي ميلون في معهد علم الإنسان الآلي، والذي يعمل بشكل رئيسي علي تعقب الوجه وتصميم نماذجه, قال أن الإدراك السمعي والبصري للحديث كانت خطوة منطقية وقد أظهر علم النفس هذا منذ خمسين عاماً, فلو أمكنك رؤية شخص يتحدث فسيمكنك فهم هذا الشخص أفضل.
.....
الرجوع
.....
|
|
|
|