هل ثمة ضوابط لتحليل محتويات الشبكات الرقمية ومواقع الويب والتواصل الاجتماعي بشكل آلي؟ وهل هذا ممكن قانونيًا وأخلاقيًا على المستوى العالمي؟ إن الاتساع الهائل في الشبكة العنكبوتية العالمية منذ أواسط تسعينيات القرن العشرين وحتى الآن قد غيّر الواقع من حال إلى حال، وهو حال مختلف عن العهد السابق الذي فيه يتحتم جمعُ نص في صيغة إلكترونية الحصول أولا على الملف الأصلي من الناشر مع الالتزام بالحصول على موافقة رسمية تجعل الغرض من تحويل النص المكتوب إلى نص رقمي متعلقًا بالبحث دون أية أغراض تجارية أو نفعية خارج إطار البحث العلمي.
وأصبح واقع تحليل النصوص الرقمية الضخمة مفتوحًا بأدواته المتشعبة ومفتوحًا لتحميل كميات كبيرة من النصوص وحفظها من الشبكة لإنشاء نص رقمي مدوّني لغرض تفصيله وتصنيفه أو لغرض تحليله باستخدام أي برنامج إلى مثل برنامج زاحف الويب a web crawler (أو متتبع الارتباطات) الذي قد تطور مؤخرًا لمعظم لغات العالم العلمية - المدونية.
ومِن أمثال هذه البرامج الآلية أيضًا برنامج بوتكات BootCat، الذي يتضمن مجموعة برامج مبرمجة بلغة بيرل Perl تُجري تحميل مدونات تتضمن مصطلحات متخصصة من الشبكة أو كلمات مفتاحية keywords، وهو لا يتطلب إلا قائمة صغيرة من «البذور» seeds، أي: الكلمات المفتاحية المتوقع أن تكون ضمن أجواء النصوص الرقمية، والمراد أن تكون مداخل معجمية نصية سلسليّة لجو النص الرقمي الكلي الضخم. ومع أن هناك لغويين يشيرون إلى الجاذبات الواضحة في الشبكة، متصورين أنها «ميدان خيالي للساني» a fabulous linguist›s playground، من أمثال: كيلجاريف وجريفينستيتي Kilgarriff and Grefenstette 2003، فغيرهم يحث على توخي الحرص مشيرين إلى أن الشبكة لا يمكن اعتبارها عينة تمثيلية للاستخدام اللغوي العام (ليتش Leetch 2007: 145)، ولكنها قطعًا تعدّ عينة للُغةٍ عفوية تُمثّل السلوك اللغوي والاتجاه اللغوي - الاجتماعي - النفسي. وبالرغم من أن إمكانية استخدام الشبكة في حد ذاتها مزيّةٌ لإجراء الأبحاث اللغوية الآلية أو لمعرفة الاتجاهات المجتمعية على العموم إلا أن الأمر لا يخلو من المشكلات، ومن هذه المشكلات: صعوبة تحديد نوعية ترخيص الأذونات الرقمية المأخوذة من الشبكة من دون قراءة فعلية لها، أو من دون تتبع لإمكانات إجراء ذلك نفسه من وجهة قانونية وأخلاقية.
وتُطبق قوانين حقوق الطبع والنشر على الوثائق المتاحة على الشبكة تمامًا كما تطبق على الوثائق الورقية نفسها، وبذلك فليس من القانوني تحميل نص رسمي من الشبكة وإعادة استعماله دون إذن رسمي أن كانت ثمة حقوق مصرح بها في المواقع، ومع أن هذا قد يبدو غير منطقي بسبب توفر هذه النصوص في المواقع الإلكترونية وإتاحتها للجمهور دون وجود ما ينص على حقوقها في الغالب، إلا أن بعض هذه المواقع تعوّض هذا التناقض بضرورة الاشتراك أو دفع ضرائب أجور الإعلانات أو تعليق بطاقة ائتمانية دون أن يُعلق أي مال مدين عليها. ويبقى كل هذا السينايو مشكلاً وليس له اتجاه محدد في العالم كله.
وهناك طرق كثيرة لمعالجة قضايا حقوق النشر والاستعمال المفتوح بشأن البيانات المستردة من الويب، والطريقة الأولى هي أن يُعامل النص المأخوذ من الشبكة بنفس طريقة معاملة أي نص يدوي. وقد يصرح الموقع الإلكتروني بأن محتواه ملكية عامة أو أنه متاح بموجب رخصة تصرح النسخ وإعادة التوزيع دون إذن تجاري، وهنا يكون الأمر مفتوحًا وسهلاً لأغراض البحث والأكاديميًا والمشروعات التي تفيد البحث وأغراضه لا غير، وهذا مطرد الشيوع تقريبًا في العالم تقريبًا، فكل الصفحات التي في موقع ويكيبيديا -مثلا- متعددة اللغات ومرخصة باتفاقية ما يُصطلح عليه بـ»المستندات الحرة» free documentation، وهي تعني مأذونية النسخ والتوزيع دون غرض تجاري. وهناك اتجاه قانوني عالمي آخر يؤيد استعمال النصوص الرقيمة الشبكية دون أي التفات لطلب الإذن غير أنه مشروط بعد أحداث أية انتهاكات تضرّ على المستوى الدولي.
وكل الاتجاهات المذكورة آنفًا تتعلق بأي نص رقمي من الشبكة، عدا التواصل الاجتماعي مثل الفيسبوك وتويتر وغيرهما من منصات التواصل الاجتماعي المفتوح، لأن الأخيرين متاحان تفاعلاً على العموم، وكل ما فيهما من نصوص هو متوفر دون أي قيد، ولم أقف على نص قانوني واحد فيهما يضع حدًا لاستعمال النصوص الرقمية الضخمة فيهما سواء كان لأغراض بحثية أو تجارية.
ومن الممكن جدًا عرض محركات البحث في الويب بوصفها نتائج كشافية للنص الرقمي، وعليه فإن عملية إعادة استعمالها لغرض آخر لا يُشكل انتهاكًا لحقوق النشر بعد النشر، لأنها ضمن وسائط محركات البحث من جهة، ولأن شركات محركات البحث، وبالأخص: جوجل، لم تُمثّل أي نص قانوني يحول دون إعادة النص المشروط بالاستئذان الرسمي لغرض التحليل اللغوي الآلي للنصوص الضخمة. ولكن سيبقى أمر ما لا يمكن فهمه نظيرَ خَبَأَة بعض النصوص القانونية التي لا تُعلن أو تظهر فجائية في حينها ولا تظهر إلا عند وقوع الإساءة في استعمال النص الرقمي وبإجراء قانوني إلحقاقي جديد، كما لا توجد مجموعة قوانين محددة للحالة القانونية الخاصة بكشافات الشبكة ذات الاستخدام العادل، لأن مصطلح العادل هنا يختلف من بلد من إلى بلد، ومن مؤسسة إلى مؤسسة.
ومن الحلول الابتكارية لكل هذه القضية هو أن يعمد الباحث إلى أن يظهر النتائج وأن يتحدث عنها، وأن يمثل الألفاظ وما يريد البحث عنها بصفتها عناصر لغوية دون أي ذكر لمراجعها أو هويتها المجتمعية، وهذا الاتجاه هو حل أكاديمي - قانوني لا غبار عليه، ولا يلحقه أي شيء.
ومن بعد القانون نقف مع قضية الأخلاقيات، وهذه المسألة مرهونة بسياسات المؤسسة التي يتبع لها الباحث، ومن الضروري أن ينال الباحث الذي سيستعمل نصوصًا رقمية من الشبكة ومن التواصل الاجتماعي على موافقة مؤسسته؛ لأن في ذلك حفظًا له، ولأن أية مساءلة تابعة تكون على عاتق المؤسسة، والمؤسسات في هذا السياق أكثر قدرة على التبرير وكسب هذا النوع من المواقف.
ومن أهم الالتزامات الأخلاقية (قبل القانونية) هو الالتزام بما تقدمه الآلة، وبما تسترده الآلة، وبما يتمثل من نتائج في تحليل النصوص الرقمية دون تدخل إِنساني، ولا ينشأ تدخل الباحث فيها إلا في إطار واحد فقط، وهو: تحليلها كما هي، وتمثيلها إحصائيًا بِعِداد وحزم الإحصاء في التحليل اللغوي الآلي، ومن الممكن أن يتجاوز ذلك إلى الكشف عن العلاقات اللغوية النصية من حيث الاستعمال المتكرر لوحدات معجمية نصية معينة. وكذلك الحال عند تحليل التسجيلات المرئية السمعية في اليوتيوب وتحويلها إلى نصوص رقمية، فحالها أخلاقيًا مثل حال النص، أما القانون فيها فليس ثمة ما يُدينها، لأنها في الأصل متاحة للجميع، غير أنها حولت إلى نص رقمي مكتوب، ومن ثمة إلى معالجة بحثية ذات فرضيات أو أسئلة محددة، شريطة ألا يشار إلى أسماء قائليها في البحث اللغوي، ومن الممكن هنا أن يُشار إلى إطار التنويعات varieties المجتمعية اللغوية في المجمل.
وفوق كل ما سبق، تبقى هناك مسألة مهمة جدًا في التحليل اللغوي الآلي، وهي أن أي بحث علمي منتهٍ إنجازه فإن من حق أي باحث آخر أو مؤسسة أخرى أن تحصل على البيانات التي قام عليها البحث، لأن في ذلك تأسيسًا لإجراء بحثي مهم يتعلق بإبستيمولوجية البحث العلمي في الأصل، وهو ما يُصطلح عليه بالتماثيلة replicability، فالتماثيلة من شروط الأبحاث المتراكمة؛ فهي تعيد النظر في البيانات السابقة من أجل تأسيس أرضية بحثية جديدة بأدوات البحث البحتة نفسها، تكون نتائجها الموثوقية reliability أو الدحضية falsifiability للنتائج السابقة؛ وهذا كله مرهون - أصلاً- بطريقة التحليل ومدى الحيادية العلمية فيه؛ ومن الصعب في الغالب حدوث اختلال في النتائج ما دامت النصوص الرقمية هي نفسها وأدوات معالجتها حاسوبيًا متقاربة من حيث التحليل، ولا تنطبق هذه النقطة فقط على التحليلات الآلية، بل هي مجراة -فيما أظن- على كل التحليلات بما فيها التحليلات اليدوية للنصوص اليدوية، غير أن التحليل اللغوي الآلي أكثر دقة وأكثر حيادية، وأكثر مصداقية كونه يتناول ملايين النصوص، وكونه تجريبيًا محضًا خاليًا من الذات والنفس، والأخير شرط الـتجريبية empiricism (أو كما يُقال: الإمبريقية).
ومن المهم على المحلل الآلي التأكَّد من الكيفية التي يُفسّر بها الآخرون نتائجه من جهة، ومن الكيفية العلمية التي تتواءم وسؤال أو أسئلة البحث اللغوي الآلي، وإذا أسيء فهم الاثنين فستكمن في عمله مشكلة، وتفسيرُ النتائج ونشرها على نحو واسع عن طريق وسائل الإعلام بالذات مع وجود سوء الفهم تعريض لمنافذ يفترض على الباحث أن يكون في غنى عنها، لخروجها من سدّة البحث العلمي إلى التخبّط الأيديولوجي. وليست اللغويات الحاسوبية بالطبع محط اهتمام كبير للصحافة المعرفية والإعلام الثقافي المجتمعي الدولي إلا في قلة معدودة من الدول، علمًا بأنه - في الأساس- حقل مكتنز معين على تطوير الإعلام وتحكيمه وشدّ أوزاره واقعيًا وتوجيهه بطريقة مفحمة بالتجريب العلمي - العملي (وهو نجاح أي صحافة وإعلام محليًا وعالميّا).
د.سلطان المجيول - الرياض