الويب العميق (Deep Web)

Hasan_ali · 18 أغسطس 2021، 11:35ص

الويب العميقة

شبكة الويب العميقة (deep web)، بمعنى آخر الويب غير المرئي أو الويب المخفي، هي أجزاء من شبكة الويب العالمية (World Wide Web) لا تتم فهرسة محتواها بواسطة محركات البحث العادية.

عبارة Deep Web Opposite عبارة عن شبكة سطحية يمكن لأي شخص الوصول إليها باستخدام الإنترنت. مايكل بيرجمان، عالم الكمبيوتر، صاغ هذا المصطلح لأول مرة في عام 2001 كمصطلح قائمة محرك البحث.

يتم إخفاء محتوى الويب العميق خلف نماذج HTTP ويتضمن تطبيقات شائعة مثل خدمات البريد الإلكتروني والخدمات المصرفية عبر الإنترنت والخدمات التي يتعين على المستخدمين الدفع مقابل استخدامها. هذه الخدمات محمية بجدران الدفع. من أمثلة هذه الخدمات مواقع مخصصة لمشاهدة الفيديو أو بعض المجلات أو الصحف عبر الإنترنت.

يمكن العثور على محتوى الويب العميق باستخدام عناوين URL المباشرة أو عناوين IP. للوصول الكامل إلى هذا النوع من المحتوى، قد تكون هناك حاجة إلى كلمة مرور أو أي نوع آخر من إذن الوصول بعد المرور عبر الصفحة العامة للموقع.

مصطلحات الويب العميقة (Deep Web)

تم تقديم المجموعة الأولى من المصطلحات Deep Web و Dark Web في عام 2009، عندما تمت مناقشة مصطلحات المصطلحات المستخدمة في عمليات البحث العميق على الويب جنبًا إلى جنب مع الأنشطة غير القانونية على Free Web و Dark Web.

منذ إدخال سوق الإنترنت على طريق الحرير (Silk road) في وسائل الإعلام، بدأ العديد من الأشخاص ووسائل الإعلام في استخدام مصطلح الويب العميق المكافئ لمصطلح الويب المظلم أو الشبكة المظلمة. بالطبع ، يجد بعض الأشخاص أن هذا الاستخدام المكافئ للكلمات غير دقيق، وقد أصبح هذا مصدرًا رئيسيًا للارتباك. اقترح مراسلان مجلة Wired Kim Zetter و Andy Greenberg أن يتم استخدام كل من هذه المصطلحات على حدة. في حين أن الويب العميق هو أي موقع لا يمكن الوصول إليه من خلال محركات البحث العادية، فإن الويب المظلم هو جزء من شبكة الويب العميقة المخفية عمداً ولا يمكن الوصول إليها من خلال المتصفحات والأساليب العادية.

محتوى غير مدرج (Unlisted Content)

في مقال على شبكة الإنترنت العميقة نُشر في مجلة Journal of electric publishing، أشار بيرجمان إلى أنه في عام 1994، استخدمت جيل السورات مصطلح الويب غير المرئي للإشارة إلى مواقع الويب غير المدرجة في أي محرك بحث. في هذا المقال، يستشهد بيرجمان بمقال آخر كتبه فرانك جارسيا في يناير 1996:

“ربما يكون هذا الموقع مصممًا جيدًا ، لكن المصممين لم يكلفوا أنفسهم عناء إرساله إلى محركات البحث. لذلك لا أحد يستطيع العثور عليهم! أنه سري تماما! أسمي هذا وضع الويب غير المرئی.”

كان واحدا آخر هو استخدام مصطلح الويب غير المرئي من قبل بروس مونت وماثيو كول من شرکه Personal Library Software . في عام 1996، استخدموا المصطلح في بيان صحفي لوصف أول أداة ويب عميق.

حدث أول استخدام للمصطلح الخاص بالويب العميق ، والذي أصبح مقبولاً الآن على نطاق واسع ، في دراسة Bergman لعام 2001.

المحتوی المدرج (Listed Content)

تندرج الطرق التي تمنع فهرسة صفحات الويب بواسطة محركات البحث العادية في فئة واحدة أو أكثر من الفئات التالية:

الوب الخلفية (Background Web): صفحات ذات محتوى مختلف لمستويات وصول مختلفة (على سبيل المثال، نطاقات مختلفة من عناوين IP أو مجموعة من الاستشهادات التي تمت زيارتها سابقًا).
المحتوى الديناميكي (Dynamic Content): الصفحات الديناميكية التي يمكن الوصول إليها عادةً استجابة لطلب مسجل أو من خلال نموذج، خاصةً إذا تم استخدام عناصر إدخال المجال المفتوح (مثل مساحات النص). من الصعب سد هذه الثغرات دون معرفة كافية في هذا المجال
محتوى الوصول المقيد(Limited access content): المواقع التي تقید الاتصال إلى صفحاتها بالوسائل التقنية (قياسي باستثناء برامج الروبوت أو التسميات التوضيحية(captcha) أو أوامر عدم الحفظ ، والتي تمنع محركات البحث من البحث في صفحات الموقع وعمل نسخ مخبأة).
محتوى غير نصي أو غير [HTML]: المحتوى النصي المشفر في ملفات الوسائط المتعددة (الصور أو مقاطع الفيديو) أو ملفات التنسيقات الخاصة التي لا علاقة لها بمحركات البحث.
الويب الخاص (Private web) : المواقع التي تتطلب التسجيل وتسجيل الدخول (موارد مشفرة)
محتوى البرنامج النصي(Script content): الصفحات التي لا يمكن الوصول إليها إلا من خلال الروابط التي تم إنشاؤها بواسطة [JavaScript]، بالإضافة إلى المحتوى الذي تم تنزيله ديناميكيًا من خوادم الويب عبر Flash أو Ajax.
البرامج(Software): يتم إخفاء بعض المحتوى عن قصد عن الإنترنت ولا يمكن الوصول إليه إلا من خلال برامج معينة مثل Tor و I2P وبرامج Darknet الأخرى. Tor، على سبيل المثال، يسمح للمستخدمين بالوصول إلى مواقع الويب بشكل مجهول من خلال خوادم onion عن طريق إخفاء عناوين IP الخاصة بهم.
المحتوى غير المرتبط (Unlinked content): قد تمنع الصفحات التي لا تحتوي على روابط لصفحات أخرى برامج [زحف الويب] من الوصول إلى المحتوى. يسمى هذا النوع من المحتوى بصفحات الروابط الخلفية (المعروفة أيضًا باسم الروابط الداخلية). أيضًا، لا تتعرف [محركات البحث] دائمًا على جميع [الروابط الخلفية] في الصفحات التي تم البحث عنها.
أرشيفات الويب: تتيح خدمات أرشفة الويب مثل Wayback Machine للمستخدمين عرض الإصدارات المؤرشفة من صفحات الويب بمرور الوقت. تتضمن هذه الإصدارات المؤرشفة مواقع الويب التي يتعذر الوصول إليها حاليًا أو التي لا تتم فهرستها بواسطة محركات البحث مثل Google.

المحتوى على الويب العميق

على الرغم من أنه ليس من الممكن دائمًا عرض محتويات خادم الويب مباشرةً بحيث يمكن فهرستها، فمن المحتمل أنه يمكن الوصول إليها بشكل غير مباشر (بسبب نقاط ضعف الكمبيوتر).

تستخدم محركات البحث برامج زحف الويب للعثور على محتوى على منافذ ويب معينة تتعقب الروابط الحالية من خلال منافذ افتراضية محددة. هذه الطريقة مثالية للعثور على المحتوى على سطح الويب ولكنها لا تعمل عادةً مع الويب العميق. على سبيل المثال، لا تحاول برامج الزحف هذه العثور على صفحات ديناميكية ناتجة عن طلبات مختلفة من قاعدة البيانات لأن العدد الدقيق للطلبات المحتملة غير معروف. بالطبع، يُشار إلى أنه يمكن حل هذه المشكلة إلى حد ما من خلال توفير روابط لنتائج الطلبات، ولكن هذا يمكن أن يزيد دون قصد من شعبية عضو الويب العميق.

DeepPeep و Intute و Deep Web Technologies و Scirus و Ahmia.fr هي بعض محركات البحث التي يمكنها الوصول إلى الويب العميق. Intute خارج الميزانية وهو حاليًا مجرد أرشيف ثابت. تقاعد Scirus أيضًا في أواخر يناير 2013.

يبحث الباحثون عن طرق للزحف تلقائيًا إلى شبكة الويب العميقة. ينطبق هذا أيضًا على المحتوى الذي لا يمكن الوصول إليه إلا من خلال برامج معينة مثل الجولات. في عام 2001، طور كل من Siriram Raqwan و Hector Garcia Molina (من كلية علوم الكمبيوتر بجامعة ستانفورد) نموذجًا معماريًا لزاحف الويب المخفي الذي استخدم الكلمات الرئيسية التي أنشأها المستخدم أو تم جمعها من واجهات الطلب لإنشاء نموذج تقديم الطلب والزحف إلى محتوى الويب العميق. أنشأ كل من Alexandros Entoulas و Petros Zerfos و Junghu Chu من جامعة كاليفورنيا في لوس أنجلوس زاحف ويب مخفيًا قام تلقائيًا بإنشاء طلبات ذات مغزى لملء نماذج البحث. يتم توفير العديد من لغات طلب النماذج (مثل DEQUEL) والتي ، بالإضافة إلى إنشاء طلب، تسمح لك باستخراج البيانات المنظمة من صفحات النتائج. جهد آخر هو DeepPeep ، وهو مشروع في جامعة يوتا (University of Utah) برعاية مؤسسة العلوم الوطنية الامریکیه. يجمع هذا المشروع موارد الويب المخفية (نماذج الويب) في مجالات مختلفة بمساعدة طرق جديدة للزحف المركزي.

بدأت محركات البحث التجارية أيضًا في البحث عن طرق أخرى للزحف إلى الويب. بروتوكول خريطة الموقع (Sitemap)(تم تطويره وتقديمه لأول مرة بواسطة Google في 2005) و OAI-PMH هما آليات تسمح لمحركات البحث والمتحمسين الآخرين بالعثور على موارد ويب عميقة على خوادم ويب محددة. تسمح كلتا الآليتين لخوادم الويب بالإعلان عن عناوين URL التي يمكن الوصول إليها، مما يسمح لها بالعثور تلقائيًا على الموارد غير المرتبطة مباشرة بالويب السطحي.

يحسب نظام اكتشاف الويب المخفي من Google الطلبات المقدمة لكل نموذج HTML ويضيف صفحات HTML الناتجة إلى قائمة محرك بحث Google. النتائج التي تم الكشف عنها هي معالجة آلاف الطلبات في الثانية لمحتوى الويب العميق. في هذا النظام، يتم الحساب المسبق للطلبات المسجلة باستخدام ثلاث خوارزميات :

خوارزميات نظام اكتشاف الويب

تحدید قيم الإدخال كمدخلات بحث نصي تقبل الكلمات الأساسية.
تحديد المدخلات التي تقبل فقط قيمًا من نوع معين (على سبيل المثال، التاريخ).
تحدید عددًا صغيرًا من مجموعات الإدخال التي تنشئ عناوين URL الصحيحة لإدراجها في دليل بحث الويب.

في عام 2008، صمم Aaron Swartz Tor2web لتسهيل الوصول إلى ملحقات onion المخفية والبحث عنها. يمكن لبرنامج الوكيل هذا أيضًا الوصول إلى هذه الخدمات من خلال المتصفحات العادية. باستخدام هذا البرنامج، تظهر روابط الويب العميقة كسلاسل عشوائية من الأحرف بامتداد onion.

لمعرفه المزید یمکنکم المراجعه الی المصدر.