Back to Question Center
0

سيمالت يتطور على ورليتور - كول ويب كشط واستخراج البيانات أداة

1 answers:

أورليتور هو أداة تجريد الويب واستخلاص البيانات جديدة ولكنها فعالة. لاستخدام ورليتور، تحتاج فقط إلى إضافة قائمة من جميع عناوين ورل المحتوى الذي تريد كشط على الانترنت في قالب المقدمة. ثم يلزمك تحديد عنصر هتمل الذي تريد استخراجه من صفحات الويب والنقر على الزر إرسال. فمن السهل على هذا النحو. مع هذه الأداة، لا تحتاج إلى جعل نسخة أو لصق من المتصفح بعد الآن.

زباث هي اللغة المستخدمة للبحث عن المعلومات في ملفات شمل. ويستخدم تعبيرات معينة لتحديد عقدة مجموعات أو عقد في ملفات شمل. التعبيرات التي يفهم زباث هي مشابهة تماما لتلك التي يتم استخدامها مع ملفات الكمبيوتر العادية أو الوثائق.

على الرغم من استخدام زباث مع العديد من لغات البرمجة، وقد تم بناء هذه الأداة للمستخدمين الذين ليس لديهم أي معرفة البرمجة. لذلك، أنت لا تحتاج إلى أن تكون مبرمج للاستفادة منه. مع هذه الأداة، يمكنك استخراج البيانات من عدة صفحات هتمل و شمل.

من أجل بساطة الاستخدام، تم تعريف العديد من تعبيرات زباث المستخدمة بشكل متكرر في قائمة منسدلة بحيث يحتاج المستخدمون فقط إلى تحديد أي منها اعتمادا على هدفهم. ومع ذلك، المستخدمين من ذوي الخبرة العالية من زباث لديهم الحرية في استخدام تعبيرات مخصصة كلما رغبوا في ذلك..

وقد تم تصميم الأداة بسعة 100 ورل في جلسة كشط واحد، ويستغرق الحد الأقصى من 10 تعبيرات في وقت واحد. وبعبارة أخرى، يمكن أن تتخلص البيانات من 100 عنوان ورل كحد أقصى في المرة الواحدة.

1. // ديف [2] - بعض تعبيرات زباث الهامة التي يمكن تعديلها أو إضافتها تم توضيحها أدناه: هذا التعبير يختار ديف الثانية هرمي؛

2. // لينك [@ ريل = 'كانونيكال'] / @ هريف - هذا التعبير يختار الموقع (المرجع) للعلامة المستخدمة تعيين السمة ريل يساوي الكنسي؛

3. / هتمل / هيد / ميتا [@ نيم = 'دسكريبتيون'] / @ كونتنت - يستخدم هذا التعبير لاختيار المحتوى؛

4. // * [@ كلاس = 'كلاس-نيم'] - يمكنك استخدام هذا التعبير لتحديد كافة العناصر ب 'كلاس-نيم' ك فئة كس؛

5. // h2 | // تيتل - يمكن استخدام هذا التعبير لتحديد كل من H2 الأول وعنوان الصفحة؛

6. // * [نيم

= 'h1' أو نيم

= 'تيتل'] - هذا التعبير يعمل تماما كما هو موضح أعلاه. ومع ذلك، فإن التعبير الوارد أعلاه أفضل لأنه أقصر؛

7. // * [يحتوي على (class، 'ثومب')] - هذا التعبير يختار كل عنصر يحتوي على فئة كس ويحتوي أيضا على 'ثومب' لاستخراج؛

8. // بارنت :: * [تكست

= 'ولكم'] - هذا التعبير يختار الوالد لأي عنصر يحتوي على النص "مرحبا '؛

هذه الأداة هي النسخة التجريبية ويمكن أن لا تزال تعمل مع بعض الأخطاء. ومع ذلك، فإنه لا يزال أداة عظيمة للمستخدمين مع القليل أو عدم وجود المعرفة البرمجة كما تم تعريف كل التعبيرات المستخدمة بشكل متكرر مسبقا في القائمة كما ذكر سابقا.

December 7, 2017
سيمالت يتطور على ورليتور - كول ويب كشط واستخراج البيانات أداة
Reply