មគ្គុទេសក៍ Semalt ស្តីពីការពង្រីក scraper សម្រាប់ Chrome

ដើម្បីឱ្យអាជីវកម្មណាមួយអាចរស់រានមានជីវិតហើយទីបំផុតរីកចម្រើនវាចាំបាច់ត្រូវនាំមុខគូប្រជែងរបស់ខ្លួននិងហានិភ័យផ្សេងៗ។ ធ្វើការសម្រេចចិត្តដោយផ្អែកលើទិន្នន័យវិភាគគឺជាមធ្យោបាយមួយដែលអាចបំភ្លេចបញ្ហាទាំងនេះបាន។ ទិន្នន័យបែបនេះអាចទទួលបានតាមរយៈការកាត់ទិន្នន័យ។ នោះហើយជាកន្លែងដែល ការពង្រីក scraper ងាយស្រួលសម្រាប់ Chrome ចូលមក: វានឹងមិនត្រឹមតែជួយសម្រួលដល់ដំណើរការនៃការប្រមូលទិន្នន័យប៉ុណ្ណោះទេប៉ុន្តែថែមទាំងធ្វើឱ្យវាអាចធ្វើទៅបានដើម្បីកោសនៅពេលធ្វើដំណើរដោយគ្មានការរៀបចំស្មុគស្មាញ។

របៀបប្រើ Scraper

    1. រឿងដំបូងដែលអ្នកត្រូវធ្វើគឺតំឡើងកម្មវិធីបន្ថែមដូច្នេះសូមចូលទៅកាន់ហាងវេប chrome ស្វែងរក“ scraper” ហើយចុចលើបន្ថែមទៅ Chrome ។

    រុករកនៅលើគេហទំព័រដែលអ្នកមានបំណង បោសសំអាតទិន្នន័យ សម្គាល់ធាតុដែលអ្នកចាប់អារម្មណ៍ដោយរំលេចវា។ ចុចកណ្តុរខាងស្តាំលើវាហើយជ្រើសរើសយក "scrape ស្រដៀងគ្នា" នៅលើមីនុយដែលលេចឡើង។

    3. ការធ្វើដូច្នេះនឹងបើកដំណើរការកុងសូលស្កែនភីសដាច់ដោយឡែក។ នៅទីនេះអ្នកនឹងឃើញបញ្ជី ទិន្នន័យដែលបានកាត់ចេញ

    ដើម្បីរក្សាទុកមាតិកាចុចលើ“ រក្សាទុកទៅ Google doc” នេះនឹងនាំចេញទិន្នន័យដោយស្វ័យប្រវត្តិទៅសៀវភៅបញ្ជីហ្គូហ្គល។

ការបន្លំបន្ថែម

ក្នុងករណីដែលអ្នកមានគំរោងកោសទិន្នន័យបន្ថែមអ្នកអាចប្រើវិធីសាស្រ្តជឿនលឿន។ ចំណាំវានឹងមានភាពងាយស្រួលជាងមុនក្នុងការធ្វើការជាមួយឧបករណ៍ប្រសិនបើអ្នកមានចំណេះដឹងអំពី HTML ។ ឧបមាថាអ្នកចង់កោសទិន្នន័យពីប្រភពដែលមានប័ណ្ណសារដោយផ្អែកលើទិន្នន័យស៊េរីពេលវេលា។ ក្នុងករណីបែបនេះប្រសិនបើអ្នកព្យាយាមវិធីសាស្រ្តដែលបានពិពណ៌នាខាងលើអ្នកនឹងទទួលបានទិន្នន័យដែលច្របូកច្របល់។

ដើម្បីដោះស្រាយបញ្ហានេះអ្នកអាចប្រើភាសាសំណួរ HTML និង XML ដែលគេហៅថា XPath ។ តើ​វា​ធ្វើអ្វី? XPath ទទួលស្គាល់ទិន្នន័យទាក់ទងនឹងធាតុផ្សេងៗគ្នាដែលមាននៅក្នុងជំរើសនីមួយៗ។ ខាងក្រោមនេះជាការណែនាំអំពីវិធីដំណើរការ៖

1. ចូលទៅកាន់កុងសូល Scraper នៅខាងឆ្វេងផ្នែកខាងលើអ្នកគួរតែកត់សំគាល់ប៊ូតុង "XPath" ចុចលើវាហើយបន្តប្រមូលផ្តុំតារាងដំបូង។

2. អ្នកត្រូវសរសេរ XPath សម្រាប់ធាតុត្រឹមត្រូវ។ XPath បច្ចុប្បន្នដែលរួមបញ្ចូលទាំងព័ត៌មានទាំងមូលនឹងត្រូវបានបង្ហាញជាទម្រង់ដូចនេះ "// div [3] / div [3] / div [2] / div" ។ ធាតុ <div> នឹងត្រូវបានទទួលស្គាល់នៅក្នុងឯកសារ HTML ដោយកុំព្យូទ័រ។

3. ដើម្បីបំបែកទិន្នន័យដែលបានទទួលស្គាល់អ្នកត្រូវប្រើជួរឈរ Scraper ។ ដើម្បីធ្វើដូច្នេះអ្នកត្រូវរកមើលប្រភេទព័ត៌មានផ្សេងៗដែលអ្នកមាន។ អាស្រ័យលើទិន្នន័យដែលអ្នកកំពុងបោះចោលអ្នកអាចមានចំណងជើង។ ចំណងជើងទាំងនេះមាននៅជាប់នឹងសំណុំទិន្នន័យទាំងអស់។ ពួកវាត្រូវបានអមដោយស្លាកក្នុងករណីនេះស្លាក <b> ។

ការប្រើប្រាស់ទីតាំងពិនិត្យមើលធាតុនិងបន្ថែម <b> ស្លាកទៅ XPath របស់អ្នក។ ឥឡូវអ្នកអាចដាក់ជួរឈរដំបូងនេះជា“ ជួរឈរ” ដូចដែលវានឹងចុះបញ្ជីចំណងជើង។ បន្តបង្កើត XPaths ផ្សេងគ្នាសម្រាប់ជួរឈរនីមួយៗដែលអ្នកត្រូវការ។

ចុចលើចំណិតហើយផ្នែកបន្ថែមនឹងប្រមូលទិន្នន័យដោយស្វ័យប្រវត្តិហើយរៀបចំវាទៅក្នុងជួរឈរផ្សេងៗដែលអ្នកបានកំណត់។