Hướng dẫn bán kết trên tiện ích mở rộng cho Chrome

Đối với bất kỳ doanh nghiệp nào để tồn tại và cuối cùng phát triển, cần phải đi trước các đối thủ cạnh tranh và các rủi ro khác nhau. Đưa ra quyết định dựa trên dữ liệu phân tích là một cách chắc chắn để quên đi những vấn đề này. Dữ liệu này có thể có được thông qua việc loại bỏ dữ liệu. Đó là nơi tiện ích mở rộng dễ dàng cho Chrome xuất hiện: nó không chỉ tạo điều kiện thuận lợi cho quá trình thu thập dữ liệu mà còn giúp bạn có thể cạo khi di chuyển mà không cần thiết lập phức tạp.

Cách sử dụng dụng cụ cạo

    1. Điều đầu tiên bạn cần làm là cài đặt tiện ích mở rộng, vì vậy hãy truy cập vào cửa hàng web chrome, tìm kiếm "cạp" và nhấp vào thêm vào Chrome.

    2. Điều hướng đến trang web mà bạn định cạo dữ liệu , đánh dấu mục bạn quan tâm bằng cách đánh dấu nó. Nhấp chuột phải vào nó và chọn "cạo tương tự" trên menu bật lên.

    3. Làm như vậy sẽ khởi chạy một cửa sổ bàn điều khiển cạp riêng. Tại đây, bạn sẽ thấy một danh sách các dữ liệu bị loại bỏ .

    4. Để lưu nội dung, nhấp vào "lưu vào tài liệu Google", điều này sẽ tự động xuất dữ liệu sang bảng tính Google.

Kéo dài

Trong trường hợp bạn dự định cạo thêm dữ liệu, bạn có thể sử dụng phương pháp nâng cao. Lưu ý, sẽ dễ dàng hơn nhiều khi làm việc với công cụ nếu bạn có một số kiến thức về HTML. Giả sử bạn muốn cạo dữ liệu từ một nguồn có kho lưu trữ dựa trên dữ liệu chuỗi thời gian. Trong trường hợp như vậy, nếu bạn thử phương pháp được mô tả ở trên, bạn sẽ nhận được dữ liệu bị cắt xén.

Để giải quyết vấn đề này, bạn có thể sử dụng ngôn ngữ truy vấn HTML và XML được gọi là XPath. Nó làm gì? XPath nhận ra dữ liệu liên quan đến các yếu tố khác nhau có trong mỗi lựa chọn. Sau đây là hướng dẫn về cách thực hiện:

1. Chuyển đến bảng điều khiển Scraper, ở phía trên bên trái, bạn sẽ thấy nút "XPath", nhấp vào nó và tiến hành lắp ráp bảng ban đầu.

2. Bạn cần viết XPath cho phần tử bên phải. XPath hiện tại bao gồm toàn bộ thông tin sẽ được hiển thị theo định dạng như "// div [3] / div [3] / div [2] / div". Các phần tử <div> sẽ được máy tính nhận ra trong tài liệu HTML.

3. Để phân tách dữ liệu được nhận dạng, bạn phải sử dụng các cột Scraper. Để làm như vậy, bạn cần tìm kiếm các loại thông tin khác nhau mà bạn có sẵn. Tùy thuộc vào dữ liệu bạn đang cạo, bạn có thể có tiêu đề. Những tiêu đề này có mặt bên cạnh mỗi bộ dữ liệu. Chúng được kèm theo một thẻ, trong trường hợp này là thẻ <b>.

4. Sử dụng phần tử kiểm tra xác định vị trí và thêm thẻ <b> vào XPath của bạn. Bây giờ bạn có thể gắn nhãn cột đầu tiên này là "cột tiêu đề" vì nó sẽ liệt kê các tiêu đề. Tiến hành tạo các XPath khác nhau cho mỗi cột mà bạn cần.

5. Nhấp vào scrape và tiện ích mở rộng sẽ tự động thu thập dữ liệu và sắp xếp nó vào các cột khác nhau mà bạn đã đặt.