Thu thập dữ liệu Web là một công việc rất tẻ nhạt cho hầu hết các chủ trang web và nhà phát triển.

 

Công cụ Web Scraping của UiPath giúp bạn xây dựng một hệ thống tự động hóa để trích xuất dữ liệu từ các trang web trong một khoảng thời gian rất ngắn.

 

upload_2018-3-8_8-57-53.png

 

1. Truy cập Trình gỡ rối Web Scraping
Bạn có thể truy cập wizard bằng cách nhấp vào Web Scraping trong menu Design.

 

upload_2018-3-8_9-0-3.png

 

2. Bắt đầu

 

Trước khi chạy Web Scraping, đảm bảo rằng bạn đã kéo lên trang web bạn muốn cạo.

 

3. Chạy Web Scraping

 

Trình hướng dẫn sẽ hỏi bạn hai yếu tố từ trang web bạn muốn cạo. Quá trình cạo được dựa trên mẫu dữ liệu bạn đã chọn. Hãy kiểm tra hình ảnh mẫu bên dưới lấy từ các kết quả của eBay. Giả sử chúng ta muốn cạo tên của mặt hàng được liệt kê và giá cả. Trình hướng dẫn sẽ yêu cầu nhấp vào mục đầu tiên và thứ hai trong danh sách để tạo một mẫu của những gì cần phải được bỏ.

 

upload_2018-3-8_9-6-16.png
4. Chọn một phần tử trong page

 

Ở giai đoạn này, Web Scraping sẽ xác định loại trang bạn đang cố gắng trích xuất. Nếu trang ở dạng bảng như ví dụ Google Contacts, trình hướng dẫn sẽ có thể phát hiện ra nó. Trình hướng dẫn cho phép bạn chọn một mục bạn cần để cạo. Thực hiện theo hướng dẫn từng bước trong trình hướng dẫn và luồng công việc sẽ được tạo tự động khi bạn đã hoàn tất. Bước đầu tiên là chọn phần tử đầu tiên. Nếu chúng ta muốn scrape các tiêu đề của mục trong hình ảnh mẫu, phần tử đầu tiên là "danh sách tiêu đề" của mục đầu tiên trong trang kết quả của eBay và phần tử thứ hai sẽ là mục thứ hai. Đó là cách đơn giản nó được. Cùng một khuôn mẫu được sử dụng để scrape tên giá.

 

upload_2018-3-8_9-9-34.png

 

Điều quan trọng cần nhớ là khi bạn thiết lập mục đầu tiên và thứ hai làm các phần tử mô hình, việc scraping các dữ liệu khác từ cùng một loại dựa trên cùng một mẫu.

 

5. Đổi tên các tiêu đề cột

 

Khi bạn đã chọn mục đầu tiên và thứ hai, dữ liệu của bạn sẽ được lưu vào tệp CSV. Trình hướng dẫn cho phép bạn tuỳ chỉnh các tiêu đề để dễ dàng xác định và quản lý nội dung.

 

upload_2018-3-8_9-11-6.png

 

Bạn có thể kích hoạt tùy chọn Extract URL nếu có.

 

6. Trích xuất dữ liệu bổ sung
Khi bạn đã đạt đến bước này, bạn đã chọn phần tử đầu tiên và thứ hai cho mục đầu tiên của mình. Nó sẽ cho bạn thấy một bản xem trước các dữ liệu cần trích xuất. Nếu bạn muốn chọn một tập hợp các mục khác tạo thành cùng một trang web, bạn có thể sử dụng Extract Connection Data button. Điều này sẽ tiến hành cùng một quá trình bạn đã làm cho mục đầu tiên sẽ hỏi bạn về phần tử thứ nhất và thứ hai.

 

7. Dữ liệu trải dài trên nhiều trang
Có những lần mà dữ liệu kéo dài nhiều trang. Web Scraping có thể trích xuất dữ liệu kéo dài nhiều trang bằng cách chỉ định nút Next từ trang web.

 

8. Kéo bảng
Bạn có thể chạy trình hướng dẫn để tạo tệp tin CSV đầu ra. Tệp CSV sẽ được lưu trong cùng một thư mục nơi Workflow được lưu. Để dễ dàng truy cập nó, bạn có thể vào bảng Workspace, kích chuột phải vào Workflow file và nhấp vào Open Containing Folder. Bây giờ bạn có một giải pháp để trích xuất một lượng lớn dữ liệu từ bất kỳ định dạng trang web nào.