a.png

Công cụ Web Scraping của UiPath có thể trích xuất gần như bất kỳ loại dữ liệu nào từ các trang web và các ứng dụng web.

 

Scraping HTML là dễ dàng và chỉ cần một vài cú nhấp chuột.

 

Dưới đây là các bước cần thiết để nhanh chóng thực hiện việc này:

 

1. Pull up một page

Bước đầu tiên của quá trình này là chỉ cần kéo lên trang bảng HTML bạn muốn scrape.

 

2. Run Web Scraping

Đi đến Design menu và click Web Scraping.

 

upload_2018-3-6_8-31-14.png

 

Thao tác này sẽ kéo Extract Wizard. Bấm next.

 

3. Bảng HTML sẽ tự động phát hiện

Dưới đây là ví dụ về Danh bạ Google. Khi Recorder hoạt động (con trỏ bằng tay màu xanh), nhấp vào ô đầu tiên của bảng.

 

upload_2018-3-6_8-34-48.png

 

Đó là tất cả những gì bạn phải làm. Trình ghi sẽ tự động phát hiện loại dữ liệu bạn đang cố gắng trích xuất. Trong trường hợp này, dữ liệu ở định dạng bảng HTML.

 

upload_2018-3-6_8-35-52.png

 

Click Yes

 

4. Xem trước dữ liệu trước khi xuất

 

Điều này sẽ kéo lên một bản xem trước của dữ liệu được trích xuất. Bạn có thể đặt số kết quả sẽ được trích xuất. Nếu bạn muốn trích xuất tất cả dữ liệu từ bảng bạn có thể đặt số là 0.

 

upload_2018-3-6_8-37-21.png

 

5. Setup khoảng trang

 

Nếu bảng kéo dài nhiều trang, trình webscraper sẽ tiếp tục nắm bắt dữ liệu cho đến khi kết thúc bảng. Nhấp vào Yes và nhấp vào nút Next theo để cho phép tự động hóa chuyển sang một trang khác.

 

upload_2018-3-6_8-39-24.png

 

6. Đó là nó! Một khi bạn đã hoàn tất, bạn có thể chạy tự động hóa.

 

Tệp sẽ được trích xuất trong một bảng dữ liệu và cũng được lưu ở định dạng CSV. Bạn có thể kéo nó lên qua bảng điều khiển Workspace. Nhấp chuột phải vào Workflow mà bạn đang làm việc và nhấp vào Open Containing Folder.

 

upload_2018-3-6_8-40-40.png