Chiết xuất dữ liệu Tableau (TDE) là gì ?


Chiết xuất dữ liệu của Tableau là một ảnh chụp nhanh của dữ liệu được lưu trữ trên đĩa và được nạp vào bộ nhớ theo yêu cầu để hiển thị Tableau viz.


C
ó hai khía cạnh của thiết kế TDE làm cho chúng trở nên lý tưởng cho việc hỗ trợ phân tích và phát hiện dữ liệu. Đầu tiên TDE là một dữ liệu dạng cột. Tôi sẽ không đi vào chi tiết về các dữ liệu dạng cột - có rất nhiều tài liệu tốt đã làm điều đó.


Tuy nhiên, ít nhất hãy tạo ra sự hiểu biết chung rằng cơ sở dữ liệu dạng cột sẽ lưu các giá trị cột lại với nhau thay vì giá trị hàng. Do đó, họ giảm đáng kể đầu vào / đầu ra cần thiết để truy cập và tổng hợp các giá trị trong một cột. Đó là những điều rất tuyệt vời mà họ tạo ra cho phân tích và phát hiện dữ liệu.

 

Hình 1 - Một cơ sở dữ liệu dạng cột giúp bạn nhanh chóng vận hành các giá trị trong bất kỳ cột nào

 

Khía cạnh quan trọng thứ hai của thiết kế TDE là cách chúng được cấu trúc ảnh hưởng đến cách chúng được tải vào bộ nhớ và được sử dụng bởi Tableau. Đây là một phần rất quan trọng của cách TDE được "kiến trúc nhận thức". Về cơ bản, kiến trúc nhận thức có nghĩa là TDEs sử dụng tất cả các bộ phận của bộ nhớ máy tính, từ RAM tới đĩa cứng và đặt từng phần để phù hợp nhất với các đặc tính của nó.

Để hiểu rõ hơn khía cạnh này của TDE, chúng ta sẽ đi qua cách TDE được tạo ra và sau đó được sử dụng làm nguồn dữ liệu cho một hoặc nhiều hình ảnh hóa.

Khi Tableau tạo ra một trích xuất dữ liệu, đầu tiên nó định nghĩa cấu trúc cho TDE và tạo ra các tệp tin riêng cho mỗi cột trong nguồn cơ bản.
(Đây là lý do tại sao lợi ích của việc giảm thiểu số cột dữ liệu được chọn để trích xuất).

Khi Tableau truy xuất dữ liệu, nó sắp xếp, nén và thêm các giá trị cho mỗi cột vào tệp tương ứng của chúng.
Với phiên bản 8.2, việc sắp xếp và nén xảy ra sớm hơn trong quá trình so với các phiên bản trước, tăng tốc hoạt động và giảm lượng không gian đĩa tạm dùng để trích xuất.

Mọi người thường hỏi liệu một TDE có được giải nén khi nó đang được nạp vào bộ nhớ?
Câu trả lời là không! Việc nén được sử dụng để giảm các yêu cầu lưu trữ của một TDE để làm cho chúng hiệu quả hơn chứ không phải là nén tập tin.

Thay vào đó, một số kỹ thuật khác nhau được sử dụng, bao gồm nén từ điển (nơi các giá trị cột phổ biến được thay thế bằng các giá trị mã thông báo nhỏ), chạy mã hóa chiều dài , khung mã hóa tham chiếu và mã hoá đồng bằng. Tuy nhiên, nén tập tin cũ tốt vẫn có thể được sử dụng để tiếp tục giảm kích thước của một TDE nếu bạn đang lập kế hoạch để gửi email hoặc sao chép nó đến một địa điểm từ xa.


Hình 2 - Kỹ thuật nén được sử dụng để tối ưu hóa cơ sở dữ liệu dạng cột TDE. Mỗi cột trở thành tệp tin được ánh xạ bộ nhớ trong TDE


Để hoàn tất việc tạo ra một tệp TDE, các tệp cột cá nhân được kết hợp với siêu dữ liệu để tạo tệp tin được ánh xạ trên bộ nhớ hoặc để chính xác hơn, một tệp có chứa nhiều tệp tin ánh xạ bộ nhớ riêng lẻ vì có các cột trong nguồn dữ liệu cơ bản . Đây là mấu chốt cho sự thiết kế về kiến trúc – nhận thức của nó.

Bởi vì TDE là một tệp được ánh xạ trên bộ nhớ, khi Tableau yêu cầu dữ liệu từ một TDE, dữ liệu được tải trực tiếp vào bộ nhớ của hệ điều hành. Tableau không phải mở, xử lý hoặc giải nén TDE để bắt đầu sử dụng nó. Nếu cần thiết, hệ điều hành tiếp tục di chuyển dữ liệu vào và ra khỏi RAM để đảm bảo rằng tất cả các dữ liệu được yêu cầu được cung cấp cho Tableau. Đây là điểm mấu chốt rất quan trọng - có nghĩa là Tableau có thể truy vấn dữ liệu lớn hơn RAM hiện có trên máy!

Chỉ có dữ liệu cho các cột được yêu cầu nạp vào RAM. Tuy nhiên, cũng có một số tối ưu hóa khác. Ví dụ, một sự tối ưu hóa mức hệ điều hành điển hình dễ nhận ra được khi truy cập vào dữ liệu trong một tệp tin được ánh xạ trên bộ nhớ đó gọi là sự tiếp giáp, và do đó,nó sẽ đọc trước để tăng tốc độ truy cập. Các tệp tin được ánh xạ bộ nhớ cũng chỉ được tải một lần bởi một hệ điều hành, bất kể có bao nhiêu người dùng hoặc hình ảnh hóa truy cập vào nó.

Vì không cần phải tải toàn bộ nội dung của TDE vào bộ nhớ để chúng được sử dụng, các yêu cầu phần cứng nên do đó chi phí của việc triển khai Server Tableau được giữ hợp lý.

Cuối cùng, nhận thức về kiến trúc không dừng lại ở bộ nhớ - TDE hỗ trợ hệ điều hành Mac OS X và Linux ngoài Windows, và có khả năng tương thích 32 và 64 bit. Nó không có được sự tốt hơn nhiều so với Windows và sự xử lý nhanh chóng trong bộ nhớ dữ liệu động cơ.

TDE đã tạo ra một bước ngoặt đột phá về mặt kỹ thuật và nó sẽ còn được phát triển nhiều và rộng hơn nữa.


Đ.M.H
Nguồn: Sưu tầm
Link :
https://www.tableau.com/about/blog/2014/7/understanding-tableau-data-extracts-part1?__src=liftigniter&__widget=blog-widget&li_source=LI&li_medium=blog-widget