Hướng dẫn Power Query cơ bản cho người mới bắt đầu. (Phần II)

Phần II: Phương thức kết nối và giao diện của Power Query.

Giới thiệu.

Ở phần trước tôi đã giới thiệu cho các bạn cơ bản về Power Query là thế nào? Ở bài hôm nay tôi sẽ đi chi tiết về cách kết nối dữ liệu của Power Query tới các file dữ liệu đơn giản và giới thiệu tổng quan về giao diện của Power Query.

Kết nối đến Power Query.

Kết nối là một trong những tính năng được đánh giá là ưu việt của Excel bởi nó có thể kết nối với đa dạng các nguồn khác nhau.Ví dụ: Các file dữ liệu đơn giản như .csv, .json, các file Excel khác,… hoặc các hệ thống phức tạp khác như các database như Oracle, SQL Server, … Tuy nhiên ở mức độ cơ bản tôi sẽ chỉ hướng dẫn các bạn kết nối dữ liệu từ một file Excel khác.

> Xem thêm: Học thêm các cách kết nối khác của Power Query

Thông thường trước đây khi dùng Excel chúng ta thường sao chép dữ liệu từ file Excel này sang file Excel khác bằng phương pháp copy, paste. Tuy nhiên câu hỏi đặt ra là dữ liệu nguồn có hàng triệu dòng dữ liệu thì quá trình này sẽ phải mất bao lâu? Vì thế chúng ta sẽ ưu tiên sử dụng Power Query hơn trong trường hợp này.

Để kết nối được vào Power Query (hay kết nối dữ liệu từ nguồn khác) ta thực hiện:

Data > From File > From Workbook > Chọn vị trí file Excel

Sau đó cửa sổ Navigator xuất hiện. Ở đây chúng ta chọn ra sheet dữ liệu mong muốn. Các file dữ liệu Excel ở đây sẽ định dạng kiểu bảng dữ liệu. Để chọn nhiều chúng ta tích vào ô Select multiple items.

Sau đó chúng ta sẽ lựa chọn hai option:

+ Load: Load toàn bộ dữ liệu ra Excel và tồn tại dưới dạng bảng dữ liệu.

+ Transform Data: Sử dụng dữ liệu vừa kết nối và xử lý trên giao diện Power Query Editor

Ở đây tôi không khuyến cáo sử dụng Load bởi mục đích của việc kết nối tới Power Query là tải khối dữ liệu lớn và xử lý chúng nên việc load trực tiếp như này gần như là không cần (Tuy nhiên nếu dữ liệu đó là cần thiết thì chúng ta vẫn có thể sử dụng Load). Vì thế để ở đây chúng ta sẻ sử dụng Transform Data để truy cập vào cửa sổ Power Query Editor để xử lý dữ liệu.

Sau khi kết nối tới Power Query Editor giao diện sẽ hiện ra dạng như sau:

Ở giao diện này chúng ta có 10 điểm cần chú ý:

  • Phần 1 Queries: Ở phần này mỗi một trang dữ liệu được tải vào được coi là một Query. Ngoài ra chúng ta cũng có thể tạo các Folder để tổ  chức các Query.
  • Phần 2 SNAPSHOT: Dữ dữ liệu sẽ được hiển thị ở phần này. Tuy nhiên đây chỉ là dữ liệu tượng trưng cho bộ dữ liệu. (Chỉ hiển thị tối đa 100 dòng)
  • Phần 3 COLROW: Thể hiện số lượng dòng và cột của dữ liệu mà chúng ta cần xử lý. Nếu dữ liệu cần xử lý quá lớn, số dòng sẽ hiển thị ở mức đặc trưng là 999+ rows.
  • Phần 4 Tab: Là các tab tính năng của Power Query. Trước khi chọn thực hiện một tính năng nào, cần lưu ý xác định đối tượng thực hiện là cột, dòng hay bảng.
  • Phần 5 Filter: Thực hiện chức năng lọc dữ liệu của Power Query.
  • Phần 6 Properties: Các thông tin của Query (Ở đây bạn có thể đổi tên Query) và lựa chọn các thuộc tính của query.
  • Phần 7 Applied steps: Ghi lại các thao tác lên dữ liệu dưới dạng các bước. Tên và trật tự cảu các bước có thể tùy chỉnh. Giao diện phần 2 sẽ thay đổi để thể hiện dữ liệu tại thời điểm của các bước đang được chọn giúp cho bất kì ai cũng có thể đọc hiểu các query được thiết lập. (Ghi log)
  • Phần 8 Settting: Cho phép thay đổi các thiết lập trước đó trong giao diện tính năng. Bất kỳ bước nào có kí hiệu nào có khả năng thay đổi.
  • Phần 9 Load: Kết thúc quá trình xử lý trong Power Query hay Query Edditor.
  • Phần 10 Refresh: Kích hoạt tất cả các bước cuối. Tất cả thao tác xử lý dữ liệu sẽ được lưu lại thành chuỗi lệnh PQL trong Query và tự động thực hiện trong lần sau khi được refresh. Thiết lập một lần – dùng lại nhiều lần – tích kiệm thời gian

Như vậy tôi đã nói qua tổng quan về giao diện cơ bản của Power Query và cách kết nối ở phần sau tôi sẽ nói về cách làm việc với dữ liệu với Power Query.

Cảm ơn các bạn đã quan xem bài viết.

Trả lời