Biểu đồ heatmap là gì? Cách ứng dụng trong phân tích dữ liệu kinh doanh và trực quan hóa dữ liệu

Biểu đồ heatmap là gì

Trong quá trình phân tích và trình bày dữ liệu, việc trực quan hóa thông tin đóng vai trò quan trọng giúp người xem dễ dàng hiểu và nhận ra các xu hướng trong dữ liệu. Thay vì chỉ sử dụng bảng số liệu hoặc văn bản mô tả, các biểu đồ trực quan giúp chuyển đổi dữ liệu phức tạp thành hình ảnh dễ tiếp cận hơn. Một trong những công cụ trực quan hóa dữ liệu phổ biến là biểu đồ heatmap. 

Heatmap là gì? Và bằng cách sử dụng màu sắc để biểu diễn giá trị dữ liệu, heatmap giúp người dùng nhanh chóng nhận ra các mẫu, xu hướng và mối quan hệ giữa các biến trong tập dữ liệu như thế nào? Cùng tham khảo về dạng biểu đồ này trong bài viết sau nhé! 

Heatmap là gì?

Heatmap (hay còn gọi là heat map) là một công cụ trực quan hóa dữ liệu dùng để thể hiện giá trị của một biến chính thông qua màu sắc trên một lưới các ô vuông. Lưới này được tạo từ hai biến trên hai trục. Các biến trên trục được chia thành các khoảng giống như trong biểu đồ cột hoặc histogram, và màu sắc của mỗi ô sẽ thể hiện giá trị của biến chính trong phạm vi tương ứng của ô đó.

bieu do heatmap la gi
Heatmap hiển thị lượng mưa tại Seattle theo tháng

Ví dụ heatmap trên thể hiện phân bố lượng mưa theo ngày, được nhóm theo tháng, và được ghi nhận trong suốt 11 năm tại Seattle, Washington.

Mỗi ô trong heatmap hiển thị một giá trị số giống như trong bảng dữ liệu thông thường, nhưng đồng thời được thể hiện bằng màu sắc. Những giá trị lớn hơn sẽ có màu đậm hơn.

Từ heatmap này, ta có thể thấy rằng các ô màu đậm nhất ở cột ngoài cùng bên trái cho thấy phần lớn các ngày trong năm không có mưa. Ngoài ra, sự thay đổi màu sắc giữa các tháng cũng cho thấy mưa xảy ra nhiều hơn vào mùa đông (từ tháng 11 đến tháng 3) và ít nhất vào mùa hè (tháng 7 và tháng 8).

Heatmap dưới dạng biểu đồ mật độ hai chiều (2-D density plots)

Thuật ngữ heatmap đôi khi cũng được dùng theo nghĩa rộng hơn, khi dữ liệu không bị giới hạn trong một lưới ô cố định. Ví dụ, các công cụ theo dõi hành vi trên website có thể sử dụng heatmap để xem người dùng tương tác với trang như thế nào, chẳng hạn:

  • Người dùng nhấp chuột ở đâu
  • Họ cuộn trang xuống đến mức nào
bieu do heatmap la gi 1
Ví dụ heatmap mật độ hiển thị trên bản đồ đường phố San Francisco (Google Maps)

Trong trường hợp này, mỗi lần nhấp chuột (hoặc sự kiện theo dõi khác) sẽ được gắn với một vị trí cụ thể. Từ vị trí đó, một giá trị số nhỏ sẽ lan tỏa ra xung quanh điểm đó. Các giá trị này sau đó được cộng dồn từ tất cả các sự kiện và hiển thị bằng một bảng màu.

Cách thể hiện dữ liệu bằng màu sắc của các công cụ này khá giống với heatmap dạng lưới đã đề cập ở trên, chỉ khác là chúng không sử dụng cấu trúc lưới cố định. Những loại heatmap này đôi khi còn được gọi là biểu đồ mật độ hai chiều (2-D density plots).

Khi nào nên sử dụng heatmap

Heatmap được dùng để hiển thị mối quan hệ giữa hai biến dữ liệu bằng màu sắc. Mỗi ô trong biểu đồ đại diện cho một nhóm dữ liệu, và màu càng đậm thường thể hiện giá trị càng cao.

Nhìn vào sự thay đổi màu sắc giữa các ô, người xem có thể nhanh chóng nhận ra xu hướng hoặc khu vực có nhiều dữ liệu hơn mà không cần đọc từng con số.

Ví dụ trong hình này:

bieu do heatmap la gi 3

Trong ví dụ trên, một heatmap của website cho thấy nơi người dùng click hoặc chú ý nhiều nhất trên trang.

  • Vùng màu đỏ / cam → người dùng tương tác nhiều
  • Vùng màu vàng / xanh → ít tương tác hơn

Nhờ đó, nhà thiết kế có thể biết:

  • Người dùng đang chú ý đến phần nào của trang
  • Nút nào được click nhiều nhất
  • Nội dung nào ít được quan tâm

Hai trục của heatmap có thể là nhiều loại dữ liệu khác nhau, ví dụ:

  • Thời gian – Trang web
  • Tháng – Lượng mưa
  • Ngành nghề – Loại nội dung

Trong nhiều trường hợp, heatmap giống như một bảng dữ liệu nhưng được tô màu, giúp người xem nhận ra xu hướng nhanh hơn so với chỉ nhìn số liệu.

Các nguyên tắc khi sử dụng heatmap là gì?

Chọn bảng màu phù hợp

Màu sắc là yếu tố quan trọng nhất của heatmap, vì nó dùng để thể hiện giá trị dữ liệu. Vì vậy cần chọn bảng màu phù hợp với loại dữ liệu đang hiển thị.

Thông thường, heatmap sử dụng thang màu tăng dần (sequential color scale):

  • màu nhạt → giá trị thấp
  • màu đậm → giá trị cao

Tuy nhiên, nếu dữ liệu có mốc 0 quan trọng (ví dụ: lãi và lỗ), thì có thể dùng bảng màu phân kỳ (diverging color scale) để thể hiện hai hướng giá trị khác nhau.

Thêm chú thích màu (legend)

Heatmap nên có chú thích giải thích ý nghĩa của màu sắc. Vì bản thân màu sắc không nói lên giá trị cụ thể, nên legend giúp người xem hiểu màu nào tương ứng với mức giá trị nào.

Ví dụ:

bieu do heatmap la gi 4


Trong calendar heatmap này của GitHub, phần chú thích cho biết:

  • màu nhạt → ít hoạt động
  • màu đậm → nhiều đóng góp hơn trong ngày đó

Hiển thị giá trị trong các ô

Khi phân tích dữ liệu kinh doanh và trực quan hóa chúng, màu sắc giúp nhìn xu hướng nhanh, nhưng không thể hiện con số chính xác. Vì vậy, khi có thể, nên hiển thị thêm số liệu trực tiếp trong từng ô của heatmap. Cách này giúp người xem vừa nhìn được màu sắc tổng quan, vừa đọc được giá trị cụ thể.

Sắp xếp các nhóm dữ liệu hợp lý

Nếu trục của heatmap là dữ liệu phân loại (ví dụ: ngành nghề, quốc gia, sản phẩm), bạn có thể thay đổi thứ tự hiển thị để giúp người đọc dễ nhận ra xu hướng.

Một cách phổ biến là sắp xếp từ giá trị lớn đến nhỏ dựa trên giá trị trung bình của từng nhóm. Ngoài ra, trong các phân tích nâng cao, người ta còn nhóm các danh mục có đặc điểm giống nhau lại với nhau (clustering) để dễ nhìn ra mối quan hệ.

Chọn vạch chia trục (tick marks) hợp lý

Nếu trục của heatmap là dữ liệu số, dữ liệu thường được chia thành nhiều khoảng giá trị (bins).

  • Nếu số khoảng ít → có thể hiển thị vạch chia ở từng khoảng.
  • Nếu số khoảng nhiều → nên đặt vạch chia giữa các nhóm khoảng để biểu đồ không bị rối.

Số lượng khoảng dữ liệu và kích thước mỗi khoảng phụ thuộc vào đặc điểm của dữ liệu, nên đôi khi cần thử nhiều cách chia khác nhau để tìm ra cách hiển thị rõ ràng nhất.

Các dạng heatmap phổ biến

Clustered heatmap

Clustered heatmap là một biến thể phổ biến của heatmap khi phân tích dữ liệu kinh doanh. Trong dạng biểu đồ này, trục ngang không chỉ thể hiện các mức của một biến duy nhất mà có thể đại diện cho nhiều biến hoặc nhiều chỉ số khác nhau. Khi đó, trục dọc thường biểu thị các đối tượng quan sát như người dùng, sản phẩm hoặc các mẫu dữ liệu.

Cách tổ chức này khiến heatmap trông khá giống một bảng dữ liệu. Mỗi hàng tương ứng với một đối tượng quan sát, trong khi mỗi cột thể hiện giá trị của một biến hoặc đặc điểm được đo lường. Điểm khác biệt là các giá trị trong bảng được mã hóa bằng màu sắc để giúp người xem nhận ra xu hướng hoặc sự khác biệt nhanh hơn.

Clustered heatmap thường được sử dụng trong nhiều lĩnh vực nghiên cứu, đặc biệt là trong khoa học sinh học. Ví dụ, các nhà khoa học có thể dùng biểu đồ này để so sánh sự tương đồng trong biểu hiện gene giữa các cá thể. Trong một ví dụ về clustered heatmap của hoa iris, mỗi cột đại diện cho một mẫu hoa, còn mỗi hàng thể hiện một đặc điểm đo được của mẫu đó, chẳng hạn như chiều dài hoặc chiều rộng của các bộ phận của hoa.

Correlogram

Correlogram là một dạng heatmap khác được sử dụng để thể hiện mối quan hệ giữa các biến số trong cùng một tập dữ liệu. Khác với heatmap thông thường, trong correlogram cả hai trục của biểu đồ đều liệt kê các biến số của dữ liệu. Mỗi ô trong biểu đồ thể hiện mức độ liên hệ giữa hai biến giao nhau.

Mối quan hệ này thường được biểu diễn bằng hệ số tương quan. Màu sắc của ô cho biết mức độ tương quan mạnh hay yếu, cũng như tương quan dương hay tương quan âm giữa hai biến. Trong một số trường hợp, các ô của correlogram còn có thể chứa những biểu đồ nhỏ như scatter plot để minh họa rõ hơn mối quan hệ giữa hai biến.

Correlogram thường được sử dụng trong giai đoạn khám phá dữ liệu ban đầu. Nó giúp các nhà phân tích nhận ra những biến nào có mối liên hệ với nhau và mức độ liên hệ đó mạnh hay yếu. Thông tin này rất hữu ích khi xây dựng các mô hình thống kê hoặc mô hình dự đoán, vì nó giúp xác định những biến quan trọng cần đưa vào phân tích.

Các loại biểu đồ liên quan

Bên cạnh heatmap, còn có một số loại biểu đồ khác cũng được dùng để trực quan hóa dữ liệu và có cách thể hiện tương đối giống với heatmap trong một số trường hợp.

Biểu đồ cột (bar chart) và biểu đồ histogram

Đây là hai dạng biểu đồ một chiều gần nhất với heatmap. Bar chart thường được sử dụng cho dữ liệu phân loại, trong khi histogram dùng cho dữ liệu số. Điểm khác biệt chính là hai biểu đồ này biểu diễn giá trị bằng độ dài của cột thay vì bằng màu sắc như heatmap. Trong histogram, mỗi cột thường biểu thị tần suất xuất hiện của dữ liệu trong một khoảng giá trị nhất định. Nhiều nguyên tắc khi thiết kế heatmap, chẳng hạn như việc sắp xếp thứ tự dữ liệu hoặc lựa chọn vạch chia trục, cũng xuất phát từ cách trình bày của hai loại biểu đồ cơ bản này.

Biểu đồ cột nhóm – Grouped bar chart

Một cách khác để thể hiện dữ liệu tương tự heatmap là sử dụng biểu đồ cột nhóm (grouped bar chart). Trong trường hợp này, mỗi hàng của heatmap được chuyển thành một nhóm cột, và chiều cao của từng cột thể hiện giá trị dữ liệu tương ứng. Màu sắc được sử dụng để phân biệt các nhóm dữ liệu giữa các cột. Biểu đồ cột nhóm cho phép so sánh giá trị giữa các nhóm khá chính xác. Tuy nhiên, khi số lượng dữ liệu quá lớn hoặc cả hai trục đều là biến số, biểu đồ này sẽ trở nên phức tạp và khó đọc. Trong những trường hợp đó, heatmap thường hiệu quả hơn vì nó gọn gàng và cung cấp cái nhìn tổng quan tốt hơn.

Biểu đồ phân tán – Scatter plot

Scatter plot cũng có mối liên hệ nhất định với heatmap. Scatter plot thể hiện từng điểm dữ liệu bằng vị trí của chúng trên hai trục. Tuy nhiên, khi số lượng điểm dữ liệu quá nhiều, các điểm có thể chồng lên nhau và làm cho biểu đồ trở nên khó quan sát. Hiện tượng này được gọi là overplotting. Một cách khắc phục là sử dụng heatmap để đếm số lượng điểm dữ liệu trong từng vùng và thể hiện mật độ bằng màu sắc. Trong trường hợp này, heatmap còn được gọi là histogram hai chiều.

Bản đồ trực quan hóa dữ liệu – Choropleth

Ngoài ra, cách mã hóa dữ liệu bằng màu sắc cũng được sử dụng trong một loại biểu đồ khác là choropleth. Đây là dạng bản đồ trong đó các khu vực địa lý được tô màu dựa trên giá trị của dữ liệu. Ví dụ, bản đồ dân số của Hoa Kỳ thường sử dụng màu sắc để thể hiện dân số của từng bang. Mặc dù nguyên tắc sử dụng màu sắc tương tự heatmap, choropleth khác ở chỗ dữ liệu được gắn với các khu vực địa lý thay vì một lưới ô vuông cố định.

Hi vọng bài viết này đã giúp bạn nắm rõ heatmap là gì. Tóm lại, đây là một công cụ trực quan hóa dữ liệu hiệu quả giúp thể hiện mối quan hệ giữa các biến thông qua màu sắc. Nhờ cách biểu diễn trực quan này, người xem có thể nhanh chóng nhận ra xu hướng, sự phân bố dữ liệu và các khu vực có giá trị nổi bật mà không cần phân tích từng con số riêng lẻ. Khi được sử dụng đúng cách, heatmap không chỉ giúp việc phân tích dữ liệu kinh doanh trở nên dễ dàng hơn mà còn hỗ trợ quá trình ra quyết định dựa trên dữ liệu một cách hiệu quả.

→ Có thể bạn quan tâm: Thành thạo các phương pháp phân tích dữ liệu với chương trình PM BADT – Thạc Sĩ Chuyên Nghiệp về Phân Tích Kinh Doanh và Chuyển Đổi Số

Facebook
LinkedIn
Email
Print
Viện Công Nghệ Châu Á - AIT

Trường Quản Lý - SOM

Mục tiêu của chúng tôi tại Trường Quản lý (SOM) là tác động đến chất lượng giáo dục và thực tiễn quản lý ở khu vực Châu Á – Thái Bình Dương và trên toàn thế giới: nhằm thúc đẩy sự phát triển bền vững, dẫn đầu công nghệ, tinh thần kinh doanh, sự giàu có sự sáng tạo và niềm tự hào.

0
Năm
Thành lập
0 0
Chương trình
Đào tạo

CONTACT US

Kết nối cùng SOM-AIT để cập nhật thêm thông tin về các chương trình: Thạc sĩ, Tiến sĩ, Đào tạo ngắn hạn, học bổng…

Tư vấn
Chat ngay
Gọi ngay
Đăng ký
Chat
Gọi ngay

ĐĂNG KÝ TƯ VẤN

Form đầy đủ
Họ và tên
Họ và tên