Data Science là gì? Học data science ra trường làm gì? Đâu là những khái niệm, thuật ngữ về data science cần phân biệt khi tự tìm hiểu về lĩnh vực này? Cùng SOM phân biệt qua bài viết dưới đây nhé!
Data Science là gì?
Data science là ngành khoa học tập trung vào thu thập, định hình, lưu trữ, quản trị và phân tích dữ liệu để định hướng và đưa ra các quyết định cần sự logic cao thay vì kinh nghiệm hay cảm tính.
Vai trò của các chuyên gia về data science (data scientist) thường liên quan đến việc ứng dụng các thuật toán machine learning vào phát triển hệ thống AI (trí tuệ nhân tạo) dựa trên các dữ liệu đầu vào từ âm thanh, hình ảnh, video, văn bản, số; từ đó đưa ra các insight hữu ích cho các nhà phân tích kinh doanh (business analyst) lấy đó làm điểm tựa đưa ra các chiến lược giúp tăng sức bật tăng trưởng.
Do đó các kỹ năng cần thiết của data scientist thường là tổ hợp của toán học, điện toán thống kê và các kỹ năng lập trình. Nói cách khác đây là một lĩnh vực khá nặng về tổ hợp toán tin, không quá phù hợp cho số đông nhưng lại cực kỳ khan hiếm nhân sự ở cả hiện tại và tương lai gần.
Học Data Science ra trường làm gì? Các công việc của data scientist
Để dễ tưởng tượng hơn, hãy bắt đầu với công cụ bạn đang sử dụng hàng ngày – Google, mạng xã hội, trợ lý ảo, các kênh thương mại điện tử. Các data scientist lúc này thường là người đứng sau việc thiết lập về cách thức hiển thị khi tìm kiếm; cách thức gợi ý quảng cáo/ sản phẩm/ nội dung; cách thức nhận diện gương mặt, hình ảnh; cách thức nhận diện giọng nói như siri…
Ngày nay, công việc của Data Scientist khá linh hoạt, phù hợp cho nhiều lĩnh vực, ngành nghề. Phổ biến nhất trong thời gian gần đây có thể kể tới các phân mảng như tài chính, ngân hàng, chăm sóc sức khỏe, sản xuất, năng lượng, dược…
Ví dụ:
- Với ngành tài chính, data science thường được ứng dụng để phân tích trải nghiệm khách hàng, phát hiện hành vi gian lận, dò tìm các sai sót về thẻ credit, debit, cá nhân hóa gợi ý hoặc phân tích rủi ro.
- Trong ngành chăm sóc sức khỏe, đó là theo dõi tình hình sức khỏe cá nhân, phân tích dự báo nhanh tình trạng cơ thể, cảnh báo rủi ro nguy cơ…
- Còn với các lĩnh vực sản xuất, người làm data scientist thường chịu trách nhiệm dẫn dắt chuyển đổi số, tự động hóa, ứng dụng các giải pháp thông minh đồng thời giảm thiểu các tần suất cần bảo trì vốn gây ảnh hưởng tới dây chuyền với tiến độ sản xuất
Phân biệt các khái niệm và thuật ngữ về data science
Dưới đây là các thuật ngữ và khái niệm cơ bản khi tìm hiểu về ngành khoa học dữ liệu. Để tránh nhầm lẫn giữa các khái niệm trong quá trình tìm hiểu, cùng SOM điểm sơ qua 12 thuật ngữ dưới đây nhé!
1. Data engineer
Data engineer là những người phát triển các cơ sở hạ tầng tạo điều kiện cho quá trình thu thập, làm sạch và xử lý dữ liệu của các data scientist.
2. Machine Learning
Machine Learning (ML) là một tập hợp con AI (Trí tuệ nhân tạo), đề cập đến các kỹ thuật mà các nhà khoa học dữ liệu áp dụng để tạo ra các chương trình ‘tự học’ từ dữ liệu đầu vào. Đây cũng là ứng dụng dùng để đề xuất, tìm giải pháp dựa trên dữ liệu mà không bị giới hạn bởi các quy tắc lập trình thiết lập sẵn. Càng nhiều dữ liệu đầu vào và ‘tự học’ càng lâu, kết quả trả ra càng chính xác.
3. Classification
Classification là quá trình phân loại dữ liệu thành các nhóm khác nhau và ‘gán nhán’ cho chúng theo các đặt tính chung. Mục đích của việc phân loại là để xác định các bộ dữ liệu mới sẽ rơi vào nhóm nào. Dễ hiểu hơn, hãy hình dung về email. Khi một email gửi tới, vai trò của classification là xác định email đó sẽ nằm trong mục spam, social hay hòm thư chính.
4. Cross-Validation
Cross-Validation hay xác thực chéo liên quan đến các phương pháp xác thực tính chính xác hoặc độ ổn định của mô hình machine learning
5. Clustering
Clustering liên quan đến việc tìm kiếm và phân tách các điểm dữ liệu thành từng nhóm mang đặc tính chung/ tương tự.
6. Deep Learning
Deep learning là dạng nâng cấp của machine learning theo hướng mô phỏng bộ não con người thông qua các mạng lưới Nơ-ron nhân tạo (Artificial Neural Network). Thông qua đó, có khả năng nhận định vật thể, phiên dịch ngôn ngữ, nhận dạng giọng nói, đưa ra quyết định từ các insight thu thập bởi cả 2 dữ liệu ‘có dán nhãn’ và ‘không dán nhãn’.
7. A/B Testing
A/B testing hay còn gọi là thử nghiệm phân tách bao gồm các quy trình so sánh
các phiên bản của trang web, email hoặc tài sản kỹ thuật số khác, giúp đo lường sự khác biệt về hiệu suất khi thay đổi một yếu tố.
8. Hypothesis Testing
Hypothesis Testing (kiểm định giả thuyết) là phương pháp thống kê được sử dụng để đưa ra
quyết định thống kê. Nó thường được áp dụng trong nghiên cứu lâm sàng.
9. EDA (Phân tích khám phá dữ liệu)
Các kỹ thuật EDA (Exploratory Data Analysis) giúp tóm tắt các đặc điểm chính của bộ dữ liệu bằng cách sử dụng các phương pháp trực quan hóa. Với phương pháp EDA, các nhà khoa học dữ liệu có thể “nhìn thấy” những phương diện khác của dữ liệu, vượt xa những gì thu được được từ Hypothesis Testing hoặc các mô hình thử nghiệm khác.
10. Data Visualization
Hiểu đơn giản là trực quan hóa dữ liệu. Thông qua các yếu tố trực quan, chẳng hạn như bản đồ, biểu đồ và đồ thị, dữ liệu data visualization giúp dữ liệu được quan sát theo dạng đồ họa, từ đó thuận tiện hơn trong việc phân tích xu thế, khuôn mẫu và các ngoại lệ
11. Data Modeling
Data Modeling là quy trình tạo ra các sơ đồ mô tả về các mối liên kết giữa các mảnh thông tin được lưu trữ trong cơ sở dữ liệu. Đây cũng là kỹ năng các data scientist cần thành thạo để làm
nghiên cứu thiết kế và kiến trúc kho dữ liệu.
12. Data Warehouse
Data Warehouse (kho dữ liệu) là một thành phần cốt lõi của các doanh nghiệp dựa trên dữ liệu. Data Warehouse là cơ sở dữ liệu lưu trữ lịch sử giao dịch dữ liệu cho các phân tích và truy vấn. Kho dữ liệu thường kết hợp với nhiều framework và công cụ liên quan để cung cấp cơ sở chính xác cho việc trích xuất insights
Data Science là chuyên ngành mở ra nhiều tiềm năng vô hạn trong tương lai mà ở đó các nhà phân tích kinh doanh thường là đối tượng hưởng lợi nhiều nhất. Tại SOM, các chương trình không tập trung vào đào tạo data science, thay vào đó giảng dạy về cách ứng dụng các thành tựu của ngành khoa học dữ liệu vào chuyển đổi số và phân tích kinh doanh.
Tham khảo ngay về chương trình tại: Thạc sĩ phân tích kinh doanh và chuyển đổi số