Trong bài viết này, mình sẽ tổng hợp tất cả các câu hỏi và câu trả lời trong Khóa học thứ 2 của Chứng chỉ Google Data Analytics – Ask Questions to Make Data-Driven Decisions. Mục đích của những câu hỏi này là giúp các bạn tóm tắt kiến thức và ghi chú thêm nhiều kiến thức mới mà các bạn khám phá được trong suốt quá trình học tập.
Tham gia kênh Telegram của AnonyViet 👉 Link 👈 |
Những gì mình học được từ Khoá học 2 của Google Data Analytics
2 công việc chính của Data Analytics là gì?
Xử lý dữ liệu và giải quyết vấn đề.
Data Analytics cần làm gì để giải quyết vấn đề?
Tư duy có chiến lược, đặt câu hỏi hay và sử dụng dữ liệu để đưa ra giải pháp.
Tư duy có chiến lược là gì?
Tư duy có chiến lược là tư duy có tính tổ chức và thực tế. Nó giúp chúng ta nhìn thấy bức tranh toàn cảnh, lập kế hoạch và biến suy nghĩ thành hành động để lấy lợi thế cạnh tranh trong kinh doanh.
Các câu hỏi về dữ liệu
Bạn sẽ mô tả từ “dữ liệu” cho người khác như thế nào?
Dữ liệu là tập hợp các sự kiện như số liệu, các phép thử, quan sát…
Dữ liệu đại diện cho cái gì?
Dữ liệu định tính là thông tin mô tả, còn dữ liệu định lượng là thông tin số liệu.
Dữ liệu dùng để làm gì?
Dữ liệu dùng để cung cấp cho chúng ta thông tin về các sự kiện hoặc chủ đề chúng ta quan tâm và giúp chúng ta đưa ra quyết định cũng như dự đoán được tương lai dựa trên dữ liệu.
Dữ liệu đến từ đâu?
Từ cơ sở dữ liệu, bảng tính, nội bộ, bên trong hoặc bên ngoài doanh nghiệp, dữ liệu công khai.
Dữ liệu định tính và định lượng là gì và sử dụng chúng khi nào?
Các công cụ dữ liệu định tính được sử dụng để hiểu rõ hơn về dữ liệu. Còn các công cụ dữ liệu định lượng hoạt động với những dữ liệu có thể đo lường được.
Với dữ liệu thu thập được, Data Analytics có thể thực hiện các bước sau để giải quyết vấn đề kinh doanh:
- Xác định mục tiêu kinh doanh của các bên liên quan
- Xác định dữ liệu cần thiết để trả lời các câu hỏi trong SMART
- Những dữ liệu mà các bên liên quan đã có
- Các nguồn dữ liệu có sẵn cho các dự án là gì
- Nguồn dữ liệu nào là định tính/định lượng
- Dữ liệu nào không có sẵn
6 vấn đề Data Analytics hay gặp phải
- Đưa ra dự đoán — ví dụ: Công ty muốn biết các phương pháp quảng cáo tốt nhất để thu hút khách hàng mới.
- Phân loại mọi thứ — ví dụ: Phân loại các cuộc gọi dịch vụ khách hàng dựa trên từ khóa hoặc điểm số.
- Phát hiện điều bất thường — ví dụ: Đồng hồ theo dõi sức khỏe được thiết kế để báo động nếu có điều gì đó bất thường xảy ra.
- Xác định chủ đề — Để giúp tìm ra và cải thiện các tính năng phù hợp cho sản phẩm
- Tìm các kết nối — Ví dụ trong các bộ dữ liệu khác nhau hoặc phân tích một bộ dữ liệu để tìm ra mối liên hệ với một bộ dữ liệu khác (ví dụ: thời gian xe chở hàng chờ trong bến trung chuyển có thể làm thay đổi lịch trình để tăng số lượng đơn giao hàng)
- Tìm các mẫu — Bạn có thể giảm thiểu thời gian ngừng hoạt động do máy bị lỗi bằng cách phân tích dữ liệu bảo trì.
Giải thích mô hình câu hỏi SMART
- S – Specific – Cụ thể: Câu hỏi có giải quyết được vấn đề không? Vấn đề có ngữ cảnh không?
- M – Measurable – Đo lường được: Câu hỏi có đưa ra câu trả lời có thể đo lường được không?
- A – Actionable – Định hướng hành động: Thông tin mà chúng ta nhận được có giúp chúng ta lập kế hoạch hành động không?
- R – Relevant – Định hướng hành động: Đó có là vấn đề cụ thể mà chúng ta đang cố gắng giải quyết không?
- T – Time Bound – Giới hạn thời gian: Các câu trả lời có liên quan đến thời gian cụ thể không?
3 loại câu hỏi nên tránh
Câu hỏi dẫn dắt — câu trả lời là một phần của câu hỏi — “Sản phẩm này đắt quá phải không?”
Câu hỏi đóng — chỉ có thể được trả lời bằng một từ hoặc một câu trả lời ngắn gọn — “Bạn có hài lòng với sản phẩm dùng thử không?
Câu hỏi mơ hồ – không cụ thể và không cung cấp ngữ cảnh – “Công cụ này có phù hợp với bạn không?”
Cách có một cuộc trò chuyện tốt
Ưu tiên các câu hỏi — Có sự chuẩn bị trước để hỏi những câu hỏi quan trọng và thú vị nhất.
Tận dụng thời gian — duy trì chủ đề chính trong suốt cuộc trò chuyện.
Kiểm tra lại nội dung — dành thời gian để tóm tắt các câu trả lời nhằm đảm bảo bạn hiểu chúng một cách chính xác.
Báo cáo và bảng điều khiển: So sánh các trường hợp sử dụng và sự khác biệt
Báo cáo (Report) là một tập hợp dữ liệu tĩnh. Báo cáo được tạo ra để phân tích dữ liệu định kỳ và dữ liệu lịch sử (historical data), thiết kế nhanh chóng.ư\
Bảng điều khiển (Dashboard) là trang kỹ thuật dùng để thu thập và tổng quan dữ liệu trực tiếp. Cung cấp các bộ lọc, thiết kế lâu hơn và cần được bảo trì.
Số liệu là gì?
Số liệu (Metric) là một loại dữ liệu có thể định lượng được sử dụng để đo lường. Thường là các công thức toán học đơn giản. Ví dụ: doanh thu = số lượng sản phẩm * giá bán. Doanh thu bây giờ là số liệu. Một số chỉ số khác: lợi tức đầu tư, tỷ lệ giữ chân khách hàng…
Lợi tức đầu tư ROI là gì và nó được tính như thế nào?
ROI là một công thức cho thấy doanh nghiệp đang đầu tư hiệu quả như thế nào bằng cách so sánh lợi nhuận và chi phí đầu tư.
Tỷ lệ giữ chân khách hàng là gì?
So sánh số lượng khách hàng vào đầu và cuối một giai đoạn để thấy các chiến lược tiếp thị của doanh nghiệp có hiệu quả không.
Lợi ích của việc sử dụng bảng điều khiển (dashboard)
- Tập trung hóa – Các nguồn dữ liệu đều được hiển thị trong một trang.
- Trực quan hóa – Hiển thị dữ liệu trực tiếp để phát hiện các xu hướng mới
- Đa nguồn – Lấy dữ liệu có liên quan từ các bộ dữ liệu khác nhau
- Tùy chỉnh – Tùy chỉnh bảng điều khiển cho các lĩnh vực khác nhau
Sự khác biệt giữa dữ liệu lớn và dữ liệu nhỏ
Dữ liệu nhỏ (small data) – là tập dữ liệu gồm các số liệu cụ thể trong một khoảng thời gian ngắn, thường ở dạng bảng tính, được sử dụng bởi các doanh nghiệp vừa và nhỏ, đơn giản dùng để thu thập, lưu trữ, sắp xếp và trình bày trực quan.
Dữ liệu lớn (big data) – là tập dữ liệu ít cụ thể hơn trong một khoảng thời gian dài, thường là trong cơ sở dữ liệu, được sử dụng bởi các tổ chức lớn, mất thời gian và công sức để thu thập, lưu trữ và quản lý… cần được chia thành các phần nhỏ hơn để sắp xếp và phân tích.
Những khó khăn khi làm việc với big data
Quá tải dữ liệu và nhiều thông tin không liên quan. Dữ liệu quan trọng bị ẩn sâu bên trong dữ liệu rác và không phải lúc nào cũng có thể truy cập được. Bạn phải mất thời gian để tìm các dữ liệu có liên quan.
Lợi ích khi làm việc với big data
Có thể giúp các tổ chức phát hiện ra các xu hướng, phân tích các bộ dữ liệu big data giúp các doanh nghiệp hiểu rõ hơn về các điều kiện thị trường.
4V trong big data
- volume — Lượng dữ liệu
- variety – Các loại dữ liệu khác nhau
- velocity – Tốc độ xử lý dữ liệu
- veracity – Chất lượng và độ tin cậy của dữ liệu
3 loại bảng điều khiển và khi nào nên sử dụng
Chiến lược – Tập trung vào các chiến lược dài hạn, có khung thời gian dài nhất, và cũng nhiều số liệu nhất.
Hoạt động – Theo dõi hiệu suất ngắn hạn và các mục tiêu trung gian (ví dụ: dịch vụ khách hàng).
Phân tích – Bao gồm các bộ dữ liệu và công thức được sử dụng, phân tích và dự đoán. Nhiều kỹ thuật nhất, thường được thực hiện bởi các nhà khoa học dữ liệu.
Vòng đời dữ liệu trong bảng tính
Plan – Phát triển các tiêu chuẩn bằng cách định dạng các ô để dễ nói chuyện và đảm bảo tính nhất quán.
Capture – Kết nối bảng tính với các nguồn dữ liệu khác như khảo sát trực tuyến, ứng dụng trực tuyến hoặc cơ sở dữ liệu để đảm bảo thông tin luôn được cập nhật và chính xác.
Manage – Lưu trữ, sắp xếp, lọc và cập nhật thông tin để giữ cho dữ liệu có thể truy cập, an toàn và bảo mật.
Analyze – Áp dụng các công thức và hàm để tổng hợp dữ liệu nhằm tạo các báo cáo, bảng tổng hợp để có hình ảnh rõ ràng và dễ sử dụng.
Archive – Lưu trữ để sử dụng trong tương lai.
Destroy – Nếu không sử dụng dữ liệu nữa thì phá hủy chúng, vì lý do pháp lý hoặc bảo mật.
Các thủ thuật hay khi làm việc với dữ liệu trong bảng tính
- Lọc dữ liệu để làm cho bảng tính ít phức tạp và rõ ràng hơn
- Cố định tiêu đề
- Nhân các số bằng *
- Bắt đầu công thức và chức năng bằng =
- Nếu bạn mở dấu ngoặc đơn thì nên thêm dấu đóng ngoặc đơn ngay
- Sử dụng phông chữ dễ đọc
- Định dạng dữ liệu dưới dạng bảng
- Lưu dữ liệu thô (và không làm việc trực tiếp trên chúng) và luôn làm việc với bản sao của dữ liệu thô trên một trang tính khác
Các lỗi phổ biến nhất trong bảng tính
#DIV/0! – Chia cho 0
#ERROR! – Lỗi phân tích cú pháp
#N/A – Công thức không thể tìm thấy dữ liệu
#NAME? – Tên của công thức hoặc chức năng không đúng
#NUM! – Hàm chứa giá trị số không hợp lệ
#REF! – Tham chiếu không hợp lệ
#VALUE! – Dữ liệu đầu vào không thống nhất
Các chức năng của bảng tính là gì?
Chức năng là các lệnh tự động thực hiện một quy trình hoặc tác vụ cụ thể bằng cách sử dụng dữ liệu trong bảng tính. Chúng ta có thể dùng chắc năng để thực hiện các phép tính, từ các công thức đơn giản đến các phương trình phức tạp.
Miền vấn đề là gì?
Miền vấn đề là lĩnh vực chuyên môn hoặc ứng dụng cần được kiểm tra để giải quyết vấn đề. Miền vấn đề chỉ đơn giản là xem xét các chủ đề bạn quan tâm và loại trừ những thứ không liên quan. Đó là lĩnh vực thuộc về các vấn đề mà bạn cần phải giải quyết.
Phạm vi công việc (SOW) là gì?
Phạm vi công việc bạn sẽ thực hiện trong một dự án. Nó bao gồm chi tiết các công việc, lịch trình và báo cáo.
SOW của các nhà phân tích dữ liệu là gì?
Chuẩn bị dữ liệu, xác nhận, phân tích các bộ dữ liệu định lượng và định tính, kèm theo:
- Sản phẩm bàn giao – Những gì đã hoàn thành, những gì đang được tạo ra như là kết quả của dự án và những gì dự kiến sẽ được chuyển giao cho các bên liên quan.
- Cột mốc quan trọng – Các bước chính trong dự án, liên quan đến timeline.
- Dòng thời gian – Các bước liên quan đến thời gian của dự án (các mốc quan trọng). Xác định mỗi bước sẽ mất bao lâu.
- Báo cáo – tần suất sẽ được thống nhất với các bên liên quan và báo cáo sẽ chứa có những thông tin gì.
Ngữ cảnh là gì và tại sao nó quan trọng?
Ngữ cảnh là điều kiện và môi trường của sự kiện xảy ra. Nó giúp chúng ta sàng lọc một lượng lớn dữ liệu vô tổ chức để biến nó thành thứ gì đó có ý nghĩa.
Những câu hỏi cơ bản chúng ta cần đặt ra để xác định ngữ cảnh là gì?
Để xác định ngữ cảnh, chúng ta cần hỏi những câu sau:
- Ai đã tạo, thu thập và tài trợ cho việc thu thập dữ liệu
- Những thứ mà dữ liệu sẽ tác động đến
- Nguồn gốc của dữ liệu
- Thời gian dữ liệu được tạo hoặc thu thập
- Tại sao dữ liệu được tạo hoặc thu thập
- Cách tạo hoặc thu thập dữ liệu
Các bên liên quan gồm những ai
Những người đã đầu tư thời gian, sự quan tâm và nguồn lực vào các dự án mà chúng ta đang thực hiện.
3 nhóm liên quan chính và họ chịu trách nhiệm gì
1. Nhóm điều hành – đặt mục tiêu, phát triển chiến lược và đảm bảo chiến lược đó được thực hiện hiệu quả. Họ có thể bao gồm phó chủ tịch, giám đốc tiếp thị và các chuyên gia cấp cao. Điểm chung của nhóm này là quyền hạng mà họ có thường rất cao.
2. Nhóm tiếp xúc với khách hàng – bất kỳ ai có tương tác với khách hàng. Họ là người tổng hợp thông tin, đặt kỳ vọng và truyền đạt phản hồi của khách hàng. Họ có mục tiêu riêng và có thể đi kèm với các nhiệm vụ cụ thể.
3. Nhóm khoa học dữ liệu – tổ chức dữ liệu trong một công ty với các nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư dữ liệu.
Làm gì để làm việc hiệu quả hơn với các bên liên quan? (W4L1)
Thảo luận về các mục tiêu, lập kế hoạch cho những điều không mong muốn (lập danh sách các thử thách tiềm năng), hiểu cách dự án của bạn kết nối với công ty, bắt đầu bằng một bản mô tả và hình ảnh rõ ràng, giao tiếp thường xuyên và sử dụng nhật ký để ghi lại các thay đổi.
4 điều bạn nên biết để giao tiếp rõ ràng
- Khán giả của bạn là ai
- Những thứ mà họ đã biết
- Những gì mà họ cần biết
- Làm thế nào để bạn giao tiếp hiệu quả với họ
3 điều bạn nên tập trung
- Ai là bên liên quan chính – Thường là phó chủ tịch nhân sự. Người quản lý dự án, các thành viên trong nhóm và các nhà phân tích khác là các bên liên quan thứ cấp.
- Ai đang quản lý dữ liệu – Tác nhà phân tích dữ liệu khác.
- Ai là người có thể giúp đỡ bạn – Có thể là người quản lý dự án
Hạn chế của dữ liệu và cách xử lý chúng
- Dữ liệu không đầy đủ và không tồn tại – Khi bạn không có đủ dữ liệu để đưa ra kết luận. Bạn có thể vẫn sử dụng một nguồn dữ liệu khác, nhưng bạn sẽ cần đảm bảo kết luận.
- Dữ liệu bị sai lệch – Các nhóm khác nhau có thể sử dụng các quy tắc kinh doanh khác nhau, do đó, một nhóm có thể xác định và đo lường dữ liệu khác với các nhóm khác. Trong những trường hợp này, việc thiết lập cách đo lường mọi thứ sớm sẽ chuẩn hóa dữ liệu để có độ tin cậy và độ chính xác cao hơn.
- Dữ liệu bẩn – Dữ liệu chứa lỗi. Điều này có thể dẫn đến giảm năng suất, tăng kích thước và đưa ra kết luận sai lệch.
Làm sạch dữ liệu là quá trình sửa hoặc xóa dữ liệu không chính xác, bị hỏng, sai định dạng, trùng lặp hoặc không đầy đủ trong bộ dữ liệu.
Cách thể hiện dữ liệu rõ ràng
- So sánh cùng một loại dữ liệu – dữ liệu có thể bị lẫn lộn khi bạn lập biểu đồ để trực quan hóa. Vậy nên bạn cần đảm bảo so sánh các loại dữ liệu giống nhau.
- Cẩn thận khi trực quan hóa dữ liệu – Bạn nên đặt trục Y thành 0.
- Thêm các biểu đồ không cần thiết – nếu một bảng kể một câu chuyện, thì đừng thêm các hình ảnh không cần thiết.
- Kiểm tra ý nghĩa của số liệu thống kê – Nếu hai bộ dữ liệu có thể trông khác nhau, thì bạn cần phải tìm sự khác biệt và xem nó có quan trọng hay không. Bạn có thể sử dụng các bài kiểm tra thống kê để xem mức độ khác biệt.
- Chú ý đến kích thước mẫu – thu thập nhiều dữ liệu. Nếu cỡ mẫu nhỏ, một vài dữ liệu bất thường có thể làm sai lệch kết quả.
Cách để có một cuộc họp hiệu quả
- Có sự chuẩn bị
- Đến đúng giờ
- Tập trung, chú ý
- Đặt câu hỏi
Các loại dữ liệu bẩn và hệ quả của chúng
- Dữ liệu trùng lặp – Số liệu hoặc phân tích sai lệch.
- Dữ liệu lỗi thời – Có cái sai, dẫn đến việc ra quyết định và phân tích không chính xác.
- Dữ liệu không đầy đủ – Giảm hiệu suất, thông tin chi tiết không chính xác, không thể hoàn thành yêu cầu cơ bản.
- Dữ liệu không chính xác – Thông tin chi tiết không chính xác có thể dẫn đến mất doanh thu.
- Dữ liệu không nhất quán – Dẫn đến dễ nhầm lẫn, không thể phân loại khách hàng.
Tác động đến kinh doanh của dữ liệu bẩn
Ngân hàng: Hao hụt chi phí của công ty từ 15% đến 25% doanh thu.
Thương mại kỹ thuật số: Có tới 25% liên hệ của cơ sở dữ liệu B2B chứa thông tin không chính xác.
Tiếp thị và bán hàng: 8 trong số 10 công ty đã nói rằng dữ liệu bẩn cản trở các chiến dịch bán hàng.
Chăm sóc sức khỏe: Hồ sơ trùng lặp có thể chiếm 10% và thậm chí lên đến 20% hồ sơ sức khỏe điện tử của bệnh viện.
Các sự cố thường gặp liên quan đến dữ liệu bẩn
- Lỗi chính tả và các lỗi văn bản khác
- Nhãn mô tả không nhất quán
- Định dạng và độ dài của trường dữ liệu
- Thiếu dữ liệu
- Trùng lặp dữ liệu
Mình hy vọng bạn sẽ thấy bài viết này hữu ích, vì những kiến thức trên là những kiến thức quan trọng nhất trong khóa học. Hẹn gặp lại các bạn ở khóa 3 nhé. Bạn có thể xem cách đăng ký khóa học tại đây.