D. Người trong độ tuổi lao động nhiều tệ nạn
D. Người trong độ tuổi lao động nhiều tệ nạn
Có bao giờ bạn ở trong tình cảnh này.
Ủa FROM bảng nào ta? (Mình nghĩ)
Xem hết 1 lượt các tables mình có, đều không thấy trường thông tin về location mình cần. Đi hỏi Data Engineer hóa ra mới biết là mình chưa có quyền vào database chứa thông tin chi tiết này. Để truy cập được thì phải trải qua 7749 bước xin phê duyệt: từ điền form, sếp mình ký, gửi qua cho team data platform duyệt, data owner ký, vì data này có các thông tin nhạy cảm khác không phải ai cũng được phép. Kết quả. ít nhất 2 ngày sau mới có được data.
Sếp ơi em xin lỗi !!! “Depending on others for data is a drag.” Mình bị phụ thuộc vào người khác thì rất khó để control thời gian được.
Hậu quả này ai chịu, dù mình có bị trách hay là team DE bị la thì lớn nhất vẫn là ảnh hưởng đến business! Cho nên nếu mà 1 ngày nào đó bạn đang cần thêm data mà chưa có thể cũng đừng vội hoang mang. Không phải công ty không có data đó mà là nó ở một góc nào đó mà bạn chưa được phép truy cập đến mà thôi :))) Nên là trong công ty, ai có quyền access nhiều data thì người đó có power lắm nha :))
Nói tới ý này mình phải nhắc lại quá trình phân tích dữ liệu đã từng đề cập, gồm 6 bước như thế này:
Thì trong bước số 2 (Data collection – Thu thập dữ liệu) và số 3 (Data preparation – Chuẩn bị dữ liệu) rất vất vã nếu bạn làm trong những công ty chưa có hệ thống data warehouse, data platform chuẩn chỉnh. Data sẽ được lưu ở rất nhiều nơi: từ trong cơ sở dữ liệu cho đến các hệ thống bên ngoài và cả Excel hay Google sheet!
Theo Forbes, chúng ta tạo ra 2,5 tỷ tỷ byte dữ liệu mỗi ngày – more data more problem!
Format data mỗi nơi mỗi kiểu, cái nào trong warehouse thì đỡ vất vả do đã được team IT cấu trúc lại rồi, data nào mà ở các nguồn bên ngoài thì như một nỗi ác mộng to lớn với mình. Mọi người biết mà đúng không: Ở trong excel, cùng 1 cột nhưng bạn được phép lưu nhiều loại dữ liệu khác nhau, dòng trên là số, dòng dưới lưu chữ, viết sai chính tả cũng được. Để xứ lý chuẩn lại format là cả 1 vấn đề, chắc mất cả ngày trời luôn ấy. Nếu là mình thì mình sẽ đầu hàng, trả file lại cho người tạo ra nó và bảo:
Có những lời đồn mà chúng ta hay nghe là:
Ban đầu nghe thì thấy nhẹ nhàng, nhưng phải làm, phải trải qua thì mới thấu những cô đơn, nội tâm, hoa mắt, mù màu vì ôm máy tính cả tuần, cả tháng!
Mọi người phải chuẩn bị tinh thần là bản thân sẽ làm rất nhiều để đưa ra được một cái báo cáo. Nhưng khách hàng, business họ chỉ quan tâm đến kết quả, quá trình bạn làm cực khổ ra sao thì ít ai nghĩ đến. Suy cho cùng cũng là vị business, nếu lỡ có làm sai, không tốt, không tạo ra giá trị thì dễ dàng bị đánh giá thấp. Đây là sự thật, nhiều khi đến cả sếp nếu chưa đủ hiểu còn khó cảm thông cho DA chứ đừng nói là người ở ngoài kia.
Vậy nên, việc xử lý chuẩn chỉnh data rất vất vả, và bạn cũng không hề cô đơn. Trên thới giới Data Analyst, ai ai cũng đều phải trải qua muôn vàn khó khăn đó. Data không bao giờ ngăn nắp gọn gàng như các mẫu trên kaggle hay của các trung tâm ngoài kia cho phép bạn dùng Power BI kéo thả, bằng các cú click chuột là xong đâu. Đôi khi bạn phải minh mẫn, đừng bị họ thao túng tâm lý mấy câu quảng cáo: Làm Data Analyst chỉ cần dùng tools kéo thả là được nhé!
Mình có lời khuyên dành cho bạn là: Đừng làm việc thui thủi 1 mình.
Nếu bạn bí ý tưởng, không tìm ra lỗi kĩ thuật thì hãy hỏi Google, hỏi Chat-GPT để nhanh chóng có được lời giải. Nếu bạn không biết mình nên làm sao, hãy chia sẻ với đồng nghiệp, tập cách than vãn với sếp một chút. Để mọi người chia sẻ kinh nghiệm, giúp bạn giải quyết vấn đề nhanh hơn. Đôi khi, điều này cũng giúp sếp hiểu bạn đang làm gì mà thấu cảm cho chúng ta. Đúng không!
Cám ơn bạn đã dành thời gian đọc hết bài viết này.
Follow Maz tại đây để cùng cập nhật thông báo mỗi khi có bài viết mới nhé:
** Mọi thông tin trên blog đều thuộc bản quyền của blog Maz Nguyen. Vui lòng đọc kĩ Copyright Notice trước khi copy hoặc đăng tải lại nội dung/hình ảnh của bài viết **
—————————————————————————————————–
Maz có một dự án dạy học ở đây: Maz Học Data với SQL là course đầu tiên, bạn có thể tham khảo qua nếu thấy cần thiết nhé.
Mình cứ nhớ mãi những ngày đầu khi làm DA, mình đã vô cùng vất vã. Không phải dành nhiều thời gian cho việc đọc data, làm sạch data hay là tính toán, vẽ biểu đồ mà mình bị 5 lần 7 lượt sửa lại báo cáo cho sếp. Mình cần phải thay đổi hướng tiếp cận & phân tích bài toán vì chưa hiểu rõ nghiệp vụ sản phẩm, không rành về những mục tiêu mà business đang quan tâm.
Ban đầu, mình cứ tưởng khi sếp bảo mình phân tích “Product Performance”. Thế là mình liệt kê vài chỉ số đánh giá hiệu quả sản phẩm dựa trên những kiến thức mà mình biết, như:
Sau đó mình đi lấy data, tính toán, phân tích và làm báo cáo mà không biết là bị thiếu rất nhiều tiêu chí khác: customer satisfaction rate, click through rate, user journey, … Trong đó cái mà sếp mình quan tâm nhất là trải nghiệm người dùng trên sản phẩm này có tốt không? Hoàn toàn không có phân tích khía cạnh này!
Mặc dù mình code rất đúng, vẽ chart rất đẹp nhưng kết quả của mình không mang lại giá trị cho business, không giúp giải quyết các vấn đề mà Product đang gặp phải. Mình cảm giấy vô giá trị. Chỉ vì một lý do là mình chưa đủ hiểu về sản phẩm. Mình nhận ra việc giỏi về domain knowledge không phải ngày 1, ngày 2 có thể đạt được mà cần nhiều thời gian. Nó không giống việc chúng ta học tool, cứ học nhiều sẽ quen tay. Không hiểu, không có mindset về business thì sẽ rất khó khăn để làm DA. Đó là sự thật!
Chuyện Data source đã vô cùng khó khăn như mình nói ở trên. Bây giờ có 1 vấn đề mệt mỏi hơn nữa là: Team không có document cho các bảng dữ liệu nào cả hoặc document không đủ, không đúng. Nếu như “cơn ác mộng” xử lý data sai format mất 1 ngày để sửa, thì “cơn bão” không có tài liệu định nghĩa, giải thích các trường dữ liệu nó đau đớn và kéo dài đến cả tháng trời để sửa chữa hoặc hơn.
Mình hay nói với mọi người rằng, document là tài sản, data không có document thì chỉ có người tạo ra nó hiểu và dùng được. Chứ người khác thì chỉ có dùng sai hoặc không dùng được thôi. Nếu bạn chỉ mất 3s để xem tên cột “customer_id” là hiểu ngay nghĩa là mã định danh khách hàng. Thì sẽ tốn 3 tiếng đồng hồ để tìm người owner của data này giải thích ý nghĩa các trường “extra_info_1”, “extra_info_2”, extra_info_3, … đôi khi chính họ cũng không nhớ nó là gì nữa.