• Jobs
  • Phát triển nghề nghiệp
    • Remote work
    • Kỹ năng làm việc IT
    • Developer
    • Data Science – Machine Learning – AI
    • IT gurus
    • Business Analyst
    • Project Manager
    • Thiết kế UIUX
    • IT trong công ty non-tech
  • Kỹ năng tìm việc
    • Tìm việc IT cần biết
    • Phỏng vấn IT
    • Câu hỏi phỏng vấn
    • CV xin việc
    • Đàm phán lương
    • Mô tả công việc
  • Công nghệ
    • Công nghệ ứng dụng IT
    • Ngôn ngữ lập trình
    • Kiến thức công nghệ
  • Lương-Xu hướng
    • Lương bổng phúc lợi
No Result
View All Result
  • Jobs
  • Phát triển nghề nghiệp
    • Remote work
    • Kỹ năng làm việc IT
    • Developer
    • Data Science – Machine Learning – AI
    • IT gurus
    • Business Analyst
    • Project Manager
    • Thiết kế UIUX
    • IT trong công ty non-tech
  • Kỹ năng tìm việc
    • Tìm việc IT cần biết
    • Phỏng vấn IT
    • Câu hỏi phỏng vấn
    • CV xin việc
    • Đàm phán lương
    • Mô tả công việc
  • Công nghệ
    • Công nghệ ứng dụng IT
    • Ngôn ngữ lập trình
    • Kiến thức công nghệ
  • Lương-Xu hướng
    • Lương bổng phúc lợi
No Result
View All Result
No Result
View All Result
  • Jobs
  • Phát triển nghề nghiệp
  • Kỹ năng tìm việc
  • Công nghệ
  • Lương-Xu hướng

10 kỹ năng khoa học dữ liệu thực tế nhất bạn nên có vào năm 2022

Hà Vân by Hà Vân
September 23, 2021
in Data Science - Machine Learning - AI, Developer, IT resources, Phát triển nghề nghiệp IT
0
0
Kỹ năng khoa học dữ liệu

Photo by Donald Giannatti on Unsplash

0
SHARES
231
VIEWS
Share on FacebookShare on Twitter

Có rất nhiều khóa học, bài viết về kỹ năng cần thiết về Khoa học Dữ liệu, nêu bật các kỹ năng cơ bản như Thống kê, Toán học và Lập trình. Tuy nhiên những kỹ năng cơ bản này thiên về kiến thức lý thuyết và có thể khó chuyển thành kỹ năng thực tế trong công việc. Bài viết này đưa ra một danh sách các kỹ năng thực tế giúp bạn có thể thu hút các nhà tuyển dụng.

Bốn kỹ năng đầu tiên trong bài viết này hoàn toàn quan trọng đối với bất kỳ nhà khoa học dữ liệu nào, bất kể bạn chuyên về lĩnh vực gì. Các kỹ năng sau (5–10) đều là những kỹ năng quan trọng nhưng sẽ khác nhau về cách sử dụng tùy thuộc vào lĩnh vực bạn chuyên sâu.

Ví dụ: nếu bạn quan tâm đến thống kê, bạn có thể dành nhiều thời gian hơn cho các thống kê theo cấp số nhân. Ngược lại, nếu bạn quan tâm hơn đến phân tích văn bản, bạn có thể dành nhiều thời gian hơn để học NLP hoặc nếu bạn quan tâm đến khoa học quyết định (Decision science), bạn có thể tập trung vào mô hình giải thích (explanatory modeling).

Hãy cùng đi sâu vào 10 kỹ năng khoa học dữ liệu thiết thực nhất:

1. Viết truy vấn SQL & xây dựng đường ống dữ liệu

Học cách viết các truy vấn SQL và lập lịch cho chúng trên nền tảng quản lý quy trình làm việc (workflow management platform) như Airflow sẽ khiến bạn cực kỳ thu hút các nhà tuyển dụng với tư cách là một nhà khoa học dữ liệu, vì vậy đó là lý do tại sao nó là kỹ năng nằm ở vị trí số 1. Tại sao? Có nhiều lý do:

  • Tính linh hoạt: các công ty thích các nhà khoa học dữ liệu có thể làm nhiều việc (full-stack) hơn là chỉ lập mô hình dữ liệu. Nếu bạn có thể tham gia và giúp xây dựng các đường dẫn dữ liệu (data pipelines)  cốt lõi, bạn sẽ có thể cải thiện thông tin chi tiết được thu thập, xây dựng các báo cáo tốt hơn và cuối cùng là làm cho cuộc sống của mọi người dễ dàng hơn.
  • Tính độc lập: sẽ có những trường hợp bạn cần một bảng (table) hoặc một bảng ảo (view) cho một mô hình hoặc một dự án khoa học dữ liệu mà các bảng hay view đó không tồn tại. Bạn có thể viết các đường ống cho của riêng bạn các dự án thay vì dựa vào các nhà phân tích dữ liệu hoặc các kỹ sư dữ liệu sẽ giúp bạn tiết kiệm thời gian và làm cho bạn có giá trị hơn.

Do đó, là một nhà khoa học dữ liệu, bạn PHẢI là một chuyên gia về SQL. Không có ngoại lệ.

2. Data Wrangling / Feature Engineering

Cho dù bạn đang xây dựng mô hình, khám phá các tính năng mới để xây dựng hay thực hiện quá trình tìm hiểu sâu, bạn sẽ cần biết cách tổng hợp dữ liệu. Data Wrangling (sắp xếp dữ liệu) có nghĩa là chuyển đổi dữ liệu của bạn từ định dạng này sang định dạng khác. Feature Engineering (chuyển đổi dữ liệu) là một dạng sắp xếp dữ liệu nhưng đặc biệt đề cập đến việc trích xuất các thuộc tính (featues) từ dữ liệu thô.

Việc bạn thao tác dữ liệu của mình như thế nào không quan trọng, cho dù bạn sử dụng Python hay SQL, nhưng bạn sẽ có thể thao tác dữ liệu của mình theo cách bạn muốn (tất nhiên là trong các tham số có thể có).

3. Quản lý phiên bản

Quản lý phiên bản (version control) trong bài viết này là để cập đến GitHub và Git. Git là hệ thống quản lý phiên bản rất thông dụng và GitHub về cơ bản là một kho lưu trữ dựa trên đám mây cho các tập tin và thư mục.

Mặc dù Git không phải là kỹ năng cần phải học ngay từ lúc đầu nhưng là một kỹ năng mà tất cả những ai làm việc liên quan đến lập trình đều phải biết.  Đây là lý do tại sao:

  • Nó cho phép bạn cộng tác và cùng làm việc trên các dự án với những người khác
  • Nó theo dõi tất cả các phiên bản code của bạn (trong trường hợp bạn cần quay trở lại về các phiên bản cũ hơn)

Hãy dành thời gian để học Git. Nó sẽ giúp bạn tiến xa

4. Kỹ năng kể chuyện (storytelling)

Bạn có thể xây dựng được một dashboard tuyệt đẹp hoặc một mô hình phức tạp với độ chính xác hơn 95%. Nhưng nếu bạn không thể truyền đạt giá trị của các dự án của mình cho người khác, bạn sẽ không nhận được sự công nhận xứng đáng. Kết quả là, bạn sẽ không thành công trong sự nghiệp như mong muốn.

Kể chuyện (storystelling) đề cập đến cách bạn truyền đạt thông tin chi tiết và mô hình của mình. Về mặt khái niệm, nếu bạn nghĩ về một cuốn sách ảnh, thì thông tin chi tiết / mô hình là những bức tranh và “kể chuyện” đề cập đến câu chuyện kết nối tất cả các bức tranh đó.

Kể chuyện và giao tiếp là những kỹ năng bị đánh giá thấp trong thế giới công nghệ. Trong thực tế, thiếu kỹ năng này tạo ra hố sau ngăn cách giữa những người đi sau và những người kinh nghiệm, giữa nhân viên và người quản lý.

5. Hồi quy và Phân loại

Xây dựng mô hình hồi quy (regression) và phân loại (classification), tức là mô hình dự đoán, không phải là thứ mà bạn sẽ luôn làm trong công việc hàng ngày. Tuy nhiên, những kỹ năng đó là những kỹ năng mà nhà tuyển dụng luôn tìm kiếm ở bạn với vai trò là một nhà khoa học dữ liệu.

Cho dù đó không phải là điều bạn sẽ làm thường xuyên, nhưng bạn cần phải giỏi về nó nếu muốn có thể tạo ra các mô hình hoạt động hiệu quả.  Do đó, bạn nên hiểu rõ về các kỹ thuật chuẩn bị dữ liệu, các thuật toán tăng cường (boosting algorithms), điều chỉnh siêu tham số (hyperparameter tuning) và các chỉ số đánh giá mô hình (model evaluation metrics).

6. Mô hình giải thích

Có hai loại mô hình mà bạn có thể xây dựng. Một là mô hình dự đoán (predictive model) , đoán kết quả dựa trên một số biến đầu vào. Một mô hình khác là mô hình giải thích (explanatory model), không được sử dụng để đưa ra dự đoán nhưng được sử dụng để hiểu rõ hơn các mối quan hệ giữa các biến đầu vào và biến đầu ra.

Các mô hình giải thích thường được tạo ra bằng cách sử dụng các mô hình hồi quy. Lý do là chúng cung cấp rất nhiều thống kê hữu ích trong việc hiểu mối quan hệ giữa các biến. Các mô hình giải thích rất hữu ích, và rất cần thiết nếu bạn muốn tham gia vào lĩnh vực khoa học quyết định.

7. Thử nghiệm A / B

Thử nghiệm A / B (A/B Testing) là một hình thức thử nghiệm (rxperimentation) trong đó bạn so sánh hai nhóm khác nhau để xem nhóm nào hoạt động tốt hơn dựa trên một số liệu nhất định.

Thử nghiệm A / B được cho là khái niệm thống kê thực tế nhất và được sử dụng rộng rãi trong các doanh nghiệp. Tại sao lại như vậy? Thử nghiệm A / B cho phép bạn kết hợp 100 hoặc 1000 cải tiến nhỏ, dẫn đến những thay đổi và cải tiến đáng kể theo thời gian.

Nếu bạn quan tâm đến khía cạnh thống kê của khoa học dữ liệu, thử nghiệm A / B là điều cần thiết để hiểu và học hỏi.

8. Clustering (phân cụm)

Clustering (phân cụm) là lĩnh vực cốt lõi của khoa học dữ liệu mà mọi người nên quen thuộc.

Clustering hữu ích vì một số lý do. Bạn có thể tìm thấy các phân khúc khách hàng khác nhau, bạn có thể sử dụng phân cụm để gắn nhãn dữ liệu chưa được gắn nhãn và thậm chí bạn có thể sử dụng clustering để tìm điểm giới hạn cho các mô hình.

9. Khuyến nghị

Recommendation (khuyến nghị) là một trong những ứng dụng thực tế nhất trong khoa học dữ liệu.

Hệ thống đề xuất rất mạnh mẽ vì chúng có khả năng thúc đẩy doanh thu và lợi nhuận. Trên thực tế, Amazon tuyên bố đã tăng doanh số bán hàng của họ lên 29% do các hệ thống khuyến nghị của họ vào năm 2019.

Vì vậy, nếu bạn làm việc cho một công ty mà người dùng của họ phải chọn trong rất nhiều lựa chọn thì hệ thống đề xuất có thể là một ứng dụng hữu ích để khám phá.

10. NLP

NLP (Natural Language Processing), tức Xử lý ngôn ngữ tự nhiên, là một nhánh của trí tuệ nhân tạo tập trung vào văn bản và lời nói. Không giống như học máy, NLP vẫn còn một chặng đường phát triển phía trước, và đó là điều khiến nó trở nên thú vị.

NLP có rất nhiều ứng dụng:

  • NLP có thể được sử dụng để phân tích tâm lý (sentiment analysis) để xem mọi người cảm thấy thế nào về một doanh nghiệp hoặc (các) sản phẩm của doanh nghiệp.
  • NLP có thể được sử dụng để theo dõi phương tiện truyền thông xã hội của một công ty bằng cách phân tách các nhận xét tích cực và tiêu cực.
  • NLP là cốt lõi đằng sau việc xây dựng chatbot và trợ lý ảo
  • NLP cũng được sử dụng để trích xuất văn bản (sàng lọc qua các tài liệu)

Nhìn chung, NLP là một ngách thực sự thú vị và hữu ích trong thế giới khoa học dữ liệu.

Kết luận

Hy vọng rằng bài viết này sẽ giúp định hướng việc học và phát triển các kỹ năng của bạn một cách đúng hướng cho thời gian sắp tới. Có rất nhiều điều để học và vì vậy hãy chọn những kỹ năng nào bạn cho rằng thú vị và phú hợp nhất để bắt đầu.

Xem bài viết gốc của tác giả Terence Shin tại đây

 

Bạn có biết?


tham gia cộng đồng ITguru trên Linkedin, Facebook và các kênh mạng xã hội khác có thể giúp bạn nhanh chóng tìm được những chủ đề phát triển nghề nghiệp và cập nhật thông tin về việc làm IT mới nhất

Linkedin Page:
Facebook Group:
cơ hội việc làm IT : ITguru.vn

Bạn đánh giá bài viết thế nào?

Average rating 5 / 5. Vote count: 4

No votes so far! Be the first to rate this post.

Tags: Data sciencedata scientist
Previous Post

Những kỹ năng WordPress developer cần có để thu hút các nhà tuyển dụng

Next Post

Có bao nhiêu lập trình viên trên thế giới và Việt Nam?

Hà Vân

Hà Vân

Related Posts

Tương Lai Nghề Lập Trình Với AI

Tương Lai Của Lập Trình Viên Khi Công Cụ AI Ngày Càng Phổ Biến

February 28, 2025
Top 5 Công Việc AI Đáng Chú Ý Năm 2025

Top 5 Công Việc AI Đáng Chú Ý Năm 2025

February 27, 2025
Chọn cơ sở dữ liệu

Năm 2023: làm thế nào để chọn đúng cơ sở dữ liệu cho ứng dụng

April 1, 2023
great resignation và các nhà phát triển phần mềm

Làn sóng nghỉ việc ồ ạt và những tác động đối với các nhà phát triển phần mềm

April 4, 2022
serverless developer

Serverless là gì và học gì để làm việc với serverless?

June 2, 2022
đánh giá hiệu suất công việc - performance appraisal - performance review

Cách viết đánh giá hiệu suất công việc (performance appraisal) hiệu quả dành cho kỹ sư phần mềm

April 25, 2022
Next Post
số lượng lập trình viên trên thế giới và Việt Nam

Có bao nhiêu lập trình viên trên thế giới và Việt Nam?

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

About ITGuru.vn

  • Trang Chủ ITguru.vn
  • Về chúng tôi
  • Thỏa thuận sử dụng
  • Quy định bảo mật
  • Quy chế hoạt động
  • Liên hệ ITguru

Nhà tuyển dụng

  • Đăng tuyển

Người tìm việc

  • Việc làm IT
  • About ITguru Blog
  • Viết bài cùng ITguru

© 2022 ITguru.vn - Web site tuyển dụng và phát triển nghề nghiệp IT

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • About ITguru Blog
  • Viết bài cùng ITguru

© 2022 ITguru.vn - Web site tuyển dụng và phát triển nghề nghiệp IT