Quyết định của các công ty định hướng dữ liệu (data-driven companies) khi vén các bức màn thông qua các blog của họ là một quyết định đôi bên cùng có lợi. Bằng cách công bố các hướng dẫn và các nghiên cứu điển hình, các công ty thu hút được các đối tượng đọc giả chuyên biệt. Những người này sẽ gặt hái được những lợi ích từ việc học hỏi từ những người giỏi nhất trong lĩnh vực này. Đối với các công ty, đó là tiếp thị nội dung tuyệt vời và đúng đối tượng.
Thông qua các blog này, nhiều công ty thực hiện xu hướng dài hạn hướng tới dân chủ hóa trong giáo dục khoa học dữ liệu (democratization in data-science education), như có thể thấy trong các cuộc thi cộng đồng, MOOC ( ) và các tài nguyên có thể truy cập miễn phí khác. Họ thường ưu tiên sự kết hợp giữa khả năng tiếp cận và sự nghiêm ngặt về kỹ thuật hoặc học thuật, và nhiều công ty xuất bản các bài viết sơ lược hữu ích về các khái niệm hoặc cách tiếp cận mới.
Dưới đây, bạn sẽ tìm thấy một mục xuyên suốt các blog về data science, machine learning và data visualization. Có rất nhiều blog đáng theo dõi, nhưng 20 blog này sẽ cung cấp một điểm khởi đầu tốt.
Data Science và Machine Learning Blogs
TensorFlow Blog
Blog chính thức của thư viện phần mềm mã nguồn mở dành cho máy học của Google được cập nhật thường xuyên với cách thực hiện dễ hiểu, các trường hợp sử dụng sáng tạo đặc trưng và giới thiệu về các gói mã nguồn mở mới. Tiêu điểm là các nghiên cứu điển hình đặc biệt nên thu hút nhiều độc giả quan tâm. Trong phần giới thiệu, với loạt bài gần đây tập trung vào gói TensorFlow Recommender, thu hút các nhà khoa học dữ liệu và kỹ sư máy học đang làm việc.
Blog MultiThreaded của Stitch Fix
Stitch Fix là dự án kết hợp giữa khoa học và thời trang, nhắm tới đối tượng là những người phụ nữ bận rộn. Dịch vụ tạo kiểu cá nhân trực tuyến là một sự tiên phong trong lĩnh vực bán lẻ theo hướng dữ liệu. Blog MultiThreaded của Stitch Fix đã theo kịp nhịp đập của các ứng dụng khoa học dữ liệu trong thế giới thực một cách đáng tin cậy. Các bài đăng về cuộc tranh luận giữa chuyên gia, cấu trúc ETL (Extract – Transform – Load) và gần đây là các cuộc trò chuyện trong vòng kết nối dữ liệu. Và nhiều năm sau khi nó được xuất bản, Algorithms Tour của công ty vẫn là một trình giải thích hữu hiệu về cách Stitch Fix sử dụng hơn 145 các nhà khoa học dữ liệu của mình cho các hệ thống đề xuất, mô hình nhu cầu, phát triển phong cách và các khía cạnh kinh doanh khác.
Instacart Machine Learning
Instacart là một startup cung ứng đồ tạp hóa qua website và ứng dụng di động. Bộ dữ liệu ba triệu đơn đặt hàng của Instacart là tài nguyên hữu ích cho bất kỳ ai đi sâu vào phân tích mua sản phẩm. Vì vậy, có lẽ không có gì ngạc nhiên khi blog công nghệ của dịch vụ tạp hóa này đưa ra một số thông tin hướng dẫn trong lĩnh vực máy học và khoa học dữ liệu.
Lưu ý: bạn có thể phải dùng VPN để truy cập blog này từ Việt Nam tại địa chỉ https://tech.instacart.com/ . Có thể do chính sách của Medium nên truy cập bình thường có thể không được.
Spotify R&D Engineering
Bạn sẽ không tìm thấy công thức cho nước sốt bí mật của hệ thống đề xuất (recommendation system)của Spotify, kết hợp giữa lọc dựa trên nội dung và cộng tác, những yếu tố quan trọng đối với sự thành công của ứng dụng phát trực tuyến, trên blog của công ty. Tuy nhiên, những giải thích sâu hơn về ngữ cảnh của nhiều frameworks khác nhau của Spotify, như Lexikon, để khám phá dữ liệu hay nền tảng mới, The Experimentation Platform, một giải pháp thay thế thân thiện với dữ liệu hơn so với thử nghiệm A / B truyền thống, là những thông tin đáng tin cậy. Bạn cũng có thể dõi blog thiết kế của Spotify, blog này có các bài đọc liên quan đến khoa học dữ liệu thú vị như bài “Thiết kế các công cụ khoa học dữ liệu tại Spotify“.
Netflix Technology Blog
Nguồn dữ liệu người dùng dồi dào của Netflix đã cho phép đưa ra các quyết định dựa trên phân tích, cả nhỏ (cá nhân hóa tác phẩm nghệ thuật) và lớn (hỗ trợ những quyết định về nội dung). Điều đó cũng có nghĩa là, bất cứ khi nào Netflix tiết lộ điều gì đó về hoạt động bên trong của nhóm dữ liệu của mình, thì điều đó thường đáng để xem xét. Những điểm nổi bật về kỹ thuật gần đây bao gồm cách công ty di chuyển hàng loạt dữ liệu từ kho dữ liệu (data warehouses) sang key-value databases cho đến việc giới thiệu một lĩnh vực liên ngành mới, được gọi là suy luận nhân quả tính toán (Computational Causal Inference)
Lưu ý: Netflix Technology blog chạy trên nền tảng Medium và bạn có thể cần dùng VPN để truy cập từ Việt Nam
Airbnb Engineering & Data Science
Airbnb la nhà tiên phong cho thuê nhà cũng là người đi trước dữ liệu. Airbnb đã kết hợp khoa học dữ liệu ngay từ đầu vào thời điểm mà ít công ty làm được và họ đã chạy một “trường đại học” về kiến thức dữ liệu nội bộ cho nhân viên. Không có gì ngạc nhiên khi một bài đăng trên blog khoa học dữ liệu hoặc AI / ML mới từ công ty thường thu hút sự chú ý. Điểm nổi bật gần đây là hai phần đi sâu vào chất lượng dữ liệu (data quality at Airbnb part 1 và part 2) , nhưng chúng tôi cũng khuyên bạn nên xem A Beginner’s Guide to Data Engineering về kỹ thuật dữ liệu, giúp xác định vai trò như bây giờ thường được hiểu.
Lưu ý: blog Airbnb cũng được viết trên nền Medium và bạn có thể không truy cập được từ Việt Nam và phải dùng VPN
Facebook AI blog
Blog kỹ thuật của Facebook liên tục có các cập nhật đáng chú ý (chẳng hạn như việc công bố giải pháp khám phá dữ liệu của công ty gần đây), nhưng nội dung thực sự mở rộng tầm mắt là trên blog AI, nơi Facebook đăng các nghiên cứu và ấn phẩm học thuật – tất cả đều có những tác động vượt xa phương tiện truyền thông xã hội. Các mục đáng chú ý gần đây bao gồm công nghệ MRI tăng tốc AI ( AI-accelerated MRI tech), kết xuất hiệu ứng tăng áp ML (ML-turbocharged effect-rendering) và hệ thống nhận dạng đối tượng GrokNet ( object-recognition system GrokNet).
PyTorch
Nói về Facebook Research, có lẽ công cụ đáng chú ý nhất xuất hiện từ Facebook R&D là PyTorch deep learning framework. PyTorch cung cấp một loạt nội dung có liên quan trên blog chuyên dụng của mình. Có rất nhiều nghiên cứu điển hình thú vị (từ Datarock đến Disney), và rất nhiều nguồn lực và sự hỗ trợ của cộng đồng để xây dựng và sản xuất mạng nơ-ron.
Lưu ý: bạn có thể không truy cập được Pytorch blog trên Medium từ Việt Nam
Wayfair
Wayfair có thể chỉ mới công bố lợi nhuận gần đây, nhưng việc đặt cược sớm của nhà bán lẻ đồ nội thất kỹ thuật số vào dữ liệu dường như đã trả cổ tức cho việc cá nhân hóa, lập mô hình giá, phân loại dựa trên thị giác máy tính và các lĩnh vực chính khác. Thật không may, có vẻ như các bản cập nhật blog không thường xuyên như trước đây. Tuy nhiên, năm 2020 có một số bài nổi bật như hướng dẫn tự động hóa ETL và phân tích cách tiếp cận Bayes để xác định nội thất nào sẽ có sức hấp dẫn rộng rãi nhất chứng tỏ rằng vẫn còn rất nhiều nội dung khoa học dữ liệu hữu ích đang được triển khai.
Uber Engineering blog
Mặc dù công ty gọi xe đã ngừng bộ phận Uber AI Labs của mình và giảm tải trọng tâm về xe tự lái, nhưng những bài viết về tầm nhìn và nghiên cứu mạng thần kinh vẫn có còn trên blog, cùng với các bản cập nhật được công bố thường xuyên trong danh mục AI và Uber data. Chính tại đây, Uber đã phổ biến khái niệm cửa hàng tính năng và gây xôn xao với thông báo chuyển đổi Postgres-to-MySQL của mình.
Shopify Data Science & Engineering
Được cập nhật hàng tháng, phần data science (khoa học dữ liệu) trên blog kỹ thuật của Shopify cung cấp các bài học có thể đọc được, có thể thực hiện được từ sự gia tăng mạnh mẽ theo định hướng dữ liệu của nền tảng thanh toán. Bài đăng hướng dẫn về tài liệu dữ liệu – một thách thức khó khăn mà các nhóm thường phải tự giải quyết – và tổng quan cấp cao về dữ liệu nền tảng và các nguyên tắc kỹ thuật của Shopify đều được chia sẻ và thảo luận rộng rãi trong giới kỹ thuật dữ liệu và khoa học dữ liệu.
Tecton
Bên trên chúng ta đã đề cập đến Uber và nền tảng Michelangelo của Uber (nền tảng về machine learning). Ba trong số các kỹ sư làm việc trong dự án này đã thành lập nên Tecton. Tectco cung cấp một nền tảng ML có thể chuyển đổi và lưu trữ dữ liệu thô dưới dạng các giá trị thuộc tính (feature values). Kể từ khi nổi lên từ giữa năm 2020, công ty khởi nghiệp do Andreessen Horowitz- và Sequoia Capital tài trợ cũng đã xuất bản các bài đăng với nhiều thông tin hấp dẫn về máy học và khả năng tái tạo mô hình. Các bài viết về MLOps, kho lưu trữ thuộc tính (feature store) và rò rỉ dữ liệu đều rất đáng để đọc.
The Signal by Mixpanel
Mixpanel là một công cụ phân tích mobile dựa trên hành vi người dùng. The Signal, blog của Mixpanel thường xuyên đưa ra những lời khuyên dễ hiểu về dữ liệu sản phẩm, chỉ số sản phẩm và tăng trưởng dài hạn và ngắn hạn – thường là từ quan điểm kinh doanh-trí tuệ.
Jupyter Blog
Không phải là blog của công ty, nhưng blog chính thức của dự án phi lợi nhuận Jupyter (Project Jupyter) là một blog khá thú vị. Người đọc sẽ tìm thấy các thông báo cộng đồng, các trường hợp sử dụng mới và đáng chú ý nhất, phát hành các bản cập nhật, ra mắt kernel (kernel debuts) và các loại công cụ mới.
Lưu ý: Jupyter blog là trên Medium và bạn có thể phải dùng VPN để truy cập
Floydhub Blog
Có nhiều thông tin đáng tin cậy, được cập nhật thường xuyên tại blog về nền tảng học sâu này của cựu sinh viên Y Combinator. Được chấp bút bởi các nhà khoa học dữ liệu của chính công ty và một danh sách các cộng tác viên bên ngoài có kiến thức (từ các tổ chức như Microsoft Research, Intercom và Cognizant), các bài đăng có độ sâu về hình ảnh hóa, được đóng gói bằng đoạn mã về các khái niệm và phương pháp tiếp cận DL và ML. Hãy nhớ xem loạt bài “Humans of Machine Learning”, hỏi và đáp với các chú thích của ML, theo từng lượt triết học và hướng dẫn.
Domino Data Lab
Theo Domino blog, sứ mệnh của Domino là duy trì “siêu tập trung vào việc học và hiểu cách giúp các nhà khoa học dữ liệu đẩy nhanh công việc của họ”. Blog domino được cập nhật thường xuyên cung cấp một bộ lấy mẫu sâu và rộng tập trung vào nội dung chuyên nghiệp. Các chủ đề bao gồm từ mức độ cao (suy luận nhân quả (Causal Inference), xử lý các kết quả mô hình đáng thất vọng (dealing with disappointing model outcomes)) đến chi tiết (đánh giá GAN, phát hiện độ lệch dữ liệu trong phân loại hình ảnh) và đặc điểm chung của blog là sự pha trộn giữa kỹ thuật và khả năng tiếp cận.
Trực quan hóa dữ liệu – Data Visualization
Tableau Blog
Được cập nhật thường xuyên, blog Tableau bao gồm các chủ đề về dữ liệu, từ cập nhật sản phẩm đến kiến thức về dữ liệu cho đến COVID-19. Những người đóng góp thường xuyên bao gồm CTO Andrew Beers và Andy Cotgreave. Blog Kỹ thuật cũng đáng xem. Chartable by Datawrapper
Chartable by Datawrapper
Chartable (không nên nhầm lẫn với công ty khởi nghiệp podcast-analytics mà nó có chung tên) tập hợp báo chí dịch vụ trực quan hóa dữ liệu nội bộ trong How To’s – bao gồm Câu lạc bộ sách Data Vis – đồng thời đăng và mổ xẻ một biểu đồ hàng tuần. Những phạm vi đó bao gồm phân tích đợt bỏ phiếu quan trọng, có tính lịch sử đến các dự án đồ chơi thú vị, như lập biểu đồ tập dữ liệu được hiển thị trực quan trong album Niềm vui không xác định (Joy Division’s Unknown Pleasures) của Joy Division.
Observable’s Notebooks
Nền tảng trực quan hóa này, được đồng sáng lập bởi cựu nhà báo dữ liệu của New York Times Mike Bostock, đã trở thành một nền tảng ưa thích cho những người thực hành trực quan hóa dữ liệu, những người mong muốn tùy chỉnh thân thiện với mã hơn là các lựa chọn thay thế plug-and-play.
Plotly
Không có gì ngạc nhiên khi một số bài đăng trên trang Plotly cập nhật về sản phẩm Dash hàng đầu của họ. Đồng thời, blog cũng khá đa dạng với các bài đăng được quan tâm rộng rãi hơn chẳng hạn như lịch sử của bộ dữ liệu xe tự hành, word-embedding logic và – theo Plotly’s metier – trực quan hóa dữ liệu cho AI.
Lưu ý: Plotly blog chạy trên Medium và việc truy cập từ Việt Nam có thể gặp khó khăn
Nguồn: https://builtin.com/data-science/best-data-science-company-blogs-machine-learning