Nếu bạn là người quan tâm đến lĩnh vực trí tuệ nhân tạo (AI)thì bài này dành cho bạn. HAI (The Stanford Institute for Human-Centered Artificial Intelligence) đã cho ra mắt bản báo cáo về Chỉ số AI năm 2021 với 222 trang. Bài viết này là những tóm tắc về những những trạng thái hiện tại của AI thông qua 15 dữ liệu và biểu đồ trong bảng báo cáo do IEEE (Institute of Electrical and Electronics Engineers) tóm lược.
Độc giả quan tâm hơn về chi tiết có thể tìm đọc báo cáo để tìm hiểu thêm. Báo cáo bao gồm các chương về R & D, hiệu suất kỹ thuật, nền kinh tế, giáo dục AI, những thách thức đạo đức của các ứng dụng AI, sự đa dạng trong AI, chính sách AI và các thông tin khác.
1. Nghiên cứu về AI đang bùng nổ
Nghiên cứu về AI đang bùng nổ: Hơn 120.000 bài báo về AI đã được thẩm định đã được xuất bản vào năm 2019. Báo cáo cũng lưu ý rằng từ năm 2000 đến 2019, các bài báo về AI đã từ 0,8% của tất cả các bài báo được thẩm định tăng lên 3,8% vào năm 2019.
2. Các bài báo về AI cùa các nhà nghiên cứu Trung Quốc được trích dẫn nhiều nhất
Một tin không mới là các nhà nghiên cứu Trung Quốc đang xuất bản các bài báo được thẩm định nhiều nhất về AI kể từ năm 2017. Tin tức trong năm nay là, tính đến năm 2020, các bài báo của các nhà nghiên cứu Trung Quốc được đăng trên các tạp chí AI đang nhận được tỷ lệ lớn nhất trích dẫn.
Jack Clark, đồng giám đốc của Ủy ban Chỉ đạo Chỉ số AI (AI Index Steering Committee), nói với IEEE Spectrum rằng dữ liệu có vẻ giống như “một chỉ số đánh giá thành công trong học tập” đối với Trung Quốc và cũng là sự phản ánh của các hệ sinh thái AI khác nhau ở các quốc gia khác nhau. Ông lưu ý: “Trung Quốc có chính sách rõ ràng về việc nhận các ấn phẩm tạp chí” và các cơ quan chính phủ đóng vai trò lớn hơn trong nghiên cứu, trong khi ở Hoa Kỳ, phần lớn R&D diễn ra trong các tập đoàn. “Nếu bạn là một ngành công nghiệp, bạn sẽ có ít động lực để viết các bài báo hơn,” ông nói. “Đó là một thứ có uy tín hơn.”
3. Đào tạo nhanh hơn = AI tốt hơn
Dữ liệu này đến từ MLPerf, một nỗ lực nhằm xếp hạng hiệu suất của các hệ thống máy học một cách khách quan. Hệ thống phân loại hình ảnh từ nhiều công ty khác nhau đã được đào tạo trên cơ sở dữ liệu ImageNet tiêu chuẩn và được xếp hạng dựa trên thời gian đào tạo chúng. Năm 2018, mất 6,2 phút để đào tạo hệ thống tốt nhất; năm 2020 mất 47 giây. Cải tiến phi thường này được kích hoạt nhờ việc áp dụng các chip tăng tốc được thiết kế đặc biệt cho máy học.
Báo cáo nêu rõ tác động của việc tăng tốc độ này: “Hãy tưởng tượng sự khác biệt giữa việc chờ đợi một vài giây để hệ thống đào tạo so với việc đợi một vài giờ, và sự khác biệt đó có ý nghĩa gì đối với loại và khối lượng ý tưởng mà các nhà nghiên cứu khám phá và mức độ rủi ro của chúng. ”
4. AI không hiểu uống cà phê
Trong những năm qua, AI đã thực sự rất, rất tốt trong việc nhận dạng hình ảnh tĩnh; biên giới tiếp theo trong thị giác máy tính (computer vision) là video. Các nhà nghiên cứu đang xây dựng các hệ thống có thể nhận ra các hoạt động khác nhau từ các video clip, vì kiểu nhận dạng đó có thể hữu ích rộng rãi nếu được chuyển sang thế giới thực (hãy nghĩ về ô tô tự lái, camera giám sát, v.v.). Một điểm chuẩn về hiệu suất là tập dữ liệu ActivityNet, chứa gần 650 giờ cảnh quay từ tổng số 20.000 video. Trong số 200 hoạt động của cuộc sống hàng ngày được hiển thị trong đó, các hệ thống AI có thời gian khó khăn nhất để nhận ra hoạt động uống cà phê trong cả năm 2019 và 2020. Đây dường như là một vấn đề lớn, vì uống cà phê là hoạt động cơ bản mà từ đó tất cả các hoạt động khác đều diễn ra. Dù sao, đây là một lĩnh vực cần theo dõi trong những năm tới.
5. Ngôn ngữ AI quá tốt, nó cần thử nghiệm khó hơn
Sự gia tăng vượt bậc của xử lý ngôn ngữ tự nhiên (n – atural language processingNLP) dường như đang đi theo quỹ đạo của thị giác máy tính, vốn đã đi từ một chuyên ngành học thuật đến việc triển khai thương mại rộng rãi trong thập kỷ qua. NLP ngày nay cũng được hỗ trợ bởi học sâu (deep learning) và Clark của AI Index cho biết nó đã kế thừa các chiến lược từ công việc thị giác máy tính, chẳng hạn như đào tạo về cơ sở dữ liệu khổng lồ và tinh chỉnh cho các ứng dụng cụ thể. Ông nói: “Chúng tôi đang thấy những đổi mới này truyền sang một lĩnh vực khác của AI một cách thực sự nhanh chóng“.
Việc đo lường hiệu suất của các hệ thống NLP đã trở nên khó khăn: “Các nhà học thuật đang đưa ra các số liệu mà họ nghĩ rằng không ai có thể đánh bại, sau đó một hệ thống xuất hiện trong vòng sáu tháng và đánh bại nó,” Clark nói. Biểu đồ này cho thấy hiệu suất trên hai phiên bản của bài kiểm tra đọc hiểu được gọi là SQuAD, trong đó mô hình ngôn ngữ AI phải trả lời các câu hỏi trắc nghiệm dựa trên một đoạn văn bản. Phiên bản 2.0 làm cho nhiệm vụ khó hơn bằng cách kết hợp các câu hỏi không trả lời được, mà mô hình phải xác định như vậy và không trả lời. Phải mất 25 tháng để một mô hình vượt qua hiệu suất của con người trong phiên bản đầu tiên, nhưng chỉ 10 tháng để một mô hình có thể đánh bại con người ở nhiệm vụ khó hơn.
6. Lời cảnh báo
Vâng, các mô hình ngôn ngữ cho các tác vụ như nhận dạng giọng nói và tạo văn bản nói chung đã trở nên thực sự tốt. Nhưng chúng có một số lỗi cụ thể có thể làm hỏng việc sử dụng thương mại trừ khi được giải quyết. Nhiều người gặp vấn đề nghiêm trọng với thành kiến (bias) có hại, chẳng hạn như hoạt động kém trên một nhóm nhỏ người hoặc tạo ra văn bản phản ánh thành kiến lịch sử. Ví dụ ở đây cho thấy tỷ lệ lỗi trong các chương trình nhận dạng giọng nói của các công ty hàng đầu.
Có một vấn đề lớn hơn với sự thiên vị ở đây là làm ảnh hưởng đến tất cả các dạng AI, bao gồm cả thị giác máy tính và các công cụ hỗ trợ ra quyết định. Các nhà nghiên cứu kiểm tra hệ thống của họ về hiệu suất, nhưng rất ít kiểm tra hệ thống của họ về sự thiên vị có hại.
7. Thị trường việc làm AI là toàn cầu
Dữ liệu từ LinkedIn cho thấy Brazil, Ấn Độ, Canada, Singapore và Nam Phi có mức tăng trưởng tuyển dụng AI cao nhất từ năm 2016 đến năm 2020. Điều đó không có nghĩa là những quốc gia đó có nhiều việc làm nhất về mặt tuyệt đối (Hoa Kỳ và Trung Quốc tiếp tục giữ các vị trí hàng đầu ở đó), nhưng sẽ rất thú vị khi xem những gì nổi lên từ những quốc gia đang đẩy mạnh AI. LinkedIn nhận thấy rằng đại dịch toàn cầu không ảnh hưởng đến việc tuyển dụng AI vào năm 2020.
Cần lưu ý rằng chỉ một tỷ lệ nhỏ hơn lực lượng lao động ở cả Ấn Độ và Trung Quốc có hồ sơ trên LinkedIn, do đó, dữ liệu từ những quốc gia đó có thể không mang tính đại diện đầy đủ.
8. Đầu tư của các công ty vào AI không thể dừng lại và sẽ không dừng lại
Tiền tiếp tục đổ vào. Đầu tư của doanh nghiệp toàn cầu vào AI đã tăng vọt lên gần 68 tỷ USD vào năm 2020, tăng 40% so với năm trước.
9. Khởi nghiệp điên cuồng đã kết thúc
Biểu đồ trước cho thấy đầu tư tư nhân vẫn đang tăng qua các năm, nhưng với tốc độ chậm hơn. Biểu đồ này cho thấy số tiền đang được chuyển vào ít công ty khởi nghiệp AI hơn. Trong khi đại dịch có thể đã tác động đến hoạt động khởi nghiệp, sự sụt giảm số lượng công ty khởi nghiệp này là một xu hướng rõ ràng bắt đầu từ năm 2018. Đây dường như là tín hiệu của một ngành công nghiệp đang trưởng thành.
10. Hiệu ứng COVID
Trong khi nhiều xu hướng trong AI phần lớn không bị ảnh hưởng bởi đại dịch toàn cầu, biểu đồ này cho thấy đầu tư tư nhân vào năm 2020 nghiêng về một số lĩnh vực nhất định đã đóng vai trò lớn trong phản ứng của thế giới đối với COVID-19. Sự bùng nổ đầu tư từ các công ty liên quan đến dược phẩm là rõ ràng nhất, nhưng có vẻ như việc tăng cường tài trợ cho edtech và game có liên quan đến thực tế là sinh viên và người lớn đã chi tiêu rất nhiều trong năm qua từ máy tính của họ.
11. Rủi ro? Có rủi ro không?
Các tập đoàn đang gia tăng đều đặn việc áp dụng các công cụ AI trong các ngành như viễn thông, dịch vụ tài chính và ô tô. Tuy nhiên, hầu hết các công ty dường như không biết hoặc không quan tâm đến những rủi ro đi kèm với công nghệ mới này. Khi được hỏi trong một cuộc khảo sát của McKinsey về những rủi ro nào mà họ cho là có liên quan, chỉ có hơn một nửa số người được hỏi đã đề cập vấn đề an ninh mạng. Các mối quan tâm đạo đức liên quan đến AI, chẳng hạn như quyền riêng tư và công bằng, là một trong những chủ đề nóng nhất trong nghiên cứu AI ngày nay, nhưng dường như doanh nghiệp vẫn chưa thật sự chú ý.
12. Việc làm của tiến sĩ AI
Công bằng mà nói, có rất nhiều công việc trong lĩnh học thuật. Khi các trường đại học đã tăng số lượng các khóa học liên quan đến AI ở cả cấp độ đại học và sau đại học, và số lượng công việc của giảng viên theo nhiệm kỳ cũng tăng lên tương ứng. Tuy vậy các học viện vẫn không thể hấp thụ số lượng ngày càng tăng các Tiến sĩ AI mới trên thế giới mỗi năm. Biểu đồ trên chỉ đại diện cho học viên Ph.D. tốt nghiệp ở Bắc Mỹ. Nó cho thấy rằng phần lớn những sinh viên tốt nghiệp đó kiếm được việc làm trong ngành.
13. Vấn đề đạo đức
Các công ty có thể chưa quan tâm đến đạo đức AI, nhưng các nhà nghiên cứu ngày càng quan tâm đến vấn đề này. Nhiều nhóm đang làm việc về các vấn đề như ra quyết định không rõ ràng bởi các hệ thống AI (được gọi là vấn đề có thể giải thích được), thành kiến và phân biệt đối xử được nhúng và xâm nhập quyền riêng tư. Biểu đồ trên đây cho thấy sự gia tăng của các bài báo liên quan đến đạo đức tại các hội nghị về AI, mà AI Index của Clark coi là một dấu hiệu đáng khích lệ. Vì có rất nhiều sinh viên tham gia các cuộc hội thảo, ông lưu ý, “trong một vài năm, sẽ có rất nhiều người tham gia vào các ngành công nghiệp đã từng đến ở nơi này.”
Tuy nhiên, ngoài sự gia tăng của các bài báo hội nghị, không có nhiều điều để đo lường. Báo cáo nhấn mạnh rằng các thử nghiệm định lượng về sự thiên vị trong các hệ thống AI chỉ mới bắt đầu xuất hiện. Clark nói: Tạo ra những đánh giá này “giống như một phần mới của lĩnh vực khoa học AI”.
14. Vấn đề đa dạng, phần 1
Một cách để giải quyết vấn đề thiên vị và phân biệt đối xử được nhúng trong các hệ thống AI là đảm bảo sự đa dạng trong các nhóm đang xây dựng chúng. Đây hầu như không phải là một quan niệm cấp tiến. Tuy nhiên, trong cả lĩnh vực học thuật và công nghiệp, lực lượng lao động AI “chủ yếu vẫn là nam giới và thiếu tính đa dạng”, báo cáo nêu rõ. Biểu đồ này, với dữ liệu từ cuộc khảo sát hàng năm của Hiệp hội Nghiên cứu Máy tính, cho thấy rằng phụ nữ chỉ chiếm khoảng 20% sinh viên tốt nghiệp từ Tiến sĩ liên quan đến AI trong các chương trình ở Bắc Mỹ.
15. Vấn đề đa dạng, phần 2
Dữ liệu từ cuộc khảo sát cũng kể một câu chuyện tương tự về chủng tộc/ bản sắc dân tộc. Vấn đề có vẻ khá rõ ràng ở trình độ Tiến sĩ. Vậy có lẽ nên xem xét kỹ hơn ở những khía cạnh khác. Có khá nhiều chương trình STEM dành cho trẻ em gái và các nhóm thiểu số, chẳng hạn AI4ALL, một tổ chức phi lợi nhuận có trụ sở tại Hoa Kỳ nhằm tăng cường sự đa dạng và bao hàm (diversity and inclusion) trong giáo dục, nghiên cứu, phát triển và chính sách AI.
Bài đăng trên IEEE Spectrum: 15 Graphs You Need to See to Understand AI in 2021