Tập dữ liệu (Dataset) cung cấp nhiên liệu cho các mô hình AI cũng giống như xăng hoặc điện cho ô tô. Cho dù nhiệm vụ của chúng là tạo văn bản, nhận dạng đối tượng hay dự đoán giá cổ phiếu của công ty, hệ thống AI đều “học” bằng cách chọn lọc qua vô số ví dụ để phân biệt các mẫu trong dữ liệu. Ví dụ, một hệ thống thị giác máy tính (computer vision) có thể được đào tạo để nhận ra một số loại quần áo nhất định, như áo khoác và khăn quàng cổ, bằng cách xem các hình ảnh khác nhau của quần áo đó.
Ngoài các mô hình đang phát triển, dataset còn được sử dụng để kiểm tra các hệ thống AI đã được đào tạo để đảm bảo chúng duy trì tính ổn định – và đo lường tiến độ tổng thể trong lĩnh vực này. Trong các nhiêm vụ cụ thể, các mô hình đứng đầu bảng xếp hạng, trên một số điểm chuẩn nguồn mở nhất định được coi là state of the art (SOTA). Trên thực tế, đó là một trong những cách chính mà các nhà nghiên cứu xác định sức mạnh dự đoán của một mô hình.
Nhưng những tập dữ liệu về AI và học máy này – giống như con người đã thiết kế chúng – không phải là không có sai sót. Các nghiên cứu cho thấy những thành kiến và sai lầm tô màu cho nhiều thư viện được sử dụng để đào tạo, đối chiếu và kiểm tra mô hình, làm nổi bật mối nguy hiểm khi đặt quá nhiều tin tưởng vào dữ liệu chưa được kiểm tra kỹ lưỡng – ngay cả khi dữ liệu đến từ các tổ chức được ca ngợi.
1. Tiến thoái lưỡng nan trong đào tạo dữ liệu
Trong AI, benchmarking (điểm đối chiếu) đòi hỏi phải so sánh hiệu suất của nhiều mô hình được thiết kế cho cùng một tác vụ, chẳng hạn như việc dịch các từ ra các ngôn ngữ khác nhau. Việc thực hiện, bắt nguồn từ việc các học giả khám phá các ứng dụng ban đầu của AI, có lợi thế là tổ chức được các nhà khoa học tập trung vào các vấn đề đã được biết và đồng thời chia sẻ sự tiến bộ đã đạt được. Về lý thuyết là vậy.
Nhưng có những rủi ro như trở thành cận thị trong việc lựa chọn tập dữ liệu. Ví dụ: nếu cùng một tập dữ liệu đào tạo được sử dụng cho nhiều loại nhiệm vụ, thì không chắc rằng tập dữ liệu đó sẽ phản ánh chính xác dữ liệu mà các mô hình nhìn thấy trong thế giới thực. Tập dữ liệu không được đánh giá đúng có thể làm sai lệch việc đo lường tiến bộ khoa học, khiến các nhà nghiên cứu tin rằng họ đang làm tốt hơn thực tế , và gây hại cho mọi người trong thế giới thực.
Các nhà nghiên cứu tại Đại học California, Los Angeles và Google đã điều tra vấn đề này trong một nghiên cứu được công bố gần đây có tiêu đề “Giảm, tái sử dụng và tái chế: Tuổi thọ của tập dữ liệu trong nghiên cứu máy học (Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research)”. Họ nhận thấy rằng có sự “vay mượn nặng nề” của các tập dữ liệu trong học máy, ví dụ: một cộng đồng làm việc trên một nhiệm vụ có thể mượn một tập dữ liệu được tạo cho một nhiệm vụ khác – làm dấy lên lo ngại về việc căn chỉnh sai. Họ cũng chỉ ra rằng chỉ có một chục trường đại học và tập đoàn chịu trách nhiệm tạo ra các bộ dữ liệu được sử dụng hơn 50% thời gian trong học máy, cho thấy rằng các cơ sở này đang định hình hiệu quả các chương trình nghiên cứu của lĩnh vực này.
“Theo đuổi SOTA là một hành vi xấu vì có quá nhiều biến số gây nhiễu, SOTA thường không có ý nghĩa gì, và mục tiêu của khoa học phải là tích lũy kiến thức thay vì kết quả trong các tiêu chuẩn cụ thể,” Denny Britz, một cựu thành viên trên nhóm Google Brain, đã nói với VentureBeat trong một cuộc phỏng vấn trước đó. “Đã có một số sáng kiến để cải thiện mọi thứ, nhưng tìm kiếm SOTA là một cách nhanh chóng và dễ dàng để xem xét và đánh giá các bài nghiên cứu. Những thứ như thế này đã ăn sâu vào văn hóa và cần thời gian để thay đổi ”.
Có thể chứng minh cho luận điểm đó qua ImageNet và Open Images, hai tập dữ liệu hình ảnh có sẵn công khai từ Stanford và Google tập trung nhiều vào Hoa Kỳ và Châu Âu. Các mô hình thị giác máy tính được đào tạo trên các bộ dữ liệu này hoạt động kém hơn đối với hình ảnh từ các quốc gia Global South (Châu Phi, Châu Mỹ La Tinh, và vùng đang phát triển của Châu Á). Ví dụ: các mô hình phân loại chú rể đến từ Ethiopia và Pakistan với độ chính xác thấp hơn so với chú rể từ Hoa Kỳ và chúng không xác định chính xác các đối tượng như “đám cưới” hoặc “gia vị” khi chúng đến từ các nước này.
Ngay cả sự khác biệt về đường đi của mặt trời giữa bán cầu bắc và bán cầu nam cũng như các biến thể trong cảnh nền có thể ảnh hưởng đến độ chính xác của mô hình, cũng như các thông số kỹ thuật khác nhau của các mẫu máy ảnh như độ phân giải và tỷ lệ khung hình. Điều kiện thời tiết cũng là một yếu tố khác – hệ thống xe ô tô không người lái được đào tạo riêng trên tập dữ liệu về môi trường nhiệt đới đầy nắng sẽ hoạt động kém nếu gặp mưa hoặc tuyết.
Một nghiên cứu gần đây từ MIT tiết lộ rằng các bộ dữ liệu thị giác máy tính bao gồm ImageNet chứa các tín hiệu “vô nghĩa”. Các mẫu được đào tạo mắc phải chứng “diễn giải quá mức (overinterpretation)”, một hiện tượng để phân loại với những hình ảnh có độ tin cậy cao, thiếu nhiều chi tiết đến mức vô nghĩa đối với con người. Những tín hiệu này có thể dẫn đến sự mong manh của mô hình trong thế giới thực, nhưng chúng có giá trị trong bộ dữ liệu – nghĩa là không thể xác định diễn giải quá mức bằng các phương pháp thông thường.
“Có một câu hỏi đặt ra là làm thế nào chúng ta có thể sửa đổi bộ dữ liệu theo cách cho phép các mô hình được đào tạo để bắt chước chặt chẽ hơn cách con người nghĩ về việc phân loại hình ảnh và do đó, hy vọng sẽ khái quát hóa tốt hơn trong các tình huống thực tế này, như lái xe tự động và chẩn đoán y tế, để các mô hình không có hành vi vô nghĩa này, ”Brandon Carter, Tiến sĩ MIT nói.
Có rất nhiều ví dụ về hậu quả của việc triển khai các mô hình được đào tạo bằng cách sử dụng các bộ dữ liệu thiếu sót, như nền ảo và các công cụ cắt xén ảnh gây khó chịu cho những người da sẫm màu. Vào năm 2015, một kỹ sư phần mềm đã chỉ ra rằng các thuật toán nhận dạng hình ảnh trong Google Photos đang gắn nhãn những người bạn da đen của anh ấy là “khỉ đột”. Và tổ chức phi lợi nhuận AlgorithmWatch đã chỉ ra rằng API Cloud Vision của Google đã có lúc gắn nhãn nhiệt kế do một người da đen cầm là “súng” trong khi gắn nhãn nhiệt kế do một người da sáng giữ là “thiết bị điện tử”.
Bộ dữ liệu Dodgy cũng đã dẫn đến các mô hình tiếp tục duy trì việc phân biệt giới tính trong tuyển dụng, quảng cáo phân biệt tuổi tác, chấm điểm sai, phân biệt chủng tộc và phê duyệt khoản vay. Vấn đề mở rộng sang lĩnh vực chăm sóc sức khỏe, nơi các tập dữ liệu đào tạo chứa hồ sơ và hình ảnh y tế chủ yếu đến từ các bệnh nhân ở Bắc Mỹ, Châu Âu và Trung Quốc – có nghĩa là các mô hình ít có khả năng hoạt động tốt đối với các nhóm được hiện diện ít hơn. Sự mất cân bằng thể hiện rõ ràng trong các mô hình thị giác máy tính phát hiện người bán hàng và vũ khí, phần mềm giám sát an toàn tại nơi làm việc, hệ thống phát hiện âm thanh tiếng súng và bộ lọc “làm đẹp”, làm khuếch đại các sai lệch có trong dữ liệu mà chúng được đào tạo.
Các chuyên gia cũng cho rằng nhiều lỗi trong hệ thống nhận dạng khuôn mặt, ngôn ngữ và giọng nói là do sai sót trong bộ dữ liệu được sử dụng để đào tạo các mô hình. Ví dụ, một nghiên cứu của các nhà nghiên cứu tại Đại học Maryland đã phát hiện ra rằng các dịch vụ nhận diện khuôn mặt từ Amazon, Microsoft và Google có nhiều khả năng không thành công với những người lớn tuổi, da ngăm đen và những người ít “nữ tính hơn”. Theo dự án Algorithmic Justice League’s Voice Erasure, các hệ thống nhận dạng giọng nói của Apple, Amazon, Google, IBM và Microsoft nói chung đạt tỷ lệ lỗi từ là 35% đối với giọng nói da đen so với 19% đối với giọng nói da trắng. Và các mô hình ngôn ngữ đã được chứng minh là thể hiện những định kiến về chủng tộc, dân tộc, tôn giáo và giới tính, khiến người Da đen có những cảm xúc tiêu cực hơn và phải vật lộn với “tiếng Anh có lề lối da đen”.
“Dữ liệu [đang] được thu thập từ nhiều nơi khác nhau trên web [trong một số trường hợp] và dữ liệu web đó phản ánh những định kiến và thành kiến cấp xã hội giống như những hệ tư tưởng bá quyền (ví dụ: về da trắng và sự thống trị của nam giới),” UC Los Angeles “Bernard Koch và Jacob G. Foster và Emily Denton và Alex Hanna của Google, đồng tác giả của” Giảm, Tái sử dụng và Tái chế “, nói với VentureBeat qua email. “Các mô hình lớn hơn… yêu cầu nhiều dữ liệu đào tạo hơn và đã có một cuộc đấu tranh để làm sạch dữ liệu này và ngăn các mô hình khuếch đại những ý tưởng có vấn đề này”.
2. Vấn đề về dán nhãn dữ liệu
Các nhãn (label), các chú thích mà từ đó nhiều mô hình tìm hiểu các mối quan hệ trong dữ liệu, cũng mang dấu hiệu của sự mất cân bằng dữ liệu. Con người chú thích các ví dụ trong tập dữ liệu đào tạo và điểm đối chiếu (benchmark), thêm các nhãn như “chó” vào ảnh chó hoặc mô tả các đặc điểm trong ảnh phong cảnh. Nhưng những người ghi nhãn đưa ra những thành kiến và thiếu sót của riêng họ, điều này có thể chuyển thành những chú thích không hoàn hảo.
Ví dụ, các nghiên cứu đã chỉ ra rằng những người gắn nhãn có nhiều khả năng gắn nhãn các cụm từ bằng tiếng Anh bản ngữ người Mỹ gốc Phi (AAVE), ngữ pháp, từ vựng và trọng âm không chính thức được một số người Mỹ da đen sử dụng, là độc hại. Trong một ví dụ khác, một số người gắn nhãn cho tập dữ liệu 80 triệu hình ảnh nhỏ của MIT và NYU – đã chuyển thành offline vào năm 2020 – đã có các chú thích phân biệt chủng tộc, phân biệt giới tính và xúc phạm bao gồm gần 2.000 hình ảnh được gắn chữ N và các nhãn như “nghi phạm hiếp dâm” và “kẻ quấy rối trẻ em.”
Vào năm 2019, Wired đã báo cáo về tính nhạy cảm của các nền tảng như Amazon Mechanical Turk – nơi nhiều nhà nghiên cứu sử dụng các đối tác ghi nhãn là các bot tự động. Ngay cả khi sử dụng con người, và những người này làm việc vì lương thay vì thích thú, có thể dẫn đến dữ liệu chất lượng thấp – đặc biệt là khi họ bị đối xử kém và được trả mức giá thấp hơn thị trường. Các nhà nghiên cứu bao gồm Niloufar Salehi đã nỗ lực khắc phục những sai sót của Amazon Mechanical Turk bằng những nỗ lực như tạo ra Dynamo, một nền tảng để hỗ trợ cộng đồng Mechanical Turk, nhưng họ không làm được gì nhiều.
Là con người, người thực hiện dán nhãn cũng mắc sai lầm, đôi khi là những sai lầm lớn. Trong một phân tích của MIT về các điểm đối chiếu phổ biến bao gồm ImageNet, các nhà nghiên cứu đã tìm thấy hình ảnh bị gắn nhãn sai (giống như một giống chó bị nhầm lẫn với một giống chó khác), cảm xúc văn bản (text sentiment) (như đánh giá sản phẩm Amazon được mô tả là tiêu cực khi chúng thực sự tích cực) và âm thanh của video YouTube ( như một nốt cao của Ariana Grande đang được xếp vào loại còi).
Một giải pháp đang thúc đẩy việc tạo ra các bộ dữ liệu toàn diện hơn, như Bộ dữ liệu lời nói của con người (People’s Speech Dataset) của MLCommons và Bộ dữ liệu nói nhiều ngôn ngữ (Multilingual Spoken Words Corpus). Nhưng việc quản lý những thứ này rất tốn thời gian và tốn kém, thường với mức giá lên tới hàng triệu đô la. Common Voice, nỗ lực của Mozilla nhằm xây dựng một bộ sưu tập mã nguồn mở gồm dữ liệu giọng nói được phiên âm, đã chỉ kiểm tra được cỡ chục ngôn ngữ kể từ khi ra mắt năm 2017 – cho thấy sự thách thức là lớn như thế nào.
Một trong những lý do khiến việc tạo tập dữ liệu rất tốn kém là do thiếu kiến thức chuyên môn về các lĩnh vực cụ thể để có các chú thích chất lượng cao. Như Synced đã lưu ý gần đây, hầu hết các nhà sản xuất nhãn giá rẻ chỉ có thể chú thích dữ liệu “ngữ cảnh thấp” tương đối và không thể xử lý dữ liệu “ngữ cảnh cao” như phân loại hợp đồng pháp lý, hình ảnh y tế hoặc tài liệu khoa học. Kết quả cho thấy rằng các tài xế có xu hướng gắn nhãn bộ dữ liệu tự lái hiệu quả hơn những người không có giấy phép lái xe và các bác sĩ, nhà nghiên cứu bệnh học và bác sĩ X quang làm tốt hơn trong việc ghi nhãn chính xác cho các hình ảnh y tế.
Các công cụ có sự hỗ trợ của máy móc có thể giúp ích ở một mức độ nào đó bằng cách loại bỏ một số công việc lặp đi lặp lại khỏi quy trình dán nhãn. Các cách tiếp cận khác, như học bán giám sát (semi-supervised learning), hứa hẹn cắt giảm lượng dữ liệu cần thiết để đào tạo các mô hình bằng cách cho phép các nhà nghiên cứu “tinh chỉnh” một mô hình trên các tập dữ liệu nhỏ, có thể tùy chỉnh và được thiết kế cho một nhiệm vụ cụ thể. Ví dụ: trong một bài đăng trên blog mới đây, OpenAI nói rằng họ đã điều chỉnh GPT-3 để trả lời chính xác hơn các câu hỏi mở bằng cách sao chép cách con người nghiên cứu câu trả lời cho các câu hỏi trực tuyến (ví dụ: gửi truy vấn tìm kiếm, theo các liên kết, và cuộn lên và xuống các trang) và trích dẫn các nguồn, cho phép người dùng đưa ra phản hồi để cải thiện độ chính xác hơn nữa.
Vẫn còn các phương pháp khác nhằm mục đích thay thế dữ liệu trong thế giới thực bằng một phần hoặc toàn bộ dữ liệu tổng hợp – mặc dù vẫn chưa xác định được liệu các mô hình được đào tạo về dữ liệu tổng hợp có thể khớp với độ chính xác của các đối tác dữ liệu trong thế giới thực của chúng hay không. Các nhà nghiên cứu tại MIT và một số nơi khác đã thử nghiệm sử dụng tiếng ồn ngẫu nhiên trong vision dataset để đào tạo các mô hình nhận dạng vật thể.
Về lý thuyết, học tập không giám sát (unsupervised learning) có thể giải quyết tình trạng khó xử về dữ liệu đào tạo một lần và mãi mãi. Trong học tập không giám sát, một thuật toán phải tuân theo dữ liệu “không xác định” mà không có danh mục hoặc nhãn được xác định trước đó tồn tại. Tuy nhiên, mặc dù việc học tập không có giám sát vượt trội trong các lĩnh vực thiếu dữ liệu được gắn nhãn, nhưng đó không phải là một điểm yếu. Ví dụ, hệ thống thị giác máy tính không được giám sát có thể thu thập các định kiến về chủng tộc và giới tính có trong dữ liệu đào tạo không được gắn nhãn.
3. Vấn đề về benchmarking
Các vấn đề với bộ dữ liệu AI không chỉ dừng lại ở việc đào tạo. Trong một nghiên cứu từ Viện hỗ trợ ra quyết định và trí tuệ nhân tạo (Institute for Artificial Intelligence and Decision Support) ở Vienna, các nhà nghiên cứu đã phát hiện ra điểm đối chiếu (benchmarking) không nhất quán trên hơn 3.800 bài báo nghiên cứu về AI và trong nhiều trường hợp các thuộc tính để đối chiếu không nhấn mạnh đến các chỉ số thông tin. Một bài báo của Facebook và University College London cho thấy 60% đến 70% câu trả lời được đưa ra bởi các mô hình ngôn ngữ tự nhiên được kiểm tra trên “open-domain” benchmarks bị ẩn ở đâu đó trong bộ dữ liệu đào tạo, có nghĩa là các mô hình chỉ đơn giản là ghi nhớ câu trả lời.
Trong hai nghiên cứu do Deborah Raji, một thành viên công nghệ tại Viện AI Now tại NYU là đồng tác giả, các nhà nghiên cứu phát hiện ra rằng các tiêu chuẩn được dùng để so sánh như ImageNet thường được “nâng cao một cách ngụy biện” để biện minh cho những tác vụ vượt ra ngoài những gì mà chúng được thiết kế ban đầu. Theo Raji và các đồng tác giả khác, đó là việc bỏ qua một thực tế rằng “văn hóa tập dữ liệu” có thể bóp méo khoa học nghiên cứu máy học – và thiếu văn hóa quan tâm đến chủ thể dữ liệu, tạo ra điều kiện lao động kém (chẳng hạn như trả lương thấp cho người gán nhãn) trong khi bảo vệ không đầy đủ những người có dữ liệu bị quét cố ý hoặc vô ý để đưa vào tập dữ liệu.
Một số giải pháp cho vấn đề benchmarking đã được đề xuất cho các lĩnh vực cụ thể, bao gồm GENIE của Viện Allen. GENIE kết hợp cả kiểm tra tự động và thủ công, giao nhiệm vụ cho người đánh giá các mô hình ngôn ngữ thăm dò theo các hướng dẫn dành riêng cho tập dữ liệu được xác định trước về sự trôi chảy, đúng đắn và ngắn gọn. Trong khi GENIE tốn khoảng 100 đô la để gửi một mô hình để đối chiếu so sánh, Viện Allen có kế hoạch đưa ra các mô hình thu phí khác, chẳng hạn như thu phí từ các công ty công nghệ trong khi trợ cấp chi phí cho các tổ chức nhỏ.
Cộng đồng nghiên cứu AI cũng ngày càng đồng thuận rằng các điểm chuẩn, đặc biệt trong lĩnh vực ngôn ngữ, phải tính đến các thách thức về đạo đức, kỹ thuật và xã hội rộng hơn nếu chúng hữu ích. Một số mô hình ngôn ngữ có lượng khí thải nhà kính lớn, nhưng dù vấn đề này là phổ biến, tương đối ít nhà nghiên cứu cố gắng ước tính hoặc báo cáo chi phí môi trường của hệ thống của họ.
“Tập trung vào hiệu suất vượt trội (state-of-the-art) làm giảm đáng kể sứ quam tâm các tiêu chí quan trọng khác ” Koch, Foster, Denton và Hanna nói. “[Ví dụ:] SOTA benchmarking khuyến khích việc tạo ra các thuật toán không thân thiện với môi trường. Xây dựng các mô hình lớn hơn là chìa khóa để nâng cao hiệu suất trong học máy, nhưng nó cũng không bền vững với môi trường về lâu dài… SOTA benchmarking [cũng] không khuyến khích các nhà khoa học mở rộng sự hiểu biết nhiều sắc thái về những thách thức cụ thể trong thế giới thực và thay vào đó là tầm nhìn bị bó hẹp. Yêu cầu để đạt được SOTA hạn chế việc tạo ra các thuật toán mới có thể giải quyết các vấn đề trong thế giới thực. “
Các giải pháp khả thi cho tập dữ liệu AI
Trước những thách thức lớn với bộ dữ liệu AI, từ dữ liệu đào tạo không cân bằng đếnbenchmarking không đầy đủ, việc tạo ra sự thay đổi có ý nghĩa sẽ không dễ dàng. Nhưng các chuyên gia tin rằng tình hình không phải là vô vọng.
Arvind Narayanan, nhà khoa học máy tính ở Princeton, người đã có một số công trình điều tra nguồn gốc của các bộ dữ liệu AI, nói rằng các nhà nghiên cứu phải áp dụng các phương pháp tiếp cận có trách nhiệm không chỉ để thu thập và chú thích dữ liệu mà còn để ghi lại các bộ dữ liệu và duy trì chúng. Trong một nghiên cứu gần đây mà ông đồng tác giả, Narayanan đã phát hiện ra rằng nhiều bộ dữ liệu bị quản lý kém trong việc cho phép hoặc ngăn cản sử dụng nếu việc sử dụng có thể gây ra nghi vấn.
“Các nhà nghiên cứu nên suy nghĩ về những cách khác nhau mà tập dữ liệu của họ có thể được sử dụng… Tập dữ liệu có trách nhiệm “ quản lý ”, như chúng tôi gọi, yêu cầu giải quyết những rủi ro lớn hơn,” ông nói với VentureBeat qua email. “Một rủi ro là ngay cả khi tập dữ liệu được tạo cho một mục đích có vẻ lành tính, nó có thể bị sử dụng không chủ ý theo những cách có thể gây hại. Bộ dữ liệu có thể được sử dụng lại cho một ứng dụng nghiên cứu đáng ngờ về mặt đạo đức. Hoặc, tập dữ liệu có thể được sử dụng để đào tạo hoặc làm điểm chuẩn cho một mô hình thương mại khi nó không được thiết kế cho việc này. Các tập dữ liệu thường mất rất nhiều công sức để tạo từ đầu, vì vậy các nhà nghiên cứu và thực hành thường tìm cách tận dụng những gì đã tồn tại. Mục tiêu của việc quản lý tập dữ liệu có trách nhiệm là đảm bảo rằng việc này được thực hiện một cách có đạo đức. ”
Koch và các đồng tác giả tin rằng mọi người – và các tổ chức – cần được khen thưởng và hỗ trợ vì đã tạo ra các bộ dữ liệu mới, đa dạng được ngữ cảnh hóa cho nhiệm vụ hiện tại. Họ nói rằng các nhà nghiên cứu cần được khuyến khích sử dụng các bộ dữ liệu “thích hợp hơn” tại các hội nghị học thuật như NeurIPS và được khuyến khích thực hiện nhiều phân tích định tính hơn – như khả năng diễn giải của mô hình – cũng như báo cáo các số liệu như tính công bằng (trong phạm vi có thể) và hiệu quả công suất.
NeurIPS – một trong những hội nghị về máy học lớn nhất trên thế giới – bắt buộc các đồng tác giả nộp bài báo phải nêu rõ “tác động tiềm năng rộng lớn hơn của công việc của họ” đối với xã hội, bắt đầu với NeurIPS 2020. Kết quả đã bị xáo trộn, nhưng Koch và các đồng tác giả tin rằng đó là một bước đi nhỏ đúng hướng.
“Các nhà nghiên cứu Machine learning đang tạo ra rất nhiều bộ dữ liệu, nhưng chúng chưa được sử dụng. Một trong những vấn đề ở đây là nhiều nhà nghiên cứu có thể cảm thấy họ cần phải bao gồm tiêu chuẩn được sử dụng rộng rãi để tạo độ tin cậy cho bài báo của họ, thay vì một tiêu chuẩn thích hợp hơn nhưng phù hợp về mặt kỹ thuật, ”họ nói. “Hơn nữa, các khuyến khích nghề nghiệp cần phải phù hợp với việc tạo ra các bộ dữ liệu này… Chúng tôi nghĩ rằng vẫn còn một bộ phận cộng đồng nghiên cứu hoài nghi về cải cách đạo đức và giải quyết các vấn đề khoa học có thể là một cách khác để khiến những người này đứng sau cải cách đánh giá trong học máy. ”
Không có giải pháp đơn giản nào cho vấn đề chú thích tập dữ liệu – giả sử rằng việc dán nhãn cuối cùng không được thay thế bằng các giải pháp khác. Nhưng một bài báo gần đây của Google cho thấy rằng các nhà nghiên cứu sẽ làm tốt việc thiết lập “khuôn khổ giao tiếp mở rộng” với các trình chú thích, như ứng dụng trò chuyện, để cung cấp phản hồi có ý nghĩa hơn và hướng dẫn rõ ràng hơn. Đồng thời, họ phải làm việc để thừa nhận (và có trách nhiệm) về nguồn gốc văn hóa xã hội của người lao động, cả từ góc độ chất lượng dữ liệu và tác động xã hội.
Bài báo còn đi xa hơn, cung cấp các khuyến nghị cho việc hình thành nhiệm vụ tập dữ liệu và lựa chọn người chú thích, nền tảng và cơ sở hạ tầng ghi nhãn. Các đồng tác giả nói rằng các nhà nghiên cứu nên xem xét các hình thức chuyên môn có thể được kết hợp thông qua chú thích, ngoài việc xem xét các trường hợp sử dụng dự định của tập dữ liệu. Họ cũng nói rằng họ nên so sánh và đối chiếu các yêu cầu trả tiền tối thiểu trên các nền tảng khác nhau và phân tích sự bất đồng giữa những người chú thích thuộc các nhóm khác nhau, hy vọng rằng họ hiểu rõ hơn về các quan điểm khác nhau như thế nào hoặc không được thể hiện như thế nào.
“Nếu chúng tôi thực sự muốn đa dạng hóa các tiêu chuẩn đang sử dụng, thì chính phủ và các doanh nghiệp cần phải tạo ra các khoản tài trợ để tạo tập dữ liệu và phân phối các khoản tài trợ đó cho các tổ chức có nguồn lực hạn chế và các nhà nghiên cứu từ các nền tảng ít được đại diện,” Koch và các đồng tác giả cho biết. “Chúng tôi có thể nói rằng hiện nay có rất nhiều nghiên cứu cho thấy các vấn đề đạo đức và tác hại xã hội có thể phát sinh từ việc sử dụng sai dữ liệu trong học máy… Các nhà khoa học thích dữ liệu, vì vậy chúng tôi nghĩ nếu chúng tôi có thể cho họ thấy việc sử dụng quá mức không tốt cho khoa học, nó có thể thúc đẩy cải cách hơn nữa có thể giảm thiểu tác hại xã hội. “
Theo VentureBeat: 3 big problems with datasets in AI and machine learning