Khi nhu cầu về AI tạo sinh tăng lên, thì nhu cầu về dữ liệu chất lượng cao để đào tạo các hệ thống này cũng tăng theo. Các nhà xuất bản học thuật đã bắt đầu kiếm tiền từ nội dung nghiên cứu của họ để cung cấp dữ liệu đào tạo cho các mô hình ngôn ngữ lớn (LLM). Mặc dù sự phát triển này đang tạo ra một nguồn doanh thu mới cho các nhà xuất bản và trao quyền cho AI tạo sinh cho các khám phá khoa học, nhưng nó đặt ra những câu hỏi quan trọng về tính toàn vẹn và độ tin cậy của nghiên cứu được sử dụng. Điều này đặt ra một câu hỏi quan trọng: Các tập dữ liệu được bán có đáng tin cậy không và hoạt động này có ý nghĩa gì đối với cộng đồng khoa học và các mô hình AI tạo sinh?
Sự gia tăng của các giao dịch nghiên cứu được kiếm tiền
Các nhà xuất bản học thuật lớn, bao gồm Wiley, Taylor & Francis và những nhà xuất bản khác, đã báo cáo doanh thu đáng kể từ việc cấp phép nội dung của họ cho các công ty công nghệ phát triển các mô hình AI tạo sinh. Ví dụ, Wiley tiết lộ hơn 40 triệu đô la thu nhập từ các giao dịch như vậy chỉ trong năm nay. Các thỏa thuận này cho phép các công ty AI tiếp cận các tập dữ liệu khoa học đa dạng và mở rộng, có lẽ là cải thiện chất lượng các công cụ AI của họ.
Lời chào hàng từ các nhà xuất bản rất đơn giản: cấp phép đảm bảo các mô hình AI tốt hơn, mang lại lợi ích cho xã hội trong khi vẫn thưởng cho tác giả tiền bản quyền. Mô hình kinh doanh này mang lại lợi ích cho cả các công ty công nghệ và nhà xuất bản. Tuy nhiên, xu hướng ngày càng tăng là kiếm tiền từ kiến thức khoa học có rủi ro, chủ yếu là khi nghiên cứu đáng ngờ xâm nhập vào các tập dữ liệu đào tạo AI này.
Cái bóng của nghiên cứu giả mạo
Cộng đồng học thuật không còn xa lạ với các vấn đề nghiên cứu gian lận. Các nghiên cứu cho thấy nhiều phát hiện được công bố có sai sót, thiên vị hoặc chỉ đơn giản là không đáng tin cậy. Một cuộc khảo sát năm 2020 cho thấy gần một nửa số nhà nghiên cứu báo cáo các vấn đề như báo cáo dữ liệu có chọn lọc hoặc các nghiên cứu thực địa được thiết kế kém. Năm 2023, hơn Giấy tờ 10,000 đã bị thu hồi do kết quả sai lệch hoặc không đáng tin cậy, một con số vẫn tiếp tục tăng hàng năm. Các chuyên gia tin rằng con số này chỉ là phần nổi của tảng băng chìm, với vô số nghiên cứu đáng ngờ đang lưu hành trong các cơ sở dữ liệu khoa học.
Cuộc khủng hoảng chủ yếu được thúc đẩy bởi “nhà máy giấy”, các tổ chức bóng tối tạo ra các nghiên cứu bịa đặt, thường là để đáp ứng áp lực học thuật ở các khu vực như Trung Quốc, Ấn Độ và Đông Âu. Người ta ước tính rằng xung quanh 2% của các bài nộp tạp chí trên toàn cầu đến từ các nhà máy giấy. Những bài báo giả mạo này có thể giống với nghiên cứu hợp pháp nhưng lại chứa đầy dữ liệu hư cấu và kết luận vô căn cứ. Điều đáng lo ngại là những bài báo như vậy lọt qua quá trình bình duyệt ngang hàng và cuối cùng xuất hiện trên các tạp chí uy tín, làm giảm độ tin cậy của những hiểu biết khoa học. Ví dụ, trong đại dịch COVID-19, nghiên cứu sai sót về ivermectin đã đưa ra thông tin sai lệch về hiệu quả của nó như một phương pháp điều trị, gây nhầm lẫn và trì hoãn các phản ứng y tế công cộng hiệu quả. Ví dụ này nêu bật tác hại tiềm tàng của việc phổ biến nghiên cứu không đáng tin cậy, trong đó kết quả sai lệch có thể có tác động đáng kể.
Hậu quả đối với việc đào tạo và tin tưởng AI
Những hàm ý này rất sâu sắc khi LLM đào tạo trên các cơ sở dữ liệu chứa nghiên cứu gian lận hoặc chất lượng thấp. Các mô hình AI sử dụng các mẫu và mối quan hệ trong dữ liệu đào tạo của chúng để tạo ra đầu ra. Nếu dữ liệu đầu vào bị hỏng, đầu ra có thể duy trì sự không chính xác hoặc thậm chí khuếch đại chúng. Rủi ro này đặc biệt cao trong các lĩnh vực như y học, nơi những hiểu biết không chính xác do AI tạo ra có thể gây ra hậu quả đe dọa đến tính mạng.
Hơn nữa, vấn đề này đe dọa lòng tin của công chúng vào học viện và AI. Khi các nhà xuất bản tiếp tục đạt được thỏa thuận, họ phải giải quyết những lo ngại về chất lượng dữ liệu được bán. Nếu không làm như vậy có thể gây tổn hại đến danh tiếng của cộng đồng khoa học và làm suy yếu các lợi ích xã hội tiềm năng của AI.
Đảm bảo dữ liệu đáng tin cậy cho AI
Giảm thiểu rủi ro nghiên cứu sai sót làm gián đoạn quá trình đào tạo AI đòi hỏi nỗ lực chung từ các nhà xuất bản, công ty AI, nhà phát triển, nhà nghiên cứu và cộng đồng rộng lớn hơn. Các nhà xuất bản phải cải thiện quy trình đánh giá ngang hàng của mình để phát hiện các nghiên cứu không đáng tin cậy trước khi đưa chúng vào bộ dữ liệu đào tạo. Việc cung cấp phần thưởng tốt hơn cho người đánh giá và đặt ra các tiêu chuẩn cao hơn có thể giúp ích. Một quy trình đánh giá mở là rất quan trọng ở đây. Nó mang lại nhiều tính minh bạch và trách nhiệm hơn, giúp xây dựng lòng tin vào nghiên cứu.
Các công ty AI phải cẩn thận hơn về việc họ làm việc với ai khi tìm kiếm nguồn nghiên cứu để đào tạo AI. Việc lựa chọn các nhà xuất bản và tạp chí có uy tín cao về nghiên cứu chất lượng cao, được đánh giá tốt là điều quan trọng. Trong bối cảnh này, điều đáng xem xét kỹ lưỡng là hồ sơ theo dõi của nhà xuất bản—chẳng hạn như tần suất họ rút lại các bài báo hoặc mức độ cởi mở của họ về quy trình đánh giá của mình. Việc có chọn lọc sẽ cải thiện độ tin cậy của dữ liệu và xây dựng lòng tin trong cộng đồng AI và nghiên cứu.
Các nhà phát triển AI cần chịu trách nhiệm về dữ liệu họ sử dụng. Điều này có nghĩa là làm việc với các chuyên gia, kiểm tra cẩn thận nghiên cứu và so sánh kết quả từ nhiều nghiên cứu. Bản thân các công cụ AI cũng có thể được thiết kế để xác định dữ liệu đáng ngờ và giảm nguy cơ nghiên cứu đáng ngờ lan truyền xa hơn.
Tính minh bạch cũng là một yếu tố thiết yếu. Các nhà xuất bản và công ty AI nên chia sẻ công khai thông tin chi tiết về cách nghiên cứu được sử dụng và tiền bản quyền được phân bổ như thế nào. Các công cụ như Theo dõi thỏa thuận cấp phép AI tạo sinh cho thấy triển vọng nhưng cần được áp dụng rộng rãi hơn. Các nhà nghiên cứu cũng nên có tiếng nói trong cách sử dụng công trình của họ. Chính sách lựa chọn tham gia, giống như những từ Nhà xuất bản Đại học Cambridge, cung cấp cho tác giả quyền kiểm soát đối với các đóng góp của họ. Điều này xây dựng lòng tin, đảm bảo tính công bằng và khiến tác giả tích cực tham gia vào quá trình này.
Hơn nữa, nên khuyến khích việc tiếp cận mở với nghiên cứu chất lượng cao để đảm bảo tính toàn diện và công bằng trong phát triển AI. Chính phủ, tổ chức phi lợi nhuận và các bên liên quan trong ngành có thể tài trợ cho các sáng kiến truy cập mở, giảm sự phụ thuộc vào các nhà xuất bản thương mại đối với các tập dữ liệu đào tạo quan trọng. Trên hết, ngành AI cần có các quy tắc rõ ràng để lấy dữ liệu một cách có đạo đức. Bằng cách tập trung vào nghiên cứu đáng tin cậy và được đánh giá tốt, chúng ta có thể xây dựng các công cụ AI tốt hơn, bảo vệ tính toàn vẹn khoa học và duy trì niềm tin của công chúng vào khoa học và công nghệ.
Lời kết
Việc kiếm tiền từ nghiên cứu để đào tạo AI vừa mang lại cơ hội vừa mang lại thách thức. Trong khi việc cấp phép nội dung học thuật cho phép phát triển các mô hình AI mạnh mẽ hơn, thì nó cũng làm dấy lên mối lo ngại về tính toàn vẹn và độ tin cậy của dữ liệu được sử dụng. Nghiên cứu sai sót, bao gồm cả nghiên cứu từ “nhà máy giấy”, có thể làm hỏng các tập dữ liệu đào tạo AI, dẫn đến sự không chính xác có thể làm suy yếu lòng tin của công chúng và các lợi ích tiềm năng của AI. Để đảm bảo các mô hình AI được xây dựng trên dữ liệu đáng tin cậy, các nhà xuất bản, công ty AI và nhà phát triển phải hợp tác với nhau để cải thiện quy trình đánh giá ngang hàng, tăng tính minh bạch và ưu tiên nghiên cứu chất lượng cao, được thẩm định kỹ lưỡng. Bằng cách đó, chúng ta có thể bảo vệ tương lai của AI và duy trì tính toàn vẹn của cộng đồng khoa học.
https%3A%2F%2Funite.ai%2Fvi%2Fki%25E1%25BA%25BFm-ti%25E1%25BB%2581n-t%25E1%25BB%25AB-nghi%25C3%25AAn-c%25E1%25BB%25A9u-%25C4%2591%25E1%25BB%2583-%25C4%2591%25C3%25A0o-t%25E1%25BA%25A1o-AI-v%25E1%25BB%2581-r%25E1%25BB%25A7i-ro-v%25C3%25A0-c%25C3%25A1c-ph%25C6%25B0%25C6%25A1ng-ph%25C3%25A1p-hay-nh%25E1%25BA%25A5t%2F