Sau nhiều lần thông báo trên các phương tiện truyền thông, OpenAI đã tung ra một công cụ giúp phân biệt giữa văn bản do con người viết và do AI tạo ra — như nội dung do các mô hình ChatGPT và GPT-3 của chính công ty tạo ra. Trình phân loại không hoàn toàn chính xác, tỷ lệ thành công của nó là khoảng 26%, OpenAI cho biết.
Nhưng OpenAI lập luận rằng khi được sử dụng song song với các phương pháp khác, có thể hữu ích trong việc giúp ngăn chặn việc lạm dụng trình tạo văn bản bằng AI. Do đó, OpenAI ra mắt công cụ giúp phát hiện văn bản do AI tạo ra trên ChatGPT.
“Bộ phân loại nhằm giúp giảm thiểu những sự nhầm lẫn từ nội dung do AI tạo ra với nội dung được viết bởi con người. Tuy nhiên, nó vẫn có một số hạn chế — vì vậy bạn nên sử dụng như một phương pháp bổ sung cho các phương pháp xác định nguồn văn bản khác thay vì coi là công cụ ra quyết định chính”, một phát ngôn viên của OpenAI nói với TechCrunch qua email. “Chúng tôi cung cấp bộ phân loại này để có thêm phản hồi về việc liệu các công cụ như thế này có hữu ích hay không và đưa ra các phương pháp cải tiến trong tương lai”.
Khi mọi người đang rất phấn khích Generative AI – đặc biệt là AI tạo văn bản – ngày càng tăng, các nhà phê bình đã kêu gọi những người tạo ra các công cụ này thực hiện các bước để giảm thiểu mối nguy hại tiềm ẩn của chúng. Một số trường học lớn nhất của Hoa Kỳ đã cấm sử dụng ChatGPT trên mạng và trên các thiết bị của họ, do lo ngại ảnh hưởng đến việc học tập của học sinh và tính chính xác của nội dung mà công cụ này tạo ra. Và các trang web bao gồm Stack Overflow đã cấm người dùng chia sẻ nội dung do ChatGPT tạo ra, nói rằng AI khiến người dùng quá dễ dàng tạo ra các chủ đề thảo luận với các câu trả lời thiếu tính xác thực.
Trình phân loại của OpenAI — được gọi là OpenAI AI Text Classifier — khá thú vị về mặt kiến trúc. Nó, giống như ChatGPT, là một mô hình ngôn ngữ AI được đào tạo trên rất nhiều ví dụ về văn bản có sẵn công khai trên web. Nhưng không giống như ChatGPT, nó được tinh chỉnh để dự đoán khả năng một đoạn văn bản được tạo bởi AI — không chỉ từ ChatGPT mà bất kỳ mô hình AI tạo văn bản nào.
Cụ thể, OpenAI đã đào tạo Trình phân loại văn bản OpenAI AI trên văn bản từ 34 hệ thống tạo văn bản của 5 tổ chức khác nhau, bao gồm cả chính OpenAI. Văn bản này được ghép nối với văn bản do con người viết tương tự (nhưng không hoàn toàn giống nhau) từ Wikipedia, các trang web được trích xuất từ các liên kết được chia sẻ trên Reddit và một tập hợp “các bằng chứng là nội dung của con người” được thu thập cho một hệ thống tạo văn bản OpenAI trước đó. (Tuy nhiên, OpenAI thừa nhận trong một tài liệu hỗ trợ rằng nó có thể đã vô tình phân loại sai một số văn bản do AI viết thành văn bản do con người viết do sự phổ biến của nội dung do AI tạo ra trên internet).
Quan trọng là, Trình phân loại văn bản OpenAI không phải sẽ hoạt động trên bất kỳ văn bản nào. Nó cần tối thiểu 1.000 ký tự, hoặc khoảng 150 đến 250 từ. Nó không phát hiện đạo văn — một hạn chế đặc biệt đáng tiếc khi sử dụng nó để kiểm tra một nội dung có phải do AI tạo ra hay không bằng chính những văn bản mà nó đã được đào tạo. Và OpenAI nói rằng nhiều khả năng nó vẫn hiểu sai văn bản do trẻ em viết hoặc bằng một ngôn ngữ không phải tiếng Anh, do bộ dữ liệu chuyển tiếp từ tiếng Anh của nó.
Máy sẽ mất một chút thời gian để đánh giá xem một đoạn văn bản nhất định có phải do AI tạo ra hay không. Tùy thuộc vào mức độ tin cậy, nó sẽ gắn nhãn văn bản là “very unlikely” do AI tạo ra (khả năng dưới 10%), “unlikely” do AI tạo ra (khả năng 10% đến 45%), “unclear if it is ” do AI tạo (khả năng 45% đến 90%), “possibly” do AI tạo (khả năng 90% đến 98%) hoặc “likely” do AI tạo (khả năng trên 98%).
Để kiểm chứng, họ đã đưa một số văn bản qua bộ phân loại để xem nó có thể xử lý như thế nào. Mặc dù nó đã dự đoán chính xác một cách tự tin rằng một số đoạn trong bài báo TechCrunch về Meta’s Horizon Worlds và một đoạn trích từ trang do OpenAI cung cấp (không phải do AI tạo ra), bộ phân loại đã gặp khó khăn hơn với văn bản có độ dài bài viết của ChatGPT, cuối cùng không phân loại được một cách toàn bộ. Tuy nhiên, nó đã phát hiện thành công nội dung do ChatGPT tạo ra từ một đoạn của bài viết trên Gizmodo.
Theo OpenAI, “Khả năng công cụ này phân loại sai văn bản do con người viết thành văn bản do AI viết là khoảng 9%. Kết quả này không xảy ra trong thử nghiệm của chúng tôi nhưng chúng tôi đánh giá đây là con số không quá lớn”.
(Theo Kyle Wiggers)