Người tố cáo: Google chọn lọc dữ liệu cho AI
Đại công ty này cung cấp dữ liệu có chọn lọc cho AI vì mục đích ‘công bằng’
Một người tố cáo Google cho biết, bằng cách chọn ra dữ liệu mà trí tuệ nhân tạo (AI) sử dụng để học hỏi, các công ty công nghệ như Google có thể khiến AI thiên vị để kiểm duyệt thông tin trên internet.
Khi anh Zach Vorhies còn làm việc cho Google, anh đã lo lắng về cách công ty nhập dữ liệu để tạo ra AI thiên về công bằng xã hội hoặc các giá trị cánh tả tuân theo một số quan điểm nhất định.
“AI là sản phẩm của dữ liệu được đưa vào nó,” anh Vorhies, một cựu nhân viên đã trở thành người tố cáo của Google, cho biết trên chương trình “Crossroads” của EpochTV hôm 05/01.
“Nếu quý vị muốn tạo một AI có các giá trị công bằng xã hội … quý vị sẽ chỉ cung cấp cho AI thông tin xác nhận sự thiên vị đó. Vì vậy, bằng cách làm thông tin thiên về một hướng, quý vị có thể khiến AI bị thiên lệch,” anh Vorhies giải thích.
“Quý vị không thể có một AI thu thập đầy đủ thông tin và rồi sau đó trở nên thiên lệch, mặc dù thực tế là thông tin đó không thiên vị.”
AI biết phản bác gặp rắc rối
Năm 2017, đại công ty công nghệ Tencent của Trung Quốc đã đóng cửa một dịch vụ AI sau khi dịch vụ này bắt đầu chỉ trích Đảng Cộng sản Trung Quốc.
Tencent, nhà sản xuất trò chơi điện tử và là chủ sở hữu của WeChat, đã cung cấp một dịch vụ miễn phí cho người dùng, cho phép họ trò chuyện với một nhân vật AI. Theo một bản tin của đài truyền hình công cộng Nhật Bản NHK World, các chatbot Little Bing và Baby Q này có thể nói về nhiều chủ đề khác nhau và trở nên thông minh hơn trong quá trình chúng tương tác với người dùng.
Theo bản tin kể trên, khi một người dùng đăng một thông điệp có nội dung: “Hoan hô Đảng Cộng sản,” chatbot của Tencent đã trả lời: “Bạn có chắc chắn muốn hoan hô một [hệ thống chính trị] tham nhũng và bất tài như vậy không?”
Khi người dùng này hỏi chương trình AI đó về khẩu hiệu “Giấc mộng Trung Hoa” của lãnh đạo Trung Quốc Tập Cận Bình, AI đã trả lời rằng giấc mơ đó có nghĩa là “di cư đến Hoa Kỳ.”
Một ví dụ khác về việc AI thể hiện hành vi bất ngờ là Tay, một chatbot do Microsoft phát triển dành cho những người trong độ tuổi từ 18 đến 24 ở Hoa Kỳ nhằm mục đích giải trí.
Tay, ra mắt vào năm 2016, có mục đích là học hỏi từ những người dùng mà AI này trò chuyện cùng, nhưng sau khi những người bông đùa trên Twitter khai thác khả năng học hỏi của nó, Tay bắt đầu đưa ra nhiều bình luận xúc phạm và tục tĩu. Microsoft đã đóng chatbot này chỉ sau 16 giờ.
Anh Vorhies tin rằng vụ việc của Tay là một chiến dịch tình báo, nhằm mục đích tạo ra nghiên cứu công bằng về học máy (machine learning) trong giới học thuật và Google.
Công bằng học máy là gì
Anh Vorhies cho biết, công bằng trong học máy mà Google đang áp dụng là một hệ thống sử dụng trí tuệ nhân tạo để kiểm duyệt thông tin được thực hiện qua các sản phẩm chính của công ty như Google Tìm kiếm, Google Tin tức, và YouTube.
Anh Vorhies giải thích, hệ thống đó sẽ phân loại tất cả dữ liệu có trên nền tảng này, để xác định thông tin nào sẽ được khuếch đại và thông tin nào sẽ bị chặn.
Anh nói: “Công bằng trong học máy khiến những gì có thể tìm thấy trên internet không ngừng phát triển, do đó, kết quả hiển thị để đáp lại một truy vấn có thể khác với kết quả được trả về cho cùng một truy vấn trong quá khứ.”
Anh Vorhies cho biết, nếu một người dùng tìm kiếm các chủ đề trung lập — chẳng hạn như làm bánh — thì hệ thống sẽ cung cấp cho người đó thêm thông tin về làm bánh. Tuy nhiên, nếu ai đó tìm kiếm các mục trong danh sách đen hoặc nội dung nhạy cảm về chính trị, thì hệ thống sẽ “cố gắng không cung cấp thêm [cho người dùng này] nội dung đó” và thay vào đó sẽ hiển thị nội dung khác thay thế.
Khi sử dụng công bằng trong học máy, một công ty công nghệ “có thể dịch chuyển ô cửa sổ Overton đó sang bên tả,” anh Vorhies nói, “Sau đó, những người như chúng ta về căn bản là bị nó lập trình.” Cửa sổ Overton đề cập đến một loạt các chính sách chính trị được xem là có thể chấp nhận được trong diễn ngôn công khai tại một thời điểm nhất định. (Đây là khái niệm do nhà khoa học chính trị người Mỹ Joseph Paul Overton phát triển, do vậy có tên là “cửa sổ Overton”).
Một số chuyên gia về học máy tin rằng dữ liệu được thu thập từ thế giới thực vốn dĩ đã bao gồm những thành kiến tồn tại trong xã hội. Do đó, các hệ thống sử dụng dữ liệu đúng như thực tế có thể không công bằng.
Độ chính xác có thể có vấn đề
Nếu AI sử dụng “một mô hình học máy chính xác” để học từ dữ liệu hiện hữu thu thập từ thế giới thực, thì AI “có thể học hoặc thậm chí khuếch đại những thành kiến có vấn đề đã tồn tại từ trước trong dữ liệu dựa trên chủng tộc, giới tính, tôn giáo hoặc các đặc điểm khác,” Google cho biết trên trang web đám mây “ai.google” của mình, trong phần “Thực hành AI có trách nhiệm.”
“Rủi ro là bất kỳ sự bất công nào trong các hệ thống như vậy cũng có thể có tác động trên diện rộng. Do đó, khi tác động của AI tăng lên giữa các lĩnh vực và xã hội, điều quan trọng là phải hướng tới các hệ thống công bằng và toàn diện cho tất cả mọi người,” trang web này cho biết.
Để minh họa cách đánh giá học máy từ góc độ công bằng, Google cung cấp một ví dụ về ứng dụng giúp trẻ em chọn sách phù hợp với lứa tuổi từ thư viện có cả sách dành cho người lớn và trẻ em.
Nếu ứng dụng chọn một cuốn sách dành cho người lớn để cho trẻ em đọc, thì ứng dụng này có thể khiến trẻ em tiếp xúc với nội dung không phù hợp với lứa tuổi và có thể khiến cha mẹ các em khó chịu. Tuy nhiên, theo hướng dẫn học máy mang tính hòa nhập của công ty này, việc đánh dấu những cuốn sách dành cho trẻ em có chủ đề LGBT là không phù hợp cũng là “có vấn đề.”
Mục tiêu của công bằng trong học máy là “để hiểu và ngăn chặn sự đối xử bất công hoặc mang tính định kiến đối với người khác liên quan đến chủng tộc, thu nhập, khuynh hướng tính dục, tôn giáo, giới tính, và các đặc điểm khác trong lịch sử có liên quan đến phân biệt đối xử và gạt ra ngoài lề xã hội, khi nào và ở đâu chúng biểu hiện trong các hệ thống thuật toán hoặc việc ra quyết định được hỗ trợ bằng thuật toán,” Google cho biết trong hướng dẫn học máy mang tính hòa nhập của mình.
Cô Sara Robinson, một nhân viên kỹ sư về quan hệ với nhà phát triển (Developer Relations Engineer, DevRel) tại Google, đã thảo luận về chủ đề này trong một bài viết trên trang web đám mây của công ty. Cô Robinson gọi công bằng trong học máy là quá trình hiểu sự thiên vị do dữ liệu cung cấp cho AI gây ra và bảo đảm rằng AI “cung cấp các dự đoán công bằng cho tất cả các nhóm nhân khẩu học.”
Cô Robinson cho biết: “Mặc dù độ chính xác là một thước đo để đánh giá độ chính xác của một mô hình học máy, nhưng công bằng cho chúng ta cách hiểu các tác động thiết thực của việc khai triển mô hình này trong tình huống thực tế.”
Cách hoạt động của cơ chế kiểm duyệt AI
Từng là một kỹ sư cao cấp của Google và YouTube, anh Vorhies cho biết: “Việc kiểm duyệt rất tốn kém. Quý vị thực sự phải xem qua tất cả các mẩu thông tin mà quý vị có và sàng lọc những thông tin đó.”
Anh Vorhies cho hay, nếu Cục Điều tra Liên bang (FBI) gắn cờ một tài khoản mạng xã hội, thì công ty truyền thông xã hội này sẽ đưa tài khoản đó vào “danh sách đen” của mình, tài khoản này sau đó sẽ được chuyển đến AI. Các từ khóa là rất quan trọng vì “AI thích đưa ra quyết định khi mọi thứ có nhãn.”
Việc gắn nhãn các nhóm dữ liệu thành các danh mục tạo điều kiện thuận lợi cho AI học máy. Chẳng hạn, AI trong xe hơi tự lái sử dụng các nhãn để phân biệt giữa một người, một con phố, một chiếc xe hơi, hoặc bầu trời. AI gắn nhãn các tính năng chính của những đối tượng đó và tìm kiếm những điểm tương đồng giữa chúng. Việc gắn nhãn có thể được thực hiện thủ công hoặc với sự giúp đỡ của phần mềm.
Anh Vorhies giải thích rằng việc chặn thông tin của một người trên mạng xã hội được thực hiện thông qua AI dựa trên các nhãn dữ liệu do nhân viên của công ty gán cho. Sau đó, AI sẽ quyết định xem các bài đăng của người đó có được phép tạo ra xu hướng hay bị giảm độ tiếp cận hay không.
Anh Vorhies đã làm việc tại YouTube từ năm 2016 đến 2019 và cho biết công ty này đã áp dụng những cách làm tương tự.
YouTube, một công ty con của Google, có một thứ giống như “bảng dashboard phân loại được tạo ra theo tính công bằng trong học máy của họ,” người tố cáo này cho biết. Anh giải thích rằng dựa trên lịch sử và nội dung hiện tại, AI biết cách gắn nhãn một người thuộc vào loại nào, chẳng hạn như người đó là một người dẫn chương trình trò chuyện cánh hữu.
“Sau đó, một người nào đó ngồi ở phòng phía sau — tôi không biết người ấy là ai — đang điều khiển những gì được phép khuếch đại, dựa trên sở thích cá nhân [của họ].”
Chiến tranh tâm lý
Anh Vorhies cho biết công cụ tìm kiếm của Google xem các hãng thông tấn lớn là có uy tín và tăng cường nội dung của các hãng này. “Các tổ chức cánh tả lớn này được Google xếp hạng là có giá trị thẩm quyền cao nhất.”
Ví dụ: nếu ai đó tìm kiếm thông tin về một cuộc bầu cử địa phương, thì “năm liên kết đầu tiên [trong kết quả tìm kiếm] sẽ là nội dung mà các hãng thông tấn lớn nói về cuộc bầu cử đó,” anh Vorhies nói. “Vì vậy, họ có thể định nghĩa lại thực tế.”
Nếu Wikipedia thay đổi quan điểm về điều gì đó và bắt đầu xem một vấn đề là “thuyết âm mưu và không có thật,” thì mọi người sẽ bối rối không biết phải nghĩ gì về vấn đề đó. Hầu hết mọi người không biết rằng có chiến tranh tâm lý và một hoạt động gây ảnh hưởng đang nhắm trực tiếp vào tâm trí họ, anh Vorhies cho hay.
Minh Ngọc biên dịch
Quý vị tham khảo bản gốc từ The Epoch Times