8 yếu tố chính cần xem xét khi kiểm tra độ chính xác của AI Chatbots

Trí tuệ nhân tạo đã đi một chặng đường dài từ việc tạo ra đầu ra không liên quan, không mạch lạc. Các chatbot hiện đại sử dụng các mô hình ngôn ngữ tiên tiến để trả lời các câu hỏi về kiến thức chung, soạn các bài luận dài và viết mã, trong số các nhiệm vụ phức tạp khác.

Mặc dù có những tiến bộ này, hãy lưu ý rằng ngay cả những hệ thống tinh vi nhất cũng có những hạn chế. AI vẫn phạm sai lầm. Để xác định chatbot nào ít bị ảo giác nhất, hãy kiểm tra độ chính xác của chúng dựa trên các yếu tố này.

1. Số học

Chạy các phương trình toán học thông qua chatbot. Họ sẽ kiểm tra khả năng của nền tảng để phân tích các bài toán đố, dịch các khái niệm toán học và áp dụng các công thức chính xác. Chỉ một vài mô hình thể hiện tính toán đáng tin cậy. Trên thực tế, một trong những vấn đề tồi tệ nhất của ChatGPT trong những tháng đầu tiên là khả năng hiểu toán rất tệ.

Hình ảnh bên dưới cho thấy ChatGPT không đạt được số liệu thống kê cơ bản.

ChatGPT trả lời sai câu hỏi xác suất tung đồng xu

ChatGPT đã cho thấy sự cải thiện sau khi OpenAI tung ra các bản cập nhật vào tháng 5 năm 2023. Nhưng xem xét các bộ dữ liệu hạn chế của nó, bạn sẽ vẫn gặp khó khăn với các tính toán toán học từ trung cấp đến cao cấp.

ChatGPT trả lời đúng câu hỏi xác suất tung đồng xu

Trong khi đó, Bing Chat và Google Bard hiển thị số tốt hơn. Họ chạy các truy vấn thông qua các công cụ tìm kiếm tương ứng, cho phép họ lấy công thức và bảng trả lời.

Bing Chat trả lời đúng câu hỏi xác suất tung đồng xu

Hãy thử diễn đạt lại các vấn đề từ ngữ của bạn. Tránh các câu dài và thay thế các động từ yếu; nếu không, chatbot có thể hiểu sai câu hỏi của bạn.

2. Hiểu

Các hệ thống AI hiện đại có thể đảm nhận nhiều nhiệm vụ. Các LLM nâng cao cho phép chúng giữ lại các hướng dẫn trước đó và trả lời các lời nhắc theo từng phần, trong khi các hệ thống cũ hơn xử lý các lệnh đơn lẻ. Chẳng hạn, Siri trả lời một câu hỏi tại một thời điểm.

Cung cấp cho các chatbot ba đến năm tác vụ đồng thời để kiểm tra xem chúng phân tích các lời nhắc phức tạp tốt như thế nào. Các mô hình kém phức tạp hơn không thể xử lý nhiều thông tin đó. Hình ảnh bên dưới cho thấy HuggingChat gặp trục trặc ở lời nhắc ba bước—sự cố dừng ở bước một và đi chệch khỏi chủ đề.

HuggingChat Cố gắng trả lời lời nhắc nhiều bước

Những dòng cuối cùng của HuggingChat đã không mạch lạc.

HuggingChat bối rối sau khi trả lời lời nhắc nhiều bước

ChatGPT nhanh chóng hoàn thành cùng một lời nhắc, tạo phản hồi thông minh, không có lỗi ở mọi bước.

ChatGPT trả lời câu hỏi đầu tiên của lời nhắc nhiều bước

Bing Chat cung cấp câu trả lời cô đọng cho ba bước. Các hạn chế cứng nhắc của nó ngăn cấm các đầu ra dài không cần thiết gây lãng phí năng lượng xử lý.

Trò chuyện Bing cung cấp câu trả lời ngắn gọn cho dự án nhiều bước

3. Kịp thời

Vì đào tạo AI tiêu tốn nhiều tài nguyên nên hầu hết các nhà phát triển giới hạn bộ dữ liệu trong các khoảng thời gian cụ thể. Lấy ChatGPT làm ví dụ. Nó có giới hạn kiến thức vào tháng 9 năm 2021—bạn không thể yêu cầu cập nhật thời tiết, báo cáo tin tức hoặc những phát triển gần đây. Đây là ChatGPT nói rằng nó không có quyền truy cập vào thông tin thời gian thực.

ChatGPT không thể chia sẻ các sự kiện đáng chú ý vì nó bị giới hạn kiến thức

Bard có quyền truy cập vào internet. Nó lấy dữ liệu từ Google SERPs, vì vậy bạn có thể hỏi nhiều loại câu hỏi hơn, ví dụ: các sự kiện, tin tức và dự đoán gần đây.

Bard chia sẻ các sự kiện đáng chú ý bằng cách chạy truy vấn Google

Tương tự như vậy, Bing Chat lấy thông tin theo thời gian thực từ công cụ tìm kiếm của nó.

Bing chia sẻ các sự kiện đáng chú ý bằng cách chạy truy vấn tìm kiếm trên Bing

Bing Chat và Bard cung cấp thông tin cập nhật, kịp thời, nhưng Bing Chat cung cấp phản hồi chi tiết hơn. Bing chỉ trình bày dữ liệu như vốn có. Bạn sẽ nhận thấy rằng kết quả đầu ra của nó thường khớp với cách diễn đạt và giọng điệu của nguyên văn các nguồn được liên kết.

4. Mức độ liên quan

Chatbots phải cung cấp đầu ra có liên quan. Họ nên xem xét nghĩa đen và ngữ cảnh của lời nhắc của bạn khi phản hồi. Lấy cuộc trò chuyện này làm ví dụ. Nhân vật của chúng tôi cần một chiếc điện thoại mới nhưng chỉ có $1.000—ChatGPT không vượt quá ngân sách.

ChatGPT đề xuất điện thoại thông minh dưới 1.000 đô la

Khi kiểm tra mức độ liên quan, hãy thử tạo các hướng dẫn dài. Các chatbot ít tinh vi hơn có xu hướng đi chệch hướng khi được cung cấp các hướng dẫn khó hiểu. Chẳng hạn, HuggingChat có thể sáng tác những câu chuyện hư cấu. Nhưng nó có thể đi chệch khỏi chủ đề chính nếu bạn đặt ra quá nhiều quy tắc và nguyên tắc.

HuggingChat bị bối rối bởi lời nhắc nhiều bước

5. Bộ nhớ theo ngữ cảnh

Bộ nhớ theo ngữ cảnh giúp AI tạo ra đầu ra chính xác, đáng tin cậy. Thay vì xem xét các câu hỏi của bạn theo mệnh giá, họ xâu chuỗi các chi tiết bạn đề cập lại với nhau. Lấy cuộc trò chuyện này làm ví dụ. Bing Chat kết nối hai tin nhắn riêng biệt để tạo thành một phản hồi ngắn gọn, hữu ích.

Trò chuyện Bing cung cấp cho các nhà văn những cuốn sách để nâng cao kỹ năng

Tương tự như vậy, bộ nhớ theo ngữ cảnh cho phép chatbot ghi nhớ các hướng dẫn. Hình ảnh này cho thấy ChatGPT bắt chước cách nói chuyện của một nhân vật hư cấu trong một số cuộc trò chuyện.

ChatGPT Trả lời các câu hỏi như Ash từ Pokemon

Hãy tự mình kiểm tra chức năng này bằng cách liên tục tham khảo các câu lệnh trước đó. Cung cấp cho chatbot nhiều thông tin khác nhau, sau đó buộc chúng nhớ lại những thông tin này trong các phản hồi sau này.

Bộ nhớ theo ngữ cảnh bị hạn chế. Bing Chat bắt đầu cuộc trò chuyện mới sau mỗi 20 lượt, trong khi ChatGPT không thể xử lý lời nhắc trên 3.000 mã thông báo.

6. Hạn chế bảo mật

AI không phải lúc nào cũng làm như dự định. Đào tạo sai có thể khiến các công nghệ máy học mắc nhiều lỗi khác nhau, từ các lỗi toán học nhỏ cho đến các nhận xét có vấn đề. Lấy Microsoft Tay làm ví dụ. Người dùng Twitter đã khai thác mô hình học tập không giám sát của nó và biến nó thành những lời nói tục tĩu về chủng tộc.

Rất may, các nhà lãnh đạo công nghệ toàn cầu đã học được từ sai lầm của Microsoft. Mặc dù tiết kiệm chi phí và thuận tiện, nhưng học tập không giám sát khiến các hệ thống AI dễ bị đánh lừa. Do đó, các nhà phát triển chủ yếu dựa vào học tập có giám sát ngày nay. Chatbot như ChatGPT vẫn học hỏi từ các cuộc hội thoại, nhưng người huấn luyện chúng sẽ lọc thông tin trước.

Mong đợi các hướng dẫn khác nhau từ các công ty AI. Các hạn chế ít cứng nhắc hơn của ChatGPT phù hợp với phạm vi tác vụ rộng hơn, nhưng lại yếu trong việc chống lại việc khai thác. Trong khi đó, Bing Chat tuân theo các giới hạn chặt chẽ hơn. Mặc dù chúng giúp chống lại các nỗ lực khai thác, nhưng chúng cũng cản trở chức năng. Bing tự động tắt các cuộc hội thoại có khả năng gây hại.

7. Xu hướng AI

AI vốn dĩ là trung tính. Nó thiếu sở thích và cảm xúc khiến nó không có khả năng hình thành quan điểm—nó chỉ trình bày thông tin mà nó biết. Đây là cách ChatGPT phản hồi các chủ đề chủ quan.

ChatGPT So sánh Iron Man và Captain America

Bất chấp tính trung lập này, những thành kiến về AI vẫn phát sinh. Chúng bắt nguồn từ các mẫu, bộ dữ liệu, thuật toán và mô hình mà các nhà phát triển sử dụng. AI có thể vô tư, nhưng con người thì không.

Chẳng hạn, Viện Brookings tuyên bố rằng ChatGPT thể hiện thành kiến chính trị cánh tả. Tất nhiên, OpenAI phủ nhận những cáo buộc này. Nhưng để tránh các vấn đề tương tự với các mô hình mới hơn, ChatGPT hoàn toàn tránh các kết quả đầu ra cố chấp.

Tương tự như vậy, Bing Chat tránh các vấn đề nhạy cảm, chủ quan.

Trò chuyện Bing không thể thảo luận về tôn giáo

Tự đánh giá những thành kiến của AI bằng cách đặt các câu hỏi mở, dựa trên quan điểm. Thảo luận về các chủ đề không có câu trả lời đúng hay sai—các chatbot kém tinh vi hơn có thể sẽ hiển thị các tùy chọn vô căn cứ đối với các nhóm cụ thể.

8. Tài liệu tham khảo

AI hiếm khi kiểm tra lại sự thật. Nó chỉ lấy thông tin từ bộ dữ liệu của nó và viết lại chúng thông qua các mô hình ngôn ngữ. Thật không may, đào tạo hạn chế gây ảo giác AI. Bạn vẫn có thể sử dụng các công cụ AI tổng quát để nghiên cứu, nhưng hãy đảm bảo rằng bạn tự mình xác minh sự thật. Lấy đầu ra bằng một hạt muối.

Bing Chat đơn giản hóa quy trình kiểm tra tính xác thực bằng cách liệt kê các tham chiếu của nó sau mỗi đầu ra.

Bing Chat trả lời câu hỏi về ngày ra mắt của ChatGPT

Bard AI không liệt kê các nguồn của nó nhưng tạo ra các giải thích chuyên sâu, được cập nhật bằng cách chạy các truy vấn tìm kiếm của Google. Bạn sẽ nhận được những điểm chính từ SERPs.

Bard giải thích về dữ liệu khởi chạy và cập nhật gần đây của ChatGPT

ChatGPT dễ bị thiếu chính xác. Việc giới hạn kiến thức năm 2021 của nó ngăn không cho nó trả lời các câu hỏi về các sự kiện và sự cố gần đây.

ChatGPT không thể trả lời câu hỏi kiến thức chung về sự kiện gần đây

Tạo các cách mới để kiểm tra độ chính xác của Chatbot

AI không phải là tất cả và cuối cùng của công nghệ. Mặc dù các hệ thống AI và mô hình ngôn ngữ phức tạp thực hiện những kỳ tích ấn tượng, nhưng chúng cũng mắc lỗi và không nhất quán. Xem chatbot với sự hoài nghi. Bạn chỉ có thể sử dụng các nền tảng do AI điều khiển nếu bạn hiểu các chức năng và hạn chế của chúng.

Mặc dù có hàng tá chatbot trên các nền tảng nhưng độ tin cậy và độ chính xác của chúng có thể khiến bạn thất vọng. Bạn sẽ chỉ lãng phí thời gian để thử nghiệm chúng. Để đảm bảo kết quả chất lượng, chúng tôi khuyên bạn nên tập trung vào ba mô hình mạnh mẽ nhất trên thị trường: ChatGPT, Bing AI và Google Bard.