Các tác nhân AI đang trở nên tinh vi hơn. Họ đang phát triển từ việc trả lời các câu hỏi đến việc tự động thực hiện các nhiệm vụ phức tạp gồm nhiều bước.
Nhưng trước khi có thể tin tưởng các đại lý này đặt chuyến đi hoặc tiến hành phân tích tài chính thay mặt cho người dùng, các nhà cung cấp mô hình và các công ty khởi nghiệp xây dựng các đại lý đó muốn đảm bảo rằng họ hoạt động đáng tin cậy trong nhiều tình huống khác nhau.
Các phòng thí nghiệm AI thường sử dụng điểm chuẩn để thể hiện năng lực của mô hình của họ, nhưng điểm cao, ngay cả trên điểm chuẩn hướng đến tác nhân, không thực sự chứng minh rằng AI có thể hoàn thành chính xác nhiều công việc phức tạp trong thế giới thực.
Patronus AI, một công ty khởi nghiệp được thành lập vào năm 2023 bởi cựu nhà nghiên cứu Meta AI Anand Kannappan và Rebecca Qian, đang giúp các nhà sản xuất mô hình và các công ty tinh chỉnh các mô hình để thực hiện điều đó bằng cách xây dựng môi trường kỹ thuật số mô phỏng để đánh giá hiệu suất của các tác nhân.
Công ty khởi nghiệp có trụ sở tại San Francisco này chắc chắn đang giải quyết một vấn đề quan trọng. Theo Glenn Solomon, giám đốc điều hành tại Notable Capital, hầu như mọi phòng thí nghiệm AI tiên tiến và nhiều công ty khởi nghiệp mới nổi đều là khách hàng, người mô tả nhu cầu về môi trường mô phỏng của công ty là gần như vô độ.
Doanh thu của Patronus đã tăng gấp 15 lần trong năm qua, thu hút sự quan tâm đáng kể của các nhà đầu tư. Vào thứ Năm, công ty đã công bố vòng Series B trị giá 50 triệu đô la do Greenfield Partners dẫn đầu, với sự tham gia của Notable Capital, Lightspeed, Datadog và Samsung. Vòng này nâng tổng số vốn tài trợ của công ty lên 70 triệu USD.
Patronus sử dụng cái mà họ gọi là “mô hình thế giới kỹ thuật số” để tạo bản sao của các trang web và hệ thống nội bộ. Trong những môi trường này, các tác nhân được kiểm tra mức độ căng thẳng sau khi đào tạo bằng cách sử dụng phương pháp học tăng cường, phương pháp này lặp đi lặp lại khen thưởng việc hoàn thành nhiệm vụ thành công và phạt các lỗi.
Các phòng thí nghiệm AI nhận thấy giá trị to lớn trong các mô phỏng kỹ thuật số này vì chúng mang lại cho các đặc vụ cơ hội thử các tình huống khác nhau, đôi khi không thể đoán trước. Công ty so sánh cách tiếp cận của mình với cách Waymo đào tạo ô tô tự hành bằng cách xây dựng thế giới tổng hợp đầu tiên để thử nghiệm phương tiện chống lại các mối nguy hiểm hiếm gặp, chẳng hạn như thời tiết khắc nghiệt hoặc một đứa trẻ chạy theo quả bóng.
Sự khác biệt với các tác nhân AI là chúng có xu hướng đi đường tắt, nghĩa là chúng không hoàn thành nhiệm vụ một cách chính xác. Solomon nói: “Patronus thực sự giỏi trong việc phát hiện các vụ hack và đảm bảo rằng họ buộc các mô hình phải chịu trách nhiệm.
Theo Kannappan, Patronus hiện đang cung cấp thế giới kỹ thuật số mô phỏng cho công nghệ phần mềm và tài chính, nhưng đây mới chỉ là bước khởi đầu.
Ông nói: “Ngày nay, chúng tôi rất tập trung vào những vấn đề có thể kiểm chứng được, vì vậy những vấn đề mà bạn có thể kiểm tra và xác minh ngay lập tức, nhưng còn rất nhiều lĩnh vực rất không thể xác minh được hoặc rất khó xác minh”.
Chỉ vì những quy trình này có thể kiểm chứng được không có nghĩa là chúng đơn giản. Kannappan cho biết: “Chúng tôi muốn có thể thực sự tạo ra một môi trường trong đó bạn có thể vận hành một đại lý có thể hoạt động trong 10 giờ, 10 ngày hoặc 10 tuần”.
Đối với các đối thủ, Patronus tin rằng nó chủ yếu cạnh tranh với các nhóm nội bộ mà phòng thí nghiệm AI đã xây dựng để đánh giá hành vi của tác nhân. Trong khi các công ty dữ liệu về con người như Mercor và Surge giúp các nhà sản xuất mô hình học tập tăng cường thì Patronus lại hoạt động khác bằng cách đánh giá cách các tác nhân hành xử mà không có sự tham gia của con người.
Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ. Điều này không ảnh hưởng đến tính độc lập biên tập của chúng tôi.