Hóa đơn mã thông báo sắp đến hạn: Bên trong ngành đang cố gắng quản lý chi phí tăng vọt của AI

Trong toàn ngành, các công ty đang bắt đầu chùn bước trước mức giá của AI. Uber đã tiêu hết toàn bộ ngân sách mã hóa AI năm 2026 vào tháng 4. Microsoft đã thu hồi giấy phép Claude Code của các nhà phát triển vài tháng sau khi kích hoạt chúng. Một nhân viên của Priceline nói với TechCrunch rằng việc gia hạn hợp đồng Cursor định kỳ sẽ đắt hơn gấp 4-5 lần.

Mặc dù giá mỗi mã thông báo đã giảm nhưng việc thúc đẩy áp dụng AI nhiều hơn và các đại lý ngày càng tự chủ hơn đã thúc đẩy mức tiêu thụ mã thông báo ngày càng cao hơn. Các công ty đã nỗ lực đăng ký ăn thỏa sức vào đầu năm 2025 hiện đang cố gắng tìm hiểu xem tiền của họ sẽ đi đâu, cắt giảm chi tiêu và tìm hiểu xem liệu họ có thể cứu vãn một số ROI từ đống đổ nát của ngân sách hay không.

Trong khi đó, một thị trường đang hình thành để đáp ứng họ ở đó. Các công ty khởi nghiệp, nhà cung cấp đã có uy tín và cơ quan tiêu chuẩn mới đều đang chạy đua để cung cấp cho các công ty các công cụ và ngôn ngữ để theo dõi những gì họ chi tiêu.

“Sáu tháng trước, tôi có một cuộc trò chuyện với một khách hàng và tất cả chỉ là ‘Nó có thể làm được gì? Nó có đủ tốt không?'” Alexander Embricos, giám đốc doanh nghiệp của OpenAI, nói với TechCrunch tại một sự kiện ở thành phố New York tuần này. “Các cuộc trò chuyện của chúng tôi bây giờ không bao giờ xoay quanh vấn đề đó. Bây giờ các cuộc trò chuyện xoay quanh, ‘này, chúng tôi đang chi tiêu rất nhiều. Bạn có khả năng hiển thị như thế nào? Bạn có khả năng kiểm toán như thế nào? Bạn có những biện pháp kiểm soát mã thông báo nào? Hiệu quả của các mô hình của bạn là gì?'”

Trong bối cảnh đó, Quỹ Linux tuần này đã tiết lộ các kế hoạch cho Tokenomics Foundation, một cơ quan tiêu chuẩn mới nhằm mục đích áp dụng kỷ luật chi phí tương tự đối với các token AI mà FinOps đã thực hiện đối với chi tiêu trên đám mây.

JR Storment, giám đốc điều hành của FinOps Foundation, một dự án thuộc Linux Foundation, nói với TechCrunch: “Vào tháng 4 và tháng 5, tôi bắt đầu nghe các công ty nói: ‘Ôi chúa ơi, chúng tôi đã sử dụng gấp 3 lần toàn bộ ngân sách cho mã thông báo năm 2026 và mới chỉ là tháng 4′”. “Chúng tôi bắt đầu nghe thấy những cuộc khủng hoảng hiện sinh và toàn bộ cuộc trò chuyện chuyển từ tokenmaxxing và ‘đi nhanh’ sang ‘chúng tôi cần các lan can, làm cách nào để kiểm soát điều này?’”

Những tiếng kêu vang khắp thế giới công nghệ đã theo sau những yêu cầu nhiệt thành từ các CEO thúc đẩy nhóm của họ sử dụng những mô hình tốt nhất và di chuyển nhanh chóng, chi phí thì ở mức cao. Các mẫu mới được phát hành vào tháng 11 như Claude Opus 4.5 của Anthropic, GPT-5.1 của OpenAI và Gemini 3 Pro của Google đã mang lại những cải tiến đáng kể cho các công cụ tác nhân, giúp tăng mức tiêu thụ lên gấp bội. Đó là cách một công ty được cho là đã nhận được hóa đơn Claude trị giá 500 triệu USD sau khi quên đặt giới hạn sử dụng cho nhân viên.

Chris Reed, giám đốc cấp cao về tài chính CNTT tại Priceline, cho biết: “Nó giống như đại dịch cocaine,” đồng thời lưu ý rằng công ty đã bắt đầu đặt giới hạn mã thông báo cho một số nhóm nhất định. “Họ cho phép bạn thử nó để khiến bạn say mê và bây giờ bạn gần như say mê nó.”

Vitaly Gordon, Giám đốc điều hành của nền tảng hoạt động kỹ thuật Faros AI, cho biết gần đây ông đã nói chuyện với một CTO. Người này đã nói với ông rằng: “Một trong những kỹ sư của tôi đã chi 40.000 USD vào token vào tháng trước và tôi thực sự không biết liệu mình có nên ngăn anh ta lại hay tôi nên đi và khuyên mọi người khác hãy làm như anh ấy.”

Một cuộc khảo sát vào tháng 3 của Faros cho thấy trong số 20.000 nhà phát triển, sản lượng đang tăng lên, nhưng lỗi và lỗi viết lại cũng vậy. Jellyfish, một nền tảng quản lý kỹ thuật, cũng cho thấy những kỹ sư sử dụng nhiều mã thông báo nhất có năng suất cao gấp đôi so với những người sử dụng ít AI hơn, nhưng họ đã chi số lượng mã thông báo gấp 10 lần để đạt được điều đó.

Nicholas Arcolano, người đứng đầu bộ phận nghiên cứu tại Jellyfish, nói với TechCrunch qua email rằng chi tiêu cho AI đang bùng nổ phần lớn là do các tính năng tác nhân, với mức tiêu thụ của mỗi nhà phát triển tăng khoảng 18,6 lần trong 9 tháng. Nói chung, những số liệu thống kê này làm cho trường hợp năng suất trở nên mờ ám hơn mức chi tiêu cho thấy.

Arcolano cho biết: “Việc chi tiêu quá mức có mang lại hiệu quả hay không phụ thuộc vào giá trị kinh doanh cuối cùng của mã được vận chuyển (ví dụ: doanh thu), điều mà hầu hết các công ty vẫn không thể đo lường được”.

Ít nhất một số vấn đề đo lường đó là quy mô tuyệt đối mà AI đang được sử dụng ngày nay.

Storment cho biết: “Việc theo dõi chi phí trên đám mây là vấn đề về dữ liệu hàng trăm triệu hàng mỗi tháng”. “Chi phí mã thông báo theo dõi là một vấn đề về dữ liệu hàng nghìn tỷ hàng mỗi tháng. Bạn không thể chỉ dán dữ liệu đó vào bất kỳ bảng tính hoặc thậm chí công cụ cơ bản nào. Bạn phải suy nghĩ lại về cơ bản về công cụ, thông số kỹ thuật và hệ thống kế toán của mình để thực hiện điều đó.”

Tại Priceline, Reed đã nhận thấy sự khác biệt. Ông lưu ý các vấn đề giữa việc sử dụng được báo cáo của nhà cung cấp và dữ liệu nội bộ của Priceline.

“Tôi bắt đầu sự nghiệp của mình trong lĩnh vực quản lý chi phí viễn thông và tôi nhận thấy tất cả những điểm tương đồng, từ viễn thông, đám mây đến AI,” anh nói. “Bất cứ khi nào bạn giới thiệu điều gì đó mới, đó là lúc chín muồi để phát sinh các lỗi thanh toán cũng như các cơ hội kiểm tra và tối ưu hóa.”

Một thị trường đang bắt đầu hình thành xung quanh vấn đề này. Có những công ty thuần túy, như Pay-i, chuyên theo dõi, đo lường và tối ưu hóa chi phí cũng như hiệu suất của các khoản đầu tư GenAI. Trong khi đó, tính năng trả phí cho phép các nhà phát triển theo dõi chi phí, đo lường mức sử dụng và lập hóa đơn cho người dùng dựa trên giá trị thực tế thay vì phí đăng ký.

Sau đó, có những công ty như Jellyfish, Waydev và Faros AI, tất cả đều cung cấp dịch vụ giám sát tác nhân AI để chứng minh ROI của các công cụ dành cho nhà phát triển. Storment cho biết hầu hết trong số 180 nhà cung cấp trong FinOps Foundation đều đang hướng tới không gian này.

Các công ty có hệ thống phân phối hiện tại cũng đang bổ sung thêm các tính năng mới để tận dụng thị trường mới này. Ramp gần đây đã chuyển sang quản lý chi tiêu bằng AI; Datadog và New Relic đã giải quyết các dịch vụ như quản lý chi phí đám mây, khả năng quan sát cấp độ mã thông báo và giám sát GPU. Tại hội nghị FinOps X vào tuần tới, AWS dự kiến ​​sẽ giới thiệu các tính năng quản lý tài chính mới hướng tới chi tiêu AI của doanh nghiệp.

Tiffany Luck, một đối tác tại NEA, cho rằng hiệu quả và khả năng quan sát của mã thông báo có thể sẽ được thêm vào ở “lớp khai thác hoặc lớp ứng dụng”. Cô ấy chỉ vào Factory, một công ty khởi nghiệp sản xuất các tác nhân AI cho doanh nghiệp, tuần này đã tung ra bộ định tuyến mô hình tự động chọn mô hình phù hợp cho mọi tác vụ.

Gordon hy vọng các phòng thí nghiệm biên giới và các nhà cung cấp mô hình khác sẽ áp dụng tính năng tối ưu hóa kiểu OpenRouter để thúc đẩy các truy vấn đến các mô hình rẻ nhất – một xu hướng đã xuất hiện trên hóa đơn Claude doanh nghiệp.

Gordan nói: “Báo cáo tài chính về số tiền bạn chi cho Anthropic, ngay cả khi bạn gọi là mô hình Opus, một phần chi tiêu sẽ thuộc về Sonnet hoặc Haiku, bởi vì họ đủ thông minh để làm điều đó”. “Tôi nghĩ chuyện này sẽ ngày càng trở nên quan trọng hơn.”

Nhưng tất cả các công cụ này đang được xây dựng mà không có ngôn ngữ chung hoặc định nghĩa chung về giá của một mã thông báo, những gì nó tạo ra và cách so sánh chi tiêu giữa các nhà cung cấp. Đó là nơi Tokenomics Foundation hy vọng sẽ chứng tỏ được sự hữu ích.

Tổ chức đang xây dựng một định nghĩa và khuôn khổ chuẩn mực cho “tokenomics;” các tiêu chuẩn, thông số kỹ thuật và số liệu mở để sử dụng và thanh toán mã thông báo AI; cũng như các số liệu mới về kinh tế AI, như chi phí cho mỗi trí thông minh hoặc mã thông báo trên mỗi watt. Nó cũng có kế hoạch xác định các số liệu về hiệu quả của nhà máy mã thông báo và hiệu quả tiêu thụ. Nhóm đang lên kế hoạch ra mắt chính thức vào tháng 7 và chuẩn bị công bố thêm thành viên tại hội nghị FinOps X vào tuần tới.

Nishant Gupta, giám đốc khả dụng của Salesforce, cho biết trong một tuyên bố: “Kinh tế học mã thông báo về cơ bản trừu tượng và không rõ ràng hơn bất kỳ điều gì chúng tôi đã quản lý ở quy mô này trước đây”. “Nó đòi hỏi cơ chế hoạt động khác với cơ chế hoạt động mà ngành công nghiệp xây dựng cho đám mây.”

Điều đó cho thấy, Goldman Sachs dự kiến ​​mức sử dụng token toàn cầu sẽ tăng gấp 24 lần vào năm 2030. Các công ty vốn đã vượt quá ngân sách cần các giải pháp ngay bây giờ và sản phẩm đầu tiên của quỹ vẫn còn vài tháng nữa mới ra mắt.

Gordon nói: “Có thể chúng tôi đã tạo ra được động cơ hơi nước, nhưng chúng tôi vẫn chưa tìm ra được dây chuyền lắp ráp.

Theo Arcolano, bước đi thông minh là áp dụng rộng rãi và vừa phải.

Ông nói: “ROI tốt nhất đến từ việc chuyển mức sử dụng ở mức trung bình từ mức sử dụng thấp sang mức trung bình, chứ không phải đẩy người dùng nhiều lên cao hơn”.

Russell Brandom và Tim Fernholz đã đóng góp cho báo cáo này.

Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ. Điều này không ảnh hưởng đến tính độc lập biên tập của chúng tôi.

Bài viết liên quan

Chuyên Mục: Tin tức
Bài trước
Trước đợt IPO, Daniela Amodei của Anthropic gạt bỏ những nghi ngờ về lợi nhuận của AI
Bài sau
Khi các công ty khởi nghiệp về xe đạp điện tử do VC hậu thuẫn phá sản, Lectric đã khởi động đã phát triển