Cloudflare AI Platform: Lớp suy luận AI được thiết kế dành AI Agent

Cloudflare AI Platform

Sự phát triển nhanh chóng của AI agent và các mô hình AI đa phương thức đang đặt ra yêu cầu cao hơn về hiệu suất, độ ổn định và khả năng quản lý hạ tầng. Cloudflare AI Platform được xây dựng nhằm giải quyết những bài toán đó thông qua một nền tảng AI hợp nhất, hỗ trợ truy cập nhiều mô hình AI chỉ với một API duy nhất. Hãy cùng TOT tìm hiểu những cập nhật mới nhất của Cloudflare AI Platform và cách nền tảng này đang thay đổi quá trình xây dựng ứng dụng AI hiện đại.

>>> Xem thêm:

Cloudflare AI Platform hướng tới lớp suy luận AI hợp nhất

Các mô hình AI đang thay đổi với tốc độ rất nhanh. Mô hình phù hợp cho agentic coding hôm nay có thể sẽ bị thay thế bởi một lựa chọn khác từ nhà cung cấp khác chỉ sau vài tháng. Trong thực tế, nhiều ứng dụng AI còn cần kết hợp nhiều mô hình để vận hành hiệu quả.

Ví dụ, một AI agent hỗ trợ khách hàng có thể:

  • Sử dụng mô hình nhỏ, tốc độ cao để phân loại yêu cầu người dùng
  • Dùng mô hình reasoning lớn nhằm lập kế hoạch xử lý
  • Kết hợp mô hình lightweight để thực thi từng tác vụ cụ thể

Bối cảnh đó khiến doanh nghiệp cần khả năng truy cập linh hoạt vào nhiều mô hình AI mà không bị phụ thuộc vào một nhà cung cấp duy nhất. Đồng thời, hạ tầng AI cũng cần đáp ứng nhiều yêu cầu quan trọng như:

  • Theo dõi chi phí giữa nhiều nền tảng AI
  • Duy trì độ ổn định khi hệ thống upstream gặp sự cố
  • Tối ưu latency cho người dùng ở nhiều khu vực khác nhau

Những thách thức này xuất hiện trong hầu hết các ứng dụng AI hiện đại, đặc biệt rõ rệt khi xây dựng AI agent. Một chatbot thông thường có thể chỉ cần một lần gọi mô hình AI cho mỗi prompt của người dùng. Trong khi đó, AI agent thường phải thực hiện nhiều lần gọi mô hình liên tiếp để hoàn thành một tác vụ duy nhất.

Khi đó, một nhà cung cấp phản hồi chậm không chỉ làm tăng thêm vài mili giây latency mà còn có thể kéo dài toàn bộ quy trình xử lý. Một request thất bại cũng dễ tạo ra chuỗi lỗi downstream liên tiếp trong hệ thống.

Kể từ khi ra mắt AI Gateway và Workers AI, Cloudflare đã ghi nhận mức tăng trưởng mạnh mẽ từ cộng đồng phát triển ứng dụng AI trên nền tảng của mình. Song song với đó, Cloudflare liên tục cập nhật sản phẩm để đáp ứng nhu cầu triển khai AI ở quy mô lớn.

Trong vài tháng gần đây, nền tảng đã được bổ sung hàng loạt tính năng mới như:

  • Dashboard quản lý được nâng cấp
  • Default gateway không cần cấu hình
  • Cơ chế tự động retry khi upstream gặp lỗi
  • Hệ thống logging chi tiết hơn

Hiện tại, Cloudflare đang phát triển Cloudflare AI Platform thành một lớp suy luận AI hợp nhất, cho phép truy cập nhiều mô hình AI từ nhiều nhà cung cấp thông qua một API duy nhất với hiệu suất cao và độ ổn định tối ưu.

Cloudflare AI Platform kết nối nhiều mô hình AI để mở rộng cho AI agent
Cloudflare AI Platform giúp doanh nghiệp linh hoạt kết hợp nhiều mô hình AI để xây dựng AI agent hiệu quả và ổn định hơn. (Nguồn: TOT)

>>> Xem thêm:

Một danh mục mô hình và một điểm truy cập API thống nhất

Từ giờ, các nhà phát triển có thể gọi mô hình AI bên thứ ba thông qua cùng AI.run() binding vốn đang được sử dụng cho Workers AI. Nếu đang phát triển trên Workers, việc chuyển từ mô hình được Cloudflare lưu trữ sang các mô hình từ OpenAI, Anthropic hoặc nhà cung cấp khác chỉ cần thay đổi một dòng code.

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

Đối với các môi trường không sử dụng Workers, Cloudflare cũng sẽ bổ sung hỗ trợ REST API. Qua đó, toàn bộ danh mục mô hình có thể được truy cập từ bất kỳ nền tảng hay môi trường phát triển nào.

Cloudflare AI Platform hiện cung cấp hơn 70 mô hình từ hơn 12 nhà cung cấp khác nhau thông qua một API duy nhất. Nhà phát triển có thể:

  • Chuyển đổi mô hình chỉ với một dòng code
  • Quản lý thanh toán bằng cùng một hệ thống credit
  • Triển khai đa mô hình AI trên cùng một hạ tầng

Danh mục mô hình của Cloudflare AI Platform cho phép lựa chọn linh hoạt theo từng nhu cầu sử dụng, từ các mô hình mã nguồn mở được lưu trữ trên Workers AI đến các mô hình proprietary từ những nhà cung cấp AI lớn trên thị trường.

Cloudflare cũng đang mở rộng khả năng truy cập tới nhiều mô hình từ: Alibaba Cloud, AssemblyAI, ByteDance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu

Các mô hình này sẽ được cung cấp thông qua AI Gateway nhằm giúp nhà phát triển xây dựng ứng dụng AI đa phương thức dễ dàng hơn. Bên cạnh mô hình ngôn ngữ, Cloudflare AI Platform còn mở rộng hỗ trợ cho:

  • Mô hình tạo ảnh
  • Mô hình video AI
  • Mô hình speech và giọng nói AI

Nhờ đó, nhà phát triển có thể xây dựng các ứng dụng AI đa phương thức với khả năng xử lý văn bản, hình ảnh, video và âm thanh linh hoạt hơn.

>>> Xem thêm: 

Cloudflare AI Platform hiển thị danh sách nhiều mô hình AI
Cloudflare AI Gateway giúp truy cập nhiều mô hình AI qua một API duy nhất. (Nguồn: Cloudflare)

Cloudflare AI Gateway giúp truy cập nhiều mô hình AI qua một API duy nhất. (Nguồn: Cloudflare)

Cloudflare AI Platform hiển thị danh sách nhiều mô hình AI

Việc truy cập mọi mô hình AI thông qua một API duy nhất cũng giúp doanh nghiệp quản lý toàn bộ chi phí AI tập trung hơn. Hiện nay, phần lớn doanh nghiệp đang sử dụng trung bình khoảng 3,5 mô hình từ nhiều nhà cung cấp khác nhau. Vì vậy, rất khó để có được cái nhìn tổng thể về mức sử dụng và chi phí AI trên toàn hệ thống.

Với AI Gateway, Cloudflare AI Platform mang đến một trung tâm quản lý thống nhất để theo dõi và kiểm soát chi phí AI hiệu quả hơn. Bằng cách bổ sung custom metadata vào từng request, doanh nghiệp có thể phân tích chi phí theo các tiêu chí quan trọng như:

  • Chi phí từ người dùng miễn phí và người dùng trả phí
  • Mức sử dụng theo từng khách hàng
  • Chi phí theo từng workflow hoặc tính năng trong ứng dụng

Cách tiếp cận này giúp Cloudflare AI Platform hỗ trợ doanh nghiệp theo dõi ngân sách AI chi tiết hơn, đồng thời tối ưu hiệu quả vận hành khi triển khai nhiều mô hình AI trên cùng một hạ tầng.

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );
Biểu đồ phân tích chi phí và mức sử dụng AI trên Cloudflare AI Platform theo metadata tùy chỉnh
Cloudflare AI Platform hỗ trợ theo dõi và tối ưu chi phí AI theo từng nhóm người dùng. (Nguồn: Cloudflare)

Cloudflare AI Platform hỗ trợ theo dõi và tối ưu chi phí AI theo từng nhóm người dùng. (Nguồn: Cloudflare)

Biểu đồ phân tích chi phí và mức sử dụng AI trên Cloudflare AI Platform theo metadata tùy chỉnh.

>>> Xem thêm:

Mang mô hình AI riêng lên Cloudflare AI Platform

AI Gateway cho phép truy cập các mô hình AI từ nhiều nhà cung cấp thông qua một API duy nhất. Tuy nhiên, trong nhiều trường hợp, doanh nghiệp cần triển khai mô hình đã được fine-tune bằng dữ liệu riêng hoặc mô hình được tối ưu cho bài toán chuyên biệt.

Để đáp ứng nhu cầu đó, Cloudflare đang phát triển khả năng cho phép người dùng đưa mô hình AI riêng lên Workers AI.

Hiện tại, phần lớn lưu lượng AI trên nền tảng đến từ các dedicated instance dành cho khách hàng Enterprise đang vận hành mô hình tùy chỉnh trên hạ tầng Cloudflare. Cloudflare cũng đang mở rộng khả năng này tới nhiều nhóm khách hàng hơn trong thời gian tới.

Để thực hiện điều đó, nền tảng tận dụng công nghệ Cog từ Replicate nhằm hỗ trợ container hóa các mô hình machine learning dễ dàng hơn.

Cog được thiết kế với mục tiêu đơn giản hóa quá trình đóng gói mô hình AI. Nhà phát triển chỉ cần:

  • Khai báo dependency trong file cog.yaml
  • Viết inference code trong file Python

Cog sẽ xử lý các thành phần phức tạp liên quan đến triển khai machine learning như:

  • CUDA dependencies
  • Phiên bản Python
  • Tải model weight
  • Cấu hình môi trường runtime
Quy trình đưa mô hình AI riêng lên Cloudflare AI Platform
Cloudflare AI Platform cho phép triển khai và quản lý mô hình AI tùy chỉnh trên Workers AI một cách đơn giản hơn. (Nguồn: TOT)

Nhờ đó, Cloudflare AI Platform giúp việc triển khai mô hình AI tùy chỉnh trở nên nhanh hơn và dễ quản lý hơn trên hạ tầng Workers AI.

Ví dụ về file cog.yaml:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

Ví dụ về file predict.py, bao gồm:

  • Hàm thiết lập mô hình AI
  • Hàm xử lý khi hệ thống nhận một yêu cầu suy luận AI (prediction)
from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

Sau khi hoàn tất cấu hình, nhà phát triển có thể chạy lệnh cog build để tạo container image và đưa Cog container lên Workers AI. Cloudflare sẽ đảm nhiệm quá trình triển khai và vận hành mô hình, đồng thời cho phép truy cập thông qua các API quen thuộc của Workers AI.

Cloudflare hiện cũng đang phát triển nhiều tính năng mới nhằm mở rộng khả năng này tới nhiều khách hàng hơn, bao gồm:

  • API dành cho khách hàng
  • Các lệnh wrangler hỗ trợ triển khai container riêng
  • Công nghệ GPU snapshotting giúp tăng tốc cold start

Những tính năng này đang được thử nghiệm nội bộ cùng các nhóm phát triển tại Cloudflare và một số khách hàng bên ngoài nhằm hoàn thiện định hướng sản phẩm cho Cloudflare AI Platform.

Trong thời gian tới, bất kỳ nhà phát triển nào cũng có thể đóng gói mô hình AI riêng và triển khai trực tiếp thông qua Workers AI dễ dàng hơn.

>>> Xem thêm: 

Tối ưu tốc độ phản hồi đầu tiên cho AI agent

Việc sử dụng các mô hình trên Workers AI kết hợp cùng AI Gateway đặc biệt phù hợp khi xây dựng AI agent theo thời gian thực. Trong các hệ thống này, trải nghiệm người dùng thường phụ thuộc vào thời gian tạo token đầu tiên, tức là tốc độ AI bắt đầu phản hồi, thay vì tổng thời gian hoàn thành toàn bộ câu trả lời.

Ngay cả khi quá trình suy luận của  AI mất khoảng 3 giây, việc phản hồi token đầu tiên nhanh hơn 50 mili giây vẫn tạo ra khác biệt rõ rệt giữa một AI agent phản hồi mượt mà và một hệ thống có cảm giác chậm trễ.

Mạng lưới trung tâm dữ liệu của Cloudflare hiện có mặt tại hơn 330 thành phố trên toàn cầu. Nhờ đó, AI Gateway được đặt gần cả người dùng lẫn điểm xử lý suy luận AI, giúp giảm đáng kể thời gian truyền dữ liệu trước khi bắt đầu phản hồi theo luồng dữ liệu.

Workers AI hiện cũng lưu trữ nhiều mô hình mã nguồn mở trong danh mục mô hình AI công khai, bao gồm:

  • Các mô hình lớn được tối ưu cho AI agent
  • Kimi K2.5
  • Các mô hình AI giọng nói theo thời gian thực

Khi gọi các mô hình do Cloudflare lưu trữ thông qua AI Gateway, request không cần đi qua thêm các kết nối trung gian trên Internet công cộng. Toàn bộ code và quá trình suy luận AI đều vận hành trên cùng mạng lưới toàn cầu của Cloudflare.

Nhờ đó, Cloudflare AI Platform giúp AI agent đạt độ trễ thấp hơn và cải thiện đáng kể tốc độ phản hồi theo thời gian thực.

 Cloudflare AI Gateway tối ưu tốc độ phản hồi đầu tiên và giảm độ trễ cho AI agen
Cloudflare AI Gateway giúp AI agent giảm độ trễ và cải thiện tốc độ phản hồi đầu tiên cho người dùng. (Nguồn: TOT)

>>> Xem thêm:

Tăng độ ổn định với cơ chế chuyển đổi dự phòng tự động

Khi xây dựng AI agent, tốc độ không phải là yếu tố duy nhất ảnh hưởng đến trải nghiệm người dùng. Độ ổn định của hệ thống cũng đóng vai trò rất quan trọng. Trong quy trình hoạt động của AI agent, mỗi bước xử lý đều phụ thuộc vào kết quả từ bước trước đó. Vì vậy, một yêu cầu suy luận AI thất bại có thể ảnh hưởng tới toàn bộ chuỗi xử lý phía sau.

Thông qua AI Gateway, nếu một mô hình AI được cung cấp bởi nhiều nền tảng khác nhau và một nhà cung cấp gặp sự cố, Cloudflare AI Platform sẽ tự động chuyển request sang nhà cung cấp khác đang hoạt động. Nhà phát triển không cần tự xây dựng cơ chế chuyển đổi dự phòng cho hệ thống.

Đối với các AI agent chạy trong thời gian dài bằng Agents SDK, các phản hồi theo luồng dữ liệu cũng được thiết kế để duy trì ổn định ngay cả khi xảy ra gián đoạn kết nối. AI Gateway sẽ tạm lưu phản hồi trong lúc dữ liệu đang được tạo ra, độc lập với vòng đời hoạt động của AI agent.

Nếu AI agent bị ngắt giữa quá trình suy luận AI, hệ thống có thể kết nối lại với AI Gateway và tiếp tục nhận phản hồi mà không cần tạo yêu cầu suy luận mới hoặc trả thêm chi phí cho cùng một lượng token đầu ra.

Kết hợp cùng cơ chế checkpoint tích hợp sẵn trong Agents SDK, toàn bộ quá trình khôi phục diễn ra liền mạch và gần như không ảnh hưởng tới trải nghiệm của người dùng cuối.

Cơ chế dự phòng tự động giúp AI agent hoạt động ổn định
Cloudflare AI Gateway tự động chuyển đổi giữa các nhà cung cấp AI để duy trì hoạt động ổn định cho AI agent. (Nguồn: TOT)

>>> Xem thêm:

Replicate gia nhập hệ sinh thái Cloudflare AI Platform

Đội ngũ Replicate hiện đã chính thức gia nhập nhóm phát triển AI Platform của Cloudflare. Hai bên đang phối hợp chặt chẽ để tích hợp sâu hơn giữa Replicate và Cloudflare AI Platform.

Một trong những mục tiêu quan trọng là đưa toàn bộ mô hình AI trên Replicate lên AI Gateway, đồng thời chuyển hạ tầng lưu trữ mô hình sang hệ thống của Cloudflare.

Trong thời gian tới, nhà phát triển sẽ có thể:

  • Truy cập các mô hình AI phổ biến trên Replicate thông qua AI Gateway
  • Triển khai các mô hình từng được lưu trữ trên Replicate trực tiếp trên Workers AI
  • Quản lý mô hình AI tập trung hơn trên cùng một hạ tầng

Sự kết hợp này giúp Cloudflare AI Platform mở rộng hệ sinh thái mô hình AI, đồng thời mang lại khả năng triển khai linh hoạt hơn cho các ứng dụng AI hiện đại.

Kết luận

Cloudflare AI Platform đang từng bước xây dựng một hạ tầng AI hợp nhất, nơi nhà phát triển có thể truy cập nhiều mô hình AI thông qua một API duy nhất với hiệu suất cao, độ trễ thấp và khả năng mở rộng linh hoạt. Từ AI Gateway, Workers AI đến khả năng triển khai mô hình tùy chỉnh, nền tảng đang hướng tới việc đơn giản hóa quá trình xây dựng AI agent và ứng dụng AI đa phương thức ở quy mô lớn.

Với khả năng quản lý đa mô hình, tối ưu chi phí, tự động chuyển đổi dự phòng và mở rộng hệ sinh thái cùng Replicate, Cloudflare AI Platform đang trở thành lựa chọn đáng chú ý cho các doanh nghiệp và đội ngũ phát triển muốn triển khai AI hiện đại trên hạ tầng toàn cầu ổn định và đồng nhất.

Nguồn tham khảo: Cloudflare’s AI Platform: an inference layer designed for agents

TOT là đơn vị tiên phong trong hành trình chuyển đổi số. Chúng tôi mang đến giải pháp thiết kế website, mobile app, viết phần mềm theo yêu cầuphần mềm trí tuệ nhân tạo (AI) với dịch vụ linh hoạt, tối ưu theo đúng nhu cầu của doanh nghiệp. 

Lấy cảm hứng từ triết lý “Công nghệ vì con người”, TOT giúp doanh nghiệp vận hành hiệu quả hơn, nâng tầm trải nghiệm khách hàng và tạo dấu ấn bền vững cho thương hiệu.

Thông tin liên hệ TopOnTech (TOT):

🌐 Website TOT

📞 Hotline/WhatsApp/Zalo: 0906 712 137

✉️ Email: long.bui@toponseek.com

🏢 Địa chỉ: 31 Đường Hoàng Diệu, Phường Xóm Chiếu, TP. Hồ Chí Minh, Việt Nam

Liên hệ

Bạn đã sẵn sàng chưa?

Cùng TOT bắt đầu hành trình xây dựng dự án ngay hôm nay!

Gửi tin nhắn cho chúng tôi. Chúng tôi sẽ đề xuất giải pháp để nâng tầm doanh nghiệp của bạn.

Sự khác biệt:

Đặt lịch tư vấn miễn phí