Các mô hình phát hiện đối tượng tốt nhất năm 2025

mô hình phát hiện đối tượng tốt nhất

Phát hiện đối tượng là nền tảng cho vô số ứng dụng thực tế, từ xe tự hành di chuyển trên đường phố cho tới các nhà máy thông minh giám sát dây chuyền sản xuất. Với tốc độ phát triển nhanh của kiến trúc transformer và cơ chế attention, bức tranh về các mô hình phát hiện đối tượng tốt nhất đã thay đổi đáng kể vào năm 2025.

Những mô hình mới như RF-DETR và YOLOv12 đang đẩy xa giới hạn của những gì có thể làm được, đạt độ chính xác chưa từng có trong khi vẫn duy trì được hiệu năng thời gian thực.

Trong hướng dẫn này, chúng ta sẽ cùng khám phá các mô hình phát hiện đối tượng tốt nhất hiện nay, từ RF-DETR đột phá của Roboflow đến các phiên bản YOLO mới nhất, và cách triển khai chúng hiệu quả trên nhiều nền tảng phần cứng khác nhau. 

>>> Xem thêm các bài viết khác:

Tiêu chí lựa chọn các mô hình phát hiện đối tượng tốt nhất

Dưới đây là các tiêu chí được sử dụng để lựa chọn những mô hình trong danh sách này.

1. Hiệu năng thời gian thực

Mô hình cần đạt tốc độ suy luận phù hợp cho các ứng dụng thời gian thực, thường xử lý ảnh ở mức từ 30 FPS trở lên trên các GPU tiêu chuẩn như NVIDIA T4 hoặc thiết bị biên.

Điều này đảm bảo mô hình có thể xử lý luồng video và các tác vụ phát hiện có tính thời gian mà không gây độ trễ đáng kể.

2. Độ chính xác trên các bộ benchmark chuẩn

Các mô hình phải thể hiện hiệu năng tốt trên những bộ benchmark tiêu chuẩn trong ngành, đặc biệt là bộ dữ liệu Microsoft COCO.

Chúng tôi ưu tiên các mô hình đạt ít nhất 45% mAP (mean Average Precision) tại IoU 0.50:0.95, thể hiện khả năng phát hiện tin cậy với nhiều kích thước và loại đối tượng khác nhau.

3. Hiệu quả mô hình và khả năng mở rộng

Kiến trúc mô hình cần cung cấp nhiều kích cỡ (nano, small, medium, large) để phù hợp với các ngân sách tính toán khác nhau.

Những mô hình hiệu quả là mô hình cân bằng tốt giữa số lượng tham số, FLOPs và độ chính xác, giúp chúng có thể triển khai từ thiết bị biên tới hạ tầng đám mây.

4. Khả năng thích ứng miền (domain adaptability)

Các mô hình tiền huấn luyện (pre-trained) mạnh, có khả năng chuyển giao tốt sang tập dữ liệu tùy chỉnh và các miền chuyên biệt là yếu tố quan trọng.

Chúng tôi ưu tiên các kiến trúc thể hiện hiệu năng vững vàng trên các benchmark thích ứng miền như RF100-VL, chứng minh chúng có thể khái quát hóa vượt ra ngoài dữ liệu huấn luyện ban đầu.

5. Được phát triển tích cực và hỗ trợ triển khai tốt

Ưu tiên những mô hình có cộng đồng mạnh, được cập nhật thường xuyên và có bộ công cụ triển khai ở mức sẵn sàng sản xuất.

Khả năng tích hợp với các framework như Roboflow Inference, Ultralytics hoặc PyTorch native giúp đội ngũ kỹ sư dễ dàng chuyển từ giai đoạn thử nghiệm sang sản xuất.

Để khám phá thêm các mô hình hàng đầu trên nhiều tác vụ thị giác máy tính, bạn có thể tham khảo Vision AI Leaderboard.

Các mô hình phát hiện đối tượng tốt nhất

Dưới đây là danh sách những mô hình phát hiện đối tượng tốt nhất năm 2025.

1. RF-DETR

mô hình RF-DETR
RF-DETR là mô hình realtime đầu tiên đạt trên 60 mAP trên COCO và có hiệu năng tương đương các mô hình transformer khác ở kích thước nhỏ. (Nguồn: Internet)

>>> Xem thêm:

RF-DETR là một kiến trúc mô hình phát hiện đối tượng thời gian thực dựa trên transformer, được phát triển bởi Roboflow và phát hành dưới giấy phép Apache 2.0 vào tháng 3 năm 2025.

RF-DETR đánh dấu một cột mốc quan trọng khi trở thành mô hình thời gian thực đầu tiên vượt mốc 60 mAP trên benchmark thích ứng miền RF100-VL, đồng thời đạt hiệu năng state-of-the-art trên nhiều tập dữ liệu thực tế đa dạng. 

RF-DETR mô hình phát hiện đối tượng thời gian thực
RF-DETR là một kiến trúc mô hình phát hiện đối tượng thời gian thực. (Nguồn: Internet)

Điểm khiến RF-DETR đặc biệt ấn tượng là việc sử dụng backbone thị giác DINOv2, mang lại khả năng transfer learning (học chuyển tiếp) xuất sắc. Mô hình được thiết kế ngay từ đầu để thích ứng tốt trên nhiều miền dữ liệu và kích thước tập dữ liệu, khiến nó phù hợp cho cả phát hiện tổng quát lẫn các ứng dụng chuyên biệt.

Sơ đồ kiến trúc RF-DETR minh họa chi tiết các thành phần:

  • Backbone DINOv2
  • Transformer encoder với deformable attention
  • Decoder với đầu ra phát hiện dựa trên query

Sơ đồ cho thấy RF-DETR loại bỏ NMS (Non-Maximum Suppression) và anchor box nhờ kiến trúc transformer end-to-end. Luồng xử lý đi từ: ảnh đầu vào → trích xuất đặc trưng tại backbone → xử lý tại encoder → dự đoán tại decoder → kết quả phát hiện cuối cùng.

RF-DETR có nhiều biến thể để phù hợp với các kịch bản triển khai khác nhau. Các phiên bản Nano, Small và Medium cung cấp tỷ lệ độ chính xác–tốc độ rất tốt, trong khi bản xem trước segmentation mở rộng khả năng sang bài toán instance segmentation.

Với RF-DETR-M đạt 54,7% mAP chỉ với 4,52 ms độ trễ trên GPU T4, mô hình vượt trội so với các biến thể YOLO tương đương trong khi vẫn giữ được tốc độ thời gian thực.

>>> Xem thêm: Xây Dựng Mô Hình Ngôn Ngữ Thị Giác với Next.js & Roboflow

So sánh hiệu năng mAP của RF-DETR, YOLOv11, YOLOv8 và các mô hình khác
Biểu đồ ở trang 4 cho thấy hiệu năng mAP của RF-DETR, YOLOv11, YOLOv8 và các mô hình phát hiện thời gian thực khác. (Nguồn: Internet)

Biểu đồ trên trang 4 so sánh RF-DETR với YOLOv11, YOLOv8 và các detector thời gian thực khác về mAP trên COCO so với độ trễ. Các biến thể RF-DETR (N/S/M) nằm trên đường biên Pareto, thể hiện sự vượt trội về trade-off giữa độ chính xác và tốc độ.

Đặc biệt:

  • RF-DETR-M đạt mAP cao hơn với chỉ một mức tăng nhỏ về độ trễ, cho thấy hiệu quả cao trong việc cân bằng giữa độ chính xác và khả năng hoạt động thời gian thực.
  • Trên RF100-VL, mô hình đạt 60,6% mAP, thể hiện khả năng thích ứng miền và độ bền vững vượt trội trên nhiều môi trường thị giác khác nhau, vượt qua nhiều detector dựa trên CNN và transformer truyền thống cả về độ chính xác lẫn khả năng khái quát hóa. 

Kiến trúc transformer của mô hình loại bỏ các thành phần phát hiện truyền thống như anchor box và Non-Maximum Suppression (NMS), cho phép phát hiện đối tượng thực sự end-to-end.

Lựa chọn kiến trúc này không chỉ đơn giản hóa pipeline phát hiện mà còn cải thiện tính nhất quán và giảm chi phí hậu xử lý.

RF-DETR đủ nhỏ để chạy trên thiết bị biên thông qua Roboflow Inference, khiến nó trở thành lựa chọn lý tưởng cho các bài toán cần vừa độ chính xác cao vừa tốc độ thời gian thực mà không phụ thuộc vào hạ tầng đám mây.

2. YOLOv12

YOLOv12, phát hành tháng 2 năm 2025, đánh dấu một bước chuyển quan trọng trong dòng YOLO khi đưa vào kiến trúc tập trung vào attention. Thay vì chỉ dựa trên các phép tích chập (convolution), YOLOv12 tích hợp các cơ chế attention hiệu quả để nắm bắt ngữ cảnh toàn cục trong khi vẫn giữ được tốc độ thời gian thực vốn là thế mạnh của YOLO. 

Mô hình giới thiệu một số thành phần mang tính đột phá, bao gồm:

  • Area Attention Module (A²): Tối ưu attention bằng cách chia feature map thành các vùng cụ thể để tăng hiệu quả tính toán.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): Cải thiện độ ổn định trong huấn luyện thông qua các kết nối residual ở cấp độ block.
  • Tích hợp FlashAttention giúp giảm nghẽn bộ nhớ, nâng cao hiệu quả suy luận trên toàn mô hình.

>>> Xem thêm: TOP 20 công cụ Chat AI tiếng Việt miễn phí thông minh phổ biến

So sánh kiến trúc của các mô hình
So sánh kiến trúc của các mô hình phát hiện đối tượng phổ biến. (Nguồn: Internet)

Sơ đồ kiến trúc YOLOv12 được mô tả ở phần “The diagram above can be found here” trong tài liệu gốc, cho thấy cách các block attention và R-ELAN được tổ chức trong backbone và head.

Sơ đồ kiến trúc YOLOv12
Sơ đồ kiến trúc YOLOv12. (Nguồn: Internet)

Hiệu năng YOLOv12 trên benchmark:

  • YOLOv12-N: 40,6% mAP với độ trễ 1,64 ms
    • +2,1% so với YOLOv10-N
    • +1,2% so với YOLO11-N
  • YOLOv12-M: 52,5% mAP với độ trễ 4,86 ms
    • +1,0% so với YOLO11-M
  • YOLOv12-X: 55,2% mAP với 11,79 ms độ trễ – biến thể có độ chính xác cao nhất trong họ YOLO. 

Trước khi đi sâu vào những đổi mới của YOLOv12, cũng cần nhắc tới đóng góp của các phiên bản tiền nhiệm:

  • YOLO11 (tháng 10/2024) tinh chỉnh thiết kế kiến trúc với ít hơn 22% tham số so với YOLOv8m nhưng lại đạt mAP cao hơn nhờ trích xuất đặc trưng tốt hơn và tối ưu pipeline huấn luyện.
  • YOLOv10 (tháng 5/2024) tiên phong trong huấn luyện không dùng NMS thông qua cơ chế gán nhãn kép nhất quán (consistent dual assignments), giảm đáng kể độ trễ suy luận.
  • YOLOv9 (tháng 2/2024) giới thiệu Programmable Gradient Information (PGI) và kiến trúc GELAN để giải quyết vấn đề mất thông tin trong các mạng sâu, cải thiện cả độ chính xác và hiệu quả.
  • YOLOv8 (tháng 1/2023) thiết lập hướng tiếp cận anchor-free với backbone CSPNet nâng cấp, trở thành một trong những framework được sử dụng rộng rãi nhất với hỗ trợ nhiều tác vụ. 

>>> Xem thêm: TOP 25 công cụ AI miễn phí, phổ biến, tốt nhất hiện nay

các phiên bản YOLO từ YOLOv1 đến YOLOv12
Dòng thời gian phát triển các phiên bản YOLO từ YOLOv1 đến YOLOv12. (Nguồn: Internet)

Đổi lại cho các cải tiến về độ chính xác, các mô hình YOLOv12 vận hành chậm hơn một chút so với các phiên bản ngay trước đó:

  • YOLOv12-N chậm hơn 9% so với YOLOv10-N.
  • YOLOv12-M chậm hơn 3% so với YOLO11-M.

Tuy nhiên, lợi ích về độ chính xác khiến trade-off này trở nên xứng đáng cho các ứng dụng mà chất lượng phát hiện là ưu tiên hàng đầu.

YOLOv12 được hỗ trợ bởi gói Ultralytics Python, giúp cả người mới lẫn chuyên gia có thể huấn luyện, suy luận và triển khai chỉ với vài dòng code.

3. YOLO-NAS

Biểu đồ thể hiện hiệu suất và độ trễ của YOLO và YOLO-NAS
Biểu đồ thể hiện hiệu suất và độ trễ của các mô hình phát hiện đối tượng YOLO và YOLO-NAS trên COCO khi đo trên NVIDIA T4. (Nguồn: Internet)

YOLO-NAS, được phát triển bởi Deci AI và phát hành tháng 5/2023, đại diện cho một bước đột phá trong phát hiện đối tượng thông qua việc áp dụng công nghệ Neural Architecture Search (NAS). Thay vì thiết kế kiến trúc thủ công, YOLO-NAS được “tìm ra” bởi động cơ AutoNAC (Automated Neural Architecture Construction) của Deci, vốn đã khám phá không gian tìm kiếm lên tới 10^14 kiến trúc tiềm năng trong vòng 3.800 giờ GPU. 

Điểm đổi mới then chốt của YOLO-NAS là kiến trúc “thân thiện với lượng tử hóa” (quantization-friendly). Trong khi hầu hết các mô hình bị giảm độ chính xác đáng kể khi được lượng tử hóa xuống INT8 để tăng tốc suy luận, YOLO-NAS được thiết kế từ đầu với tiêu chí lượng tử hóa:

  • Các block nhận thức lượng tử (quantization-aware blocks) giảm thiểu mất mát độ chính xác khi chuyển sang INT8.
  • Nhờ đó, mô hình giữ vững hiệu năng trong khi tăng hiệu quả suy luận.

YOLO-NAS khắc phục nhiều hạn chế của các phiên bản YOLO trước thông qua các chiến lược huấn luyện tinh vi, bao gồm:

  • Pre-train trên bộ Objects365 (365 lớp, 2 triệu ảnh)
  • Tận dụng COCO được gán nhãn giả (pseudo-labeled)
  • Áp dụng knowledge distillation với Distribution Focal Loss (DFL)

Nhờ đó, mô hình xử lý tốt bài toán mất cân bằng lớp (class imbalance) và cải thiện độ chính xác với các lớp xuất hiện ít.

Các chỉ số hiệu năng YOLO-NAS được thể hiện trong đồ thị trên trang 7, mô tả đường biên hiệu quả (efficient frontier) trên COCO đo trên NVIDIA T4, cho thấy các biến thể YOLO-NAS chiếm ưu thế trong vùng trade-off giữa tốc độ và độ chính xác.

Cải thiện so với tiền nhiệm rất đáng kể:

  • YOLO-NAS cải thiện 20,5% so với YOLOv7.
  • Cải thiện 11% so với YOLOv5.
  • Và cao hơn 1,75% so với YOLOv8.

Những nâng cấp này khiến YOLO-NAS đặc biệt hấp dẫn cho các triển khai sản xuất cần cả tốc độ và độ chính xác. 

Bảng so sánh mAP và độ trễ của  các phiên bản YOLO-NAS
Bảng so sánh mAP và độ trễ của các phiên bản YOLO-NAS trên bộ dữ liệu COCO 2017, đo trên NVIDIA T4. (Nguồn: Internet)

Mô hình được pre-train trên COCO, Objects365 và Roboflow 100, giúp nó phù hợp cho các tác vụ phát hiện đối tượng downstream và transfer learning sang các miền tùy chỉnh.

YOLO-NAS có sẵn thông qua thư viện SuperGradients của Deci, bao gồm các kỹ thuật huấn luyện nâng cao như:

  • Distributed Data Parallel
  • Exponential Moving Average
  • Automatic Mixed Precision
  • Quantization Aware Training

Lưu ý quan trọng: Deci đã được NVIDIA mua lại và các mô hình này không còn được đội ngũ gốc duy trì tích cực, dù Ultralytics vẫn tiếp tục hỗ trợ việc sử dụng. Mô hình sử dụng giấy phép Apache 2.0, tuy nhiên trọng số pre-trained có một số điều kiện giấy phép đặc thù.

4. RTMDet

RTMDet, được phát triển bởi OpenMMLab, là một detector thời gian thực hiệu quả, đạt 52,8% AP trên COCO với hơn 300 FPS trên GPU NVIDIA 3090. Điều này khiến RTMDet trở thành một trong những mô hình phát hiện đối tượng nhanh và chính xác nhất hiện có, thiết lập tiêu chuẩn mới cho các bài toán cần throughput cao. 

RTMDet so sánh với các mô hình phát hiện đối tượng
RTMDet so sánh với các mô hình phát hiện đối tượng thời gian thực khác. (Nguồn: Internet)

Tốc độ của mô hình đến từ một số đổi mới kiến trúc:

  • Backbone nhẹ, tối ưu cho xử lý song song
  • Cơ chế gán nhãn động (dynamic label assignment) giúp tăng hiệu quả huấn luyện
  • Chia sẻ các lớp convolution nhằm giảm chi phí tính toán
  • Pipeline suy luận tối ưu, khai thác tối đa khả năng song song của GPU

Biểu đồ trên trang 9 cho thấy RTMDet nằm trên đường biên hiệu quả khi so sánh AP với số FLOPs và tốc độ.

RTMDet có các biến thể trải dài theo trục độ chính xác–tốc độ:

  • RTMDet-Tiny: 40,5% AP với hơn 1020 FPS – biến thể nhanh nhất cho các bài toán yêu cầu tốc độ cực cao
  • RTMDet-Small: 44,6% AP ở 819 FPS – lựa chọn cân bằng cho đa số ứng dụng
  • RTMDet-Medium: 48,8% AP – độ chính xác cao hơn trong khi vẫn duy trì tốc độ rất tốt
  • RTMDet-Large: 51,2% AP – độ chính xác tối đa ở mức 300+ FPS
  • RTMDet-Extra-Large: 52,8% AP – hiệu năng đỉnh cho các kịch bản đòi hỏi cao

Ngay cả các biến thể lớn vẫn duy trì tốc độ trên 200 FPS, khiến RTMDet phù hợp với các bài toán xử lý video throughput cao mà nhiều mô hình khác bị nghẽn. 

RTMDet phù hợp với các bài toán xử lý video throughput cao
RTMDet phù hợp với các bài toán xử lý video throughput cao mà nhiều mô hình khác bị nghẽn. (Nguồn: Internet)

RTMDet đặc biệt phù hợp với các ứng dụng yêu cầu throughput tối đa, như:

  • Xử lý video tốc độ cao, phân tích hàng trăm khung hình mỗi giây
  • Theo dõi thời gian thực các đối tượng di chuyển nhanh trong thể thao hoặc giám sát
  • Kiểm tra chất lượng trong sản xuất, soi kiểm sản phẩm trên dây chuyền ở tốc độ đường truyền
  • Robot tự hành cần độ trễ phát hiện ở mức dưới mili-giây
  • Các kịch bản batch inference, nơi mức sử dụng GPU tác động trực tiếp tới chi phí

RTMDet được đóng gói trong MMDetection, giúp triển khai đơn giản, và giấy phép MIT cho phép sử dụng thương mại không bị hạn chế.

RTMDet xử lý video tốc độ cao
RTMDet xử lý video tốc độ cao, phân tích hàng trăm khung hình mỗi giây. (Nguồn: Internet)

Các mô hình phát hiện đối tượng không cần dữ liệu huấn luyện tốt nhất

5. YOLO-World

YOLO-World đại diện cho một bước chuyển căn bản trong phát hiện đối tượng khi đưa khả năng zero-shot, open-vocabulary vào kiến trúc YOLO. Được phát hành bởi Tencent AI Lab vào tháng 1/2024, YOLO-World giải quyết một hạn chế quan trọng: cần phải huấn luyện lại mô hình mỗi khi bổ sung lớp đối tượng mới. 

Khác với các detector truyền thống bị giới hạn ở các lớp được định nghĩa sẵn (như 80 lớp của COCO), YOLO-World có thể phát hiện đối tượng chỉ bằng cách cung cấp mô tả văn bản. Điều này đạt được thông qua quá trình tiền huấn luyện thị giác–ngôn ngữ, căn chỉnh biểu diễn hình ảnh và văn bản, cho phép mô hình hiểu và phát hiện cả những đối tượng chưa từng gặp trong huấn luyện.

YOLO-World mô hình phát hiện đối tượng
YOLO-World có thể phát hiện đối tượng chỉ bằng cách cung cấp mô tả văn bản. (Nguồn: Internet)

Sơ đồ kiến trúc YOLO-World (trang 12) mô tả tích hợp thị giác–ngôn ngữ với các thành phần:

  • Backbone YOLOv8
  • RepVL-PAN (Re-parameterizable Vision-Language Path Aggregation Network)
  • Cơ chế học tương phản vùng–văn bản (region-text contrastive learning)

Sơ đồ cho thấy cách embedding văn bản và đặc trưng ảnh được trộn (fuse) thông qua các cơ chế attention đa mô-đun.

Điểm ấn tượng của YOLO-World là mô hình giữ được lợi thế tốc độ của kiến trúc CNN YOLO, đồng thời đạt khả năng zero-shot vốn trước đây chỉ xuất hiện ở các mô hình transformer chậm hơn như GroundingDINO.

Trên bộ dữ liệu LVIS đầy thách thức, YOLO-World đạt 35,4 AP ở 52,0 FPS trên V100 – nhanh hơn khoảng 20 lần so với các detector zero-shot cạnh tranh và nhỏ hơn 5 lần về kích thước. 

Hiệu năng YOLO-World:

  • Zero-shot LVIS: 35,4% AP ở 52,0 FPS
  • Sau fine-tune: đạt hiệu năng nổi bật trên nhiều tác vụ phát hiện và segmentation downstream
  • Khả năng thời gian thực: phù hợp cho xử lý video và triển khai trên thiết bị biên
Mô hình YOLOv8
Mô hình YOLOv8. (Nguồn: Internet)

Mô hình xây dựng trên backbone YOLOv8, kết hợp RepVL-PAN và hàm loss tương phản vùng–văn bản để mô hình hóa thị giác–ngôn ngữ hiệu quả. Nhờ đó, YOLO-World xử lý cả đặc trưng ảnh và prompt văn bản một cách hiệu quả.

YOLO-World có sẵn qua Roboflow Inference, giúp triển khai khả năng phát hiện zero-shot mà không cần chi phí tính toán khổng lồ của các mô hình thị giác–ngôn ngữ cỡ lớn.

6. GroundingDINO

GroundingDINO là một mô hình phát hiện đối tượng zero-shot state-of-the-art được phát triển bởi IDEA Research, kết hợp sức mạnh của detection dựa trên transformer với khả năng hiểu ngôn ngữ được “grounded” (gắn với hình ảnh). Được phát hành vào tháng 3/2023 và nâng cấp lên bản 1.5 năm 2024, GroundingDINO xuất sắc trong việc phát hiện đối tượng thông qua mô tả ngôn ngữ tự nhiên mà không cần huấn luyện riêng cho từng tác vụ. 

Mô hình đạt hiệu năng zero-shot ấn tượng:

  • 52,5% AP trên COCO mà không sử dụng dữ liệu COCO trong huấn luyện
  • Sau khi fine-tune, đạt 63,0% AP trên COCO
  • Trên benchmark zero-shot ODinW đầy thách thức, mô hình lập kỷ lục với 26,1% AP, thể hiện khả năng khái quát hóa trên nhiều miền khác nhau
GroundingDINO là một mô hình phát hiện đối tượng
GroundingDINO là một mô hình phát hiện đối tượng phát triển bởi IDEA Research. (Nguồn: Internet)

Điểm khác biệt của GroundingDINO nằm ở khả năng kép:

  • Ngoài phát hiện đối tượng truyền thống, mô hình còn hỗ trợ Referring Expression Comprehension (REC) – xác định và định vị các đối tượng cụ thể dựa trên mô tả ngôn ngữ phức tạp.
  • Ví dụ, thay vì phát hiện tất cả ghế và người rồi viết logic để tìm “ghế đang có người ngồi”, bạn chỉ cần prompt: “chair with person sitting”, mô hình sẽ trực tiếp phát hiện đúng các trường hợp đó.

GroundingDINO 1.5 giới thiệu hai biến thể tối ưu cho các kịch bản khác nhau:

  • GroundingDINO 1.5 Pro: 54,3% AP trên COCO zero-shot, 55,7% AP trên LVIS-minival – thiết lập các mốc mới về độ chính xác
  • GroundingDINO 1.5 Edge: 36,2% AP trên LVIS-minival ở 75,2 FPS với TensorRT – tối ưu cho thiết bị biên

Kiến trúc của mô hình loại bỏ các thành phần thiết kế thủ công như Non-Maximum Suppression (NMS), đơn giản hóa pipeline phát hiện đồng thời tăng hiệu quả.

Thiết kế dựa trên transformer với Vision Transformer (ViT) cho phép GroundingDINO trộn (fuse) thông tin thị giác và ngôn ngữ hiệu quả, khiến nó cực kỳ linh hoạt cho nhiều tác vụ thực tế. 

GroundingDINO có sẵn thông qua Roboflow Inference với hỗ trợ triển khai trên CPU và GPU, bao gồm cả Raspberry Pi và NVIDIA Jetson.

Mô hình phát hiện đối tượng nào dễ dùng nhất?

RF-DETR là một mô hình phát hiện đối tượng dựa trên transformer mang tính đột phá, kết hợp tốc độ thời gian thực với độ chính xác state-of-the-art. Việc sử dụng backbone DINOv2 tiền huấn luyện mạnh giúp RF-DETR khái quát hóa tốt trên nhiều miền thị giác khác nhau, từ xe tự hành đến kiểm tra công nghiệp.

Khác với các mô hình truyền thống, RF-DETR loại bỏ anchor box và Non-Maximum Suppression, đơn giản hóa quá trình phát hiện và giảm độ trễ. 

Kết quả benchmark cho thấy RF-DETR-Medium đạt 54,7% mAP trên COCO với chỉ 4,52 ms độ trễ trên NVIDIA T4, vượt trội so với các biến thể YOLO tương đương. Trên benchmark thích ứng miền RF100-VL, mô hình đạt 60,6% mAP, chứng minh tính bền vững trong nhiều môi trường khác nhau.

So sánh:

  • YOLOv12: đưa vào các cơ chế attention hiệu quả, mang lại độ trễ thấp hơn một chút trên các mô hình nhỏ nhưng độ chính xác thấp hơn so với RF-DETR ở cùng phân khúc.
  • YOLO-World và GroundingDINO: mang lại khả năng zero-shot linh hoạt mà không cần huấn luyện lại, nhưng hiện vẫn kém RF-DETR về thuần hiệu năng phát hiện (raw performance) trong các bài toán closed-set.
  • YOLO-NAS: tối ưu tốt cho lượng tử hóa và tốc độ, rất phù hợp cho thiết bị biên, nhưng vẫn chưa vượt qua trade-off độ chính xác–tốc độ tổng thể của RF-DETR. 

Từ góc độ “dễ dùng” và hiệu quả tổng thể, RF-DETR là ứng viên hàng đầu trong nhóm mô hình phát hiện đối tượng tốt nhất cho triển khai sản xuất hiện nay.

Chạy RF-DETR với Roboflow Inference

Sau khi đã điểm qua danh sách các mô hình, hãy xem cách triển khai mô hình state-of-the-art hiện tại là RF-DETR bằng Roboflow Inference.

Roboflow cung cấp nhiều tùy chọn triển khai: bạn có thể sử dụng Roboflow Workflows để xây dựng pipeline thị giác hoàn chỉnh trên cloud, hoặc tự host engine suy luận cục bộ để có toàn quyền kiểm soát.

Trong ví dụ này, chúng ta sẽ chạy RF-DETR cho tác vụ phát hiện đối tượng bằng gói Inference.

Bước 1: Cài đặt Roboflow Inference

Cài đặt Inference cùng các phụ thuộc cần thiết:

pip install inference

Bước 2: Import các thư viện phụ thuộc

import supervision as sv

from inference import get_model

from PIL import Image

from io import BytesIO

import requests

Bước 3: Tải ảnh đầu vào

Trong ví dụ này, chúng ta sử dụng một ảnh mẫu:

url = “https://media.roboflow.com/dog.jpeg”

image = Image.open(BytesIO(requests.get(url).content))

Bước 4: Khởi tạo mô hình

Tải mô hình RF-DETR và chạy suy luận:

model = get_model(“rfdetr-medium”)

predictions = model.infer(image, confidence=0.5)

Bước 5: Trực quan hóa kết quả

Sử dụng thư viện Supervision để vẽ bounding box và nhãn:

detections = sv.Detections.from_inference(predictions)

labels = [prediction.class_name for prediction in predictions.predictions]

annotated_image = image.copy()

annotated_image = sv.BoxAnnotator(color=sv.ColorPalette.ROBOFLOW).annotate(annotated_image, detections)

annotated_image = sv.LabelAnnotator(color=sv.ColorPalette.ROBOFLOW).annotate(annotated_image, detections, labels=labels)

Pipeline đơn giản này tận dụng các mô hình quản lý sẵn của Roboflow Inference để mang lại phát hiện đối tượng nhanh và chính xác mà không cần thiết lập phức tạp tại máy cục bộ.

Dù chạy trên thiết bị NVIDIA Jetson hay GPU cloud, RF-DETR vẫn duy trì độ chính xác cao với độ trễ thấp. 

Các mô hình phát hiện đối tượng tốt nhất

Bức tranh phát hiện đối tượng năm 2025 rất đa dạng, với các mô hình tối ưu cho những nhu cầu khác nhau:

  • Mô hình dựa trên transformer như RF-DETR:
    • Mang lại độ chính xác state-of-the-art và tốc độ thời gian thực.
    • Dựa trên backbone DINOv2 mạnh mẽ, loại bỏ anchor và NMS, đạt 54,7% mAP với độ trễ dưới 5 ms trên COCO và 60,6% mAP trên RF100-VL, thể hiện khả năng thích ứng miền xuất sắc.
  • Mô hình chú trọng attention như YOLOv12:
    • Giới thiệu area attention hiệu quả và mạng R-ELAN, đẩy hiệu năng của single-stage detector với các trade-off tốc độ–độ chính xác hơi khác biệt.
  • Các mô hình zero-shot như YOLO-World và GroundingDINO:
    • Loại bỏ nhu cầu về tập dữ liệu gán nhãn lớn, cho phép phát hiện linh hoạt theo prompt văn bản.
  • Mô hình dựa trên NAS như YOLO-NAS:
    • Cân bằng tốt giữa lượng tử hóa và độ chính xác cho triển khai trên thiết bị biên. 

So với các đối thủ, RF-DETR liên tục thể hiện ưu thế trong xử lý che khuất (occlusion), cảnh phức tạp và các thay đổi miền, khiến nó trở thành lựa chọn lý tưởng cho các ứng dụng đòi hỏi độ chính xác cao.

Với các framework như Roboflow Inference và Ultralytics, việc chuyển từ nghiên cứu sang sản xuất trở nên mượt mà hơn bao giờ hết. Bạn có thể:

  • So sánh mô hình bất kỳ lúc nào trên Vision AI Leaderboard
  • Thử nghiệm nhanh trong Object Detection Playground
  • Hoặc truy cập Roboflow Models để triển khai các mô hình phát hiện đối tượng tốt nhất một cách tức thì.

Nguồn tham khảo: https://blog.roboflow.com/best-object-detection-models/

TOT là đơn vị tiên phong trong hành trình chuyển đổi số. Chúng tôi mang đến giải pháp thiết kế website, mobile appviết phần mềm theo yêu cầu với dịch vụ linh hoạt, tối ưu theo đúng nhu cầu của doanh nghiệp.

Lấy cảm hứng từ triết lý “Công nghệ vì con người”, TOT giúp doanh nghiệp vận hành hiệu quả hơn, nâng tầm trải nghiệm khách hàng và tạo dấu ấn bền vững cho thương hiệu.

Thông tin liên hệ TopOnTech (TOT):

🌐 Website TOT

📞 Hotline/WhatsApp/Zalo: 0906 712 137

✉️ Email: long.bui@toponseek.com

🏢 Địa chỉ: 31 Hoàng Diệu, Phường 12, Quận 4, Thành phố Hồ Chí Minh, Việt Nam

Bài viết liên quan

Hướng dẫn khả năng truy cập nội dung web WCAG 2.2

Tìm hiểu về nguyên tắc và yêu cầu của WCAG 2.2

Trong bối cảnh chuyển đổi số diễn ra mạnh mẽ, việc xây dựng website thân thiện với mọi đối tượng người dùng ngày càng trở nên quan trọng. WCAG 2.2 là bộ tiêu chuẩn hướng dẫn về khả năng truy cập nội dung web do W3C phát hành, đóng vai

Xem thêm »
Liên hệ

Bạn đã sẵn sàng chưa?

Cùng TOT bắt đầu hành trình xây dựng dự án ngay hôm nay!

Gửi tin nhắn cho chúng tôi. Chúng tôi sẽ đề xuất giải pháp để nâng tầm doanh nghiệp của bạn.

Sự khác biệt:

Đặt lịch tư vấn miễn phí