Công cụ theo dõi đối tượng là một nhiệm vụ trong lĩnh vực thị giác máy tính, dùng để nhận diện nhiều loại đối tượng khác nhau và theo dõi chuyển động của chúng xuyên suốt các khung hình trong video. Việc biết được vị trí của một đối tượng trong video có rất nhiều ứng dụng thực tế, đặc biệt trong sản xuất và logistics. Ví dụ, công cụ theo dõi đối tượng có thể được sử dụng để giám sát dây chuyền lắp ráp, theo dõi hàng tồn kho trong kho bãi, và hỗ trợ tối ưu hóa quản lý chuỗi cung ứng.
Trong bài viết này, chúng ta sẽ cùng tìm hiểu quá trình phát triển của object tracking qua từng thời kỳ, cách thức hoạt động của nó, và 7 công cụ theo dõi đối tượng hàng đầu hiện nay.
Quá trình phát triển của công cụ theo dõi đối tượng
Trước khi đi sâu vào cách hoạt động của công nghệ theo dõi đối tượng, hãy cùng tìm hiểu về quá trình hình thành của nó.
Ban đầu, vào cuối thập niên 1980 và đầu thập niên 1990, việc theo dõi đối tượng phụ thuộc rất nhiều vào các phương pháp như khử nền và kỹ thuật vi sai khung hình . Những phương pháp này được xem là đột phá nhưng lại gặp khó khăn lớn trong việc xử lý các nền động hoặc khi điều kiện ánh sáng thay đổi.
Cùng với sự tiến hóa của công nghệ, giữa và cuối thập niên 1990, các phương pháp mới như thuật toán theo dõi dựa trên đặc trưng đã xuất hiện. Sau đó, các giải pháp theo dõi phức tạp hơn được ra mắt, tập trung vào các đặc điểm cụ thể của đối tượng như cạnh và góc .
Trong những năm 1990, sự ra đời của các kỹ thuật như Bộ lọc Kalman và Quang lưu đã mở đường cho các giải pháp theo dõi nâng cao. Tuy nhiên, bước đột phá thực sự đến vào thập niên 2010 với sự phát triển của kỹ thuật sâu, tiêu biểu là Mạng nơ-ron tích chập (CNNs) và Mạng nơ-ron hồi quy (RNNs).
Các phương pháp trí tuệ nhân tạo này đã giúp việc theo dõi đối tượng phức tạp trở nên khả thi với độ chính xác, độ bền bỉ và khả năng thích ứng cao hơn rất nhiều. Các công cụ theo dõi đối tượng ngày nay có thể theo dõi nhiều vật thể cùng lúc, ngay cả trong điều kiện khó khăn, đồng thời học hỏi và thích ứng với các đối tượng hoặc môi trường mới.

Cách hoạt động của phần mềm Object Tracking
Khái niệm cơ bản của theo dõi đối tượng là sử dụng một thuật toán để phát hiện đối tượng trong video và dự đoán vị trí tương lai của nó trong một chuỗi khung hình. Quá trình này kết hợp cả hai yếu tố: thuật toán phát hiện đối tượng và thuật toán theo dõi đối tượng.
- Phát hiện đối tượng xác định vật thể bằng một hộp giới hạn trong khung hình tham chiếu.
- Theo dõi đối tượng dự đoán chuyển động của vật thể và bám sát nó xuyên suốt video.
Khi đối tượng đã được phát hiện, thuật toán theo dõi có thể theo dõi chuyển động của nó theo thời gian trong các video, qua nhiều góc máy quay khác nhau, và thậm chí theo dõi nhiều đối tượng cùng lúc.
Dưới đây là một số kỹ thuật chính được áp dụng trong các công cụ theo dõi đối tượng hiện đại:
- Trích xuất đặc trưng: Nhận dạng các đặc điểm độc đáo của đối tượng, chẳng hạn như màu sắc, hình dạng và kết cấu, để phân biệt nó với nền và các đối tượng khác.
- Ước tính chuyển động và dự đoán quỹ đạo: Dự đoán vị trí tiếp theo của đối tượng dựa trên chuyển động của nó trong các khung hình trước đó.
- Liên kết dữ liệu : Gán một ID duy nhất cho mỗi đối tượng và đảm bảo ID đó được giữ nhất quán qua các khung hình, ngay cả khi đối tượng bị che khuất một phần (partial occlusions) hoặc trong môi trường nền lộn xộn.
- Tái nhận dạng: Khi đối tượng ra khỏi khung hình hoặc tạm thời bị che khuất (ví dụ: một vật thể khác đi qua phía trước), các phương pháp tái nhận dạng giúp phần mềm phát hiện và xác lập lại danh tính của đối tượng khi nó xuất hiện trở lại. Các phương pháp dựa deep learning, chẳng hạn như khớp nối hình ảnh , thường được sử dụng cho mục đích này.

Top 7 Công cụ theo dõi đối tượng tin dùng nhất hiện nay
ByteTrack
ByteTrack là một thuật toán thị giác máy tính hàng đầu, được thiết kế đặc biệt cho theo dõi đa đối tượng. Nó hoạt động bằng cách gán các ID duy nhất cho từng đối tượng trong một video, giúp theo dõi chúng một cách liên tục và nhất quán.
Hầu hết các phương pháp theo dõi truyền thống chỉ sử dụng các hộp phát hiện có điểm tin cậy cao và bỏ qua những hộp có điểm thấp hơn. Điều này thường dẫn đến việc bỏ sót một số đối tượng (nhất là khi bị che khuất) và tạo ra các quỹ đạo bị đứt đoạn .
ByteTrack đã cải tiến đáng kể quy trình này bằng cách sử dụng tất cả các hộp phát hiện, từ điểm cao đến điểm thấp, trong quá trình khớp nối:
- Khớp nối điểm cao : ByteTrack khớp các hộp phát hiện có điểm cao với các tracklet (các đoạn quỹ đạo đối tượng đã được theo dõi ngắn) hiện có dựa trên sự tương đồng về chuyển động. Điều này đảm bảo công cụ theo dõi đối tượng này có thể nhận dạng và bám sát các đối tượng chính xác ngay cả khi chúng bị che khuất một phần hoặc di chuyển nhanh.
- Khớp nối điểm thấp : Đối với các phát hiện có điểm thấp, ByteTrack sẽ không loại bỏ chúng ngay lập tức. Thay vào đó, nó kiểm tra các phát hiện này dựa trên độ tương đồng của chúng với các tracklet hiện có. Bằng cách này, ByteTrack có thể nhận diện các đối tượng thực sự bị mờ hoặc bị che khuất một phần (thường bị đánh điểm thấp) và phân biệt chúng với nhiễu nền, giúp duy trì theo dõi liên tục và tạo ra quỹ đạo hoàn chỉnh hơn.

Vì ByteTrack có khả năng theo dõi nhiều đối tượng trong một video, nó có thể được áp dụng hiệu quả trong các kịch bản thực tế, chẳng hạn như công việc xếp dỡ hộp hàng của robot Boston Dynamics trong kho.
Các robot này sử dụng thị giác máy tính để nâng, di chuyển và đặt các hộp hàng với độ chính xác cao. ByteTrack có thể nâng cao hiệu suất làm việc của chúng bằng cách theo dõi chính xác vị trí và chuyển động của từng hộp hàng (từng đối tượng).
Norfair
Norfair của Tryolabs là một thư viện theo dõi đối tượng nhẹ và có khả năng tùy chỉnh cao, hoạt động được với hầu hết các bộ phát hiện phổ biến.
Điểm độc đáo của Norfair là người dùng tự định nghĩa hàm tính toán khoảng cách giữa các đối tượng đang được theo dõi và các phát hiện mới. Hàm này có thể đơn giản chỉ là một dòng tính khoảng cách Euclidean , hoặc phức tạp hơn bằng cách sử dụng dữ liệu bên ngoài như embeddings (vector nhúng) hoặc mô hình Tái nhận dạng Người .
- Tích hợp dễ dàng: Norfair có thể được tích hợp dễ dàng vào các quy trình xử lý video phức tạp hoặc được dùng để xây dựng vòng lặp suy luận video từ đầu.
- Ứng dụng rộng rãi: Điều này khiến Norfair trở thành một công cụ theo dõi đối tượng lý tưởng cho nhiều ứng dụng như: giám sát công nhân trong nhà máy, an ninh, phân tích thể thao và theo dõi giao thông.
- Hàm khoảng cách: Norfair cung cấp sẵn một số hàm khoảng cách được định nghĩa trước, đồng thời cho phép người dùng tự tạo hàm của riêng mình để triển khai các chiến lược theo dõi khác nhau.
- Hỗ trợ kỹ thuật: Norfair đang cung cấp sức mạnh cho nhiều ứng dụng phân tích video và hỗ trợ Python 3.8 trở lên (phiên bản mới nhất cho Python 3.7 là Norfair 2.2.0).
Công cụ theo dõi đối tượng MMTracking
MMTracking là một bộ công cụ miễn phí và mã nguồn mở được thiết kế để phân tích video. Nó được xây dựng dựa trên PyTorch và là một phần của dự án lớn hơn mang tên OpenMMLab.
MMTracking nổi bật nhờ khả năng kết hợp nhiều tác vụ phân tích video thành một nền tảng duy nhất. Các tác vụ này bao gồm: phát hiện đối tượng, theo dõi đối tượng, và thậm chí cả phân đoạn thể hiện video.
- Thiết kế Mô-đun: Nhờ thiết kế mô-đun, người dùng có thể dễ dàng thay thế và kết hợp các công cụ này để tạo ra các phương pháp tùy chỉnh, đáp ứng chính xác nhu cầu cụ thể.
- Tích hợp tối ưu với OpenMMLab: MMTracking hoạt động rất tốt với các dự án khác thuộc OpenMMLab, đặc biệt là MMDetection. Điều này có nghĩa là bạn có thể sử dụng bất kỳ thuật toán phát hiện đối tượng nào có sẵn trong MMDetection cùng với MMTracking chỉ bằng cách thay đổi một vài thiết lập.
- Mô hình tích hợp sẵn độ chính xác cao: MMTracking bao gồm các mô hình được xây dựng sẵn đạt độ chính xác rất cao, thậm chí một số mô hình còn hoạt động tốt hơn phiên bản gốc.
- Ứng dụng lý tưởng: Công cụ theo dõi đối tượng này rất phù hợp cho các ứng dụng yêu cầu tốc độ và độ chính xác cao, như kiểm tra tự động trong sản xuất và xe tự hành.
Thiết kế mô-đun của MMTracking cho phép tùy chỉnh dễ dàng, biến nó thành một công cụ mạnh mẽ cho vô số nhiệm vụ phân tích video.
DeepSORT
DeepSORT kết hợp Kalman Filter để dự đoán chuyển động, đồng thời xử lý rất tốt các tình huống che khuất và tương tác giữa nhiều đối tượng. Chính vì thế, DeepSORT trở thành lựa chọn lý tưởng cho các hệ thống giám sát an ninh, theo dõi đám đông và các ứng dụng cần độ ổn định cao.
FairMOT
FairMOT là phương pháp theo dõi đối tượng được xây dựng dựa trên kiến trúc phát hiện anchor-free CenterNet. Khác với nhiều framework coi nhiệm vụ phát hiện là chính và tái nhận diện (re-ID) là phụ, FairMOT thiết kế cả hai tác vụ ở mức quan trọng ngang nhau.
FairMOT có cấu trúc mạng đơn giản với hai nhánh tương tự nhau:
- Nhánh đầu tiên: phát hiện đối tượng
- Nhánh thứ hai: trích xuất đặc trưng re-ID
FairMOT sử dụng ResNet-34 làm backbone nhằm đạt sự cân bằng tốt giữa tốc độ và độ chính xác. Backbone này được tăng cường bằng Deep Layer Aggregation để kết hợp thông tin từ nhiều tầng, giúp mô hình hiểu rõ hơn về đối tượng ở các mức trừu tượng khác nhau.
Ngoài ra, các lớp Deformable Convolution trong module upsampling cho phép mạng tự điều chỉnh linh hoạt theo kích thước và tư thế khác nhau của đối tượng, giải quyết vấn đề sai lệch khi ghép đặc trưng.
Nhánh phát hiện dựa trên CenterNet bao gồm ba đầu ra song song để dự đoán:
- Heatmap vị trí đối tượng
- Độ lệch tâm
- Kích thước bounding box
FairMOT đặc biệt hữu ích trong những tình huống đòi hỏi cân bằng giữa độ chính xác và tốc độ, chẳng hạn như: kiểm tra chất lượng sản phẩm theo thời gian thực trên dây chuyền sản xuất, giám sát an ninh, và điều hướng xe tự lái.
Khả năng xử lý che khuất và thích ứng với kích thước đối tượng thay đổi liên tục giúp FairMOT trở thành lựa chọn hoàn hảo cho các ứng dụng này, đảm bảo hiệu quả và độ tin cậy cao trong môi trường thực tế.

FairMOT đặc biệt hữu ích trong những tình huống đòi hỏi cân bằng giữa độ chính xác và tốc độ, chẳng hạn như: kiểm tra chất lượng sản phẩm theo thời gian thực trên dây chuyền sản xuất, giám sát an ninh, và điều hướng xe tự lái.
Khả năng xử lý che khuất và thích ứng với kích thước đối tượng thay đổi liên tục giúp FairMOT trở thành lựa chọn hoàn hảo cho các ứng dụng này, đảm bảo hiệu quả và độ tin cậy cao trong môi trường thực tế.
BoT-SORT
BoT-SORT là một phương pháp theo dõi đa đối tượng được phát triển để nâng cấp các thuật toán truyền thống như SORT (Simple Online and Realtime Tracking).
Được nghiên cứu bởi các chuyên gia tại Đại học Tel-Aviv, BoT-SORT mang đến khả năng theo dõi chính xác và ổn định hơn. Phương pháp này kết hợp thông tin chuyển động và hình dạng xuất hiện (appearance) để phân biệt các đối tượng khác nhau và giữ vững danh tính của từng đối tượng xuyên suốt quá trình theo dõi.

BoT-SORT còn tích hợp tính năng Camera Motion Compensation, cho phép hệ thống tự động điều chỉnh khi camera di chuyển, đảm bảo việc theo dõi đối tượng vẫn chính xác ngay cả khi camera không cố định. Thêm vào đó, BoT-SORT sử dụng Kalman Filter nâng cao, giúp dự đoán chính xác hơn vị trí và kích thước của các đối tượng đang theo dõi.
Nhờ những cải tiến này, BoT-SORT hoạt động xuất sắc ngay cả trong những tình huống phức tạp, như môi trường đông đúc hoặc nhiều chuyển động đồng thời. Nó dẫn đầu về các chỉ số hiệu suất quan trọng như MOTA (Multiple Object Tracking Accuracy), IDF1 (Identity F1 Score) và HOTA (Higher Order Tracking Accuracy) trên các bộ dữ liệu tiêu chuẩn.
BoT-SORT là lựa chọn lý tưởng cho các ứng dụng công nghiệp nhờ độ chính xác cao và độ bền vững khi tracking. Trong môi trường như kho bãi lớn, nơi điều kiện ánh sáng thay đổi liên tục và các vật thể khác thường che khuất đối tượng, BoT-SORT vẫn vận hành hiệu quả.
Nó có thể được sử dụng để theo dõi thùng hàng, pallet, giúp tối ưu quản lý tồn kho và giảm thiểu rủi ro thất lạc hàng hóa. Khả năng giám sát di chuyển của sản phẩm từ kho nhận đến kho xuất giúp tinh gọn hoạt động và nâng cao khả năng quan sát chuỗi cung ứng. Việc theo dõi chính xác còn cung cấp cập nhật thời gian thực về vị trí và trạng thái của từng mặt hàng, hỗ trợ mạnh mẽ cho các hoạt động logistics.
StrongSORT
StrongSORT được thiết kế để nâng cấp DeepSORT, giải quyết những vấn đề phổ biến trong theo dõi đa đối tượng, như độ chính xác phát hiện và liên kết đối tượng. Phần mềm này sử dụng một bộ phát hiện đối tượng mạnh mẽ, kết hợp với mô hình embedding đặc trưng tiên tiến và nhiều “mẹo” kỹ thuật nhằm tối ưu hiệu suất tracking.
Ngoài ra, StrongSORT giới thiệu hai thuật toán mới:
- AFLink (Appearance-Free Link): giúp theo dõi đối tượng chính xác mà không phụ thuộc quá nhiều vào đặc trưng hình dạng xuất hiện.
- GSI (Gaussian-smoothed Interpolation): cải thiện khả năng dự đoán vị trí của đối tượng, ngay cả trong các tình huống phức tạp.
Nhờ những cải tiến này, StrongSORT trở thành giải pháp mạnh mẽ, chính xác và ổn định cho các ứng dụng tracking đòi hỏi độ tin cậy cao.

AFLink và GSI đều nhẹ nhàng, dễ tích hợp vào nhiều hệ thống tracking khác nhau.
- AFLink giúp liên kết các tracklet chỉ dựa trên thông tin không gian-thời gian (spatiotemporal), vừa nhanh vừa chính xác.
- GSI cải thiện cách xử lý các phát hiện bị thiếu bằng cách tận dụng thông tin chuyển động.
Nhờ những cải tiến này, StrongSORT đạt thành tích hàng đầu trên nhiều bộ benchmark công khai như MOT17, MOT20, DanceTrack và KITTI.
Với độ chính xác và độ bền vững cao, StrongSORT phù hợp cho các ứng dụng cần theo dõi đối tượng cực kỳ cẩn thận. Ví dụ, trong trường hợp một camera quan sát toàn cảnh công trường xây dựng, nơi có nhiều phương tiện nặng di chuyển liên tục, StrongSORT có thể:
- Giám sát các phương tiện theo thời gian thực,
- Ngăn ngừa tai nạn,
- Đảm bảo hoạt động vận hành hiệu quả.
Khả năng xử lý che khuất và thích ứng với điều kiện ánh sáng thay đổi giúp StrongSORT trở nên tin cậy ngay cả trong môi trường công trường năng động và thường hỗn loạn.
Những thách thức và hạn chế của công cụ theo dõi đối tượng
Mặc dù công nghệ theo dõi đối tượng đã tiến bộ đáng kể, vẫn tồn tại một số yếu tố khiến việc đạt kết quả nhất quán trở nên khó khăn. Dưới đây là những thách thức và hạn chế cần lưu ý khi sử dụng các công cụ object tracking:
- Che khuất: Xảy ra khi một đối tượng bị che khuất bởi đối tượng khác, ví dụ như hai người đi ngang nhau hoặc một chiếc ô tô đi dưới cầu. Đây là tình huống khiến hệ thống khó theo dõi các đối tượng bị che khuất một phần.
- Biến đổi hình dạng: Đối tượng có thể trông khác nhau tùy vào khoảng cách, góc nhìn hoặc kích thước so với camera, ảnh hưởng đến việc nhận diện chính xác.
- Thay đổi ánh sáng: Sự thay đổi ánh sáng có thể làm biến dạng ngoại hình đối tượng, khiến việc phát hiện và theo dõi trở nên phức tạp. Các hệ thống computer vision thường gặp khó khăn với những biến động này.
- Theo dõi đa camera: Khi theo dõi đối tượng qua nhiều camera, cần đến quá trình gọi là ReID, yêu cầu một bộ thuật toán khác để đảm bảo đúng danh tính đối tượng qua các góc nhìn.
- Khả năng mở rộng: Khi triển khai cho nhiều camera hoặc các vị trí phân tán, giải pháp trở nên phức tạp và tốn kém, thường đòi hỏi hạ tầng bổ sung hoặc phát triển tùy chỉnh.
Công nghệ theo dõi đối tượng đã phát triển vượt bậc. Ngày nay, các hệ thống AI tiên tiến có thể theo dõi nhiều đối tượng cùng lúc với độ chính xác cao, ngay cả trong những điều kiện khó khăn.
Ứng dụng của object tracking và computer vision rất đa dạng, từ tối ưu quy trình sản xuất đến nâng cao hiệu quả trong logistics. Khi công cụ theo dõi đối tượng tiếp tục phát triển, chúng ta hoàn toàn có thể kỳ vọng những bước tiến đột phá và sáng tạo hơn nữa trong những năm tới.
Nguồn tham khảo: https://blog.roboflow.com/top-object-tracking-software/
TOT là đơn vị tiên phong trong hành trình chuyển đổi số. Chúng tôi mang đến giải pháp thiết kế website, mobile app và phần mềm theo yêu cầu với dịch vụ linh hoạt, tối ưu theo đúng nhu cầu của doanh nghiệp.
Lấy cảm hứng từ triết lý “Công nghệ vì con người”, TOT giúp doanh nghiệp vận hành hiệu quả hơn, nâng tầm trải nghiệm khách hàng và tạo dấu ấn bền vững cho thương hiệu.
Thông tin liên hệ TopOnTech (TOT):
🌐 Website: https://topon.tech/vi/
📞 Hotline/WhatsApp/Zalo: 0906 712 137
✉️ Email: long.bui@toponseek.com
🏢 Địa chỉ: 31 Hoàng Diệu, Phường 12, Quận 4, Thành phố Hồ Chí Minh, Việt Nam

