Các mô hình ngôn ngữ thị giác (VLMs) như GPT-5 có thể xử lý dễ dàng các tác vụ thị giác phức tạp như OCR, VQA và DocVQA. Tuy nhiên, một số mô hình ngôn ngữ thị giác chạy cục bộ nhỏ hơn, như Llama 3.2 Vision, vẫn mang lại hiệu suất ấn tượng trên chính những tác vụ này, trong khi lại nhẹ hơn và hiệu quả hơn rất nhiều.
Trong hướng dẫn này, chúng ta sẽ khám phá những mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất mà bạn có thể vận hành trực tiếp trên phần cứng của mình từ Llama 3.2 Vision đến SmolVLM2 và cách triển khai chúng hiệu quả bằng Roboflow Inference.
Tiêu chí đánh giá các mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất
Dưới đây là các tiêu chí để lựa chọn những mô hình chạy cục bộ hiệu quả nhất.
1. Thiết lập thân thiện cho chạy cục bộ
Mô hình phải dễ triển khai trên máy cá nhân thông qua các công cụ như Ollama hoặc Llama.cpp, không cần hạ tầng máy chủ phức tạp hoặc kết nối Internet liên tục. Điều này giúp quá trình thiết lập thuận tiện hơn khi bạn muốn thử nghiệm hoặc xây dựng ứng dụng offline.
2. Khả năng xử lý đa dạng tác vụ thị giác – ngôn ngữ
Mô hình phải thực hiện tốt các tác vụ quan trọng như:
- Trả lời câu hỏi dựa trên hình ảnh
- Nhận dạng ký tự quang học
- Trả lời câu hỏi dựa trên tài liệu dạng hình ảnh
Những tác vụ này phản ánh khả năng suy luận và phân tích thông tin hình ảnh trong bối cảnh thực tế của mô hình.
3. Kích thước mô hình nhỏ gọn
Chúng tôi chỉ chọn các mô hình dưới 20 tỷ tham số để đảm bảo cân bằng giữa hiệu năng và khả năng chạy cục bộ. Các mô hình nhỏ gọn dễ vận hành trên máy tính cá nhân nhưng vẫn mang lại chất lượng cao.
4. Hỗ trợ lượng tử hóa
Các mô hình hỗ trợ GGUF quantization hoặc kỹ thuật lượng tử hóa tương tự được ưu tiên, vì lượng tử hóa:
- Giảm bộ nhớ sử dụng
- Tăng tốc độ suy luận
- Giúp mô hình chạy tốt hơn trên phần cứng không có GPU mạnh
Đây là yếu tố quan trọng khi triển khai mô hình ngôn ngữ thị giác chạy cục bộ.
5. Được duy trì và cập nhật
Yếu tố cuối cùng là mức độ duy trì của mô hình. Những mô hình được cập nhật đều đặn, có cộng đồng mạnh sẽ nhận được:
- Tối ưu hiệu năng
- Cải thiện độ tương thích
- Bản vá lỗi thường xuyên
Điều này đảm bảo khả năng sử dụng lâu dài.
Các Mô Hình Ngôn Ngữ Thị Giác Chạy Cục Bộ Tốt Nhất
Dưới đây là danh sách những mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất hiện nay.
1. Llama 3.2-Vision (11B)
Llama 3.2 Vision có hai kích thước mô hình: 11B và 90B tham số. Nội dung dưới đây tập trung vào bản 11B, vì nó phù hợp nhất với tiêu chí triển khai cục bộ.
Với kích thước mô hình khoảng 7.8 GB, Llama 3.2 Vision 11B có thể chạy dễ dàng trên hầu hết GPU phổ thông. Khi được lượng tử hóa , dung lượng mô hình còn giảm mạnh hơn nữa nhưng vẫn giữ được hiệu suất cao ở các tác vụ thị giác–ngôn ngữ phức tạp.
Điểm nổi bật khác là cửa sổ ngữ cảnh 128K, cho phép mô hình xử lý và suy luận trên các tài liệu dài, PDF nhiều trang hoặc chuỗi ảnh liên quan — điều rất ấn tượng với một mô hình kích thước nhỏ.
>>> Xem thêm:
- Xây dựng quy trình Vision AI nghiên cứu khoa học
- Vertex AI là gì? Nền tảng học máy của Google Cloud

Tại thời điểm ra mắt, Llama 3.2 Vision 11B đạt kết quả cực tốt trên nhiều bảng đánh giá, vượt qua các mô hình như Claude 3 Haiku và GPT-4o Mini. Dưới đây là một số điểm benchmark tiêu biểu:
- MMMU: 50.7 – cho thấy khả năng hiểu đa phương thức trên nhiều lĩnh vực.
- MMMU Pro (Vision): 23.7 – thể hiện sức mạnh trong suy luận thị giác và diễn giải cảnh phức tạp.
- MMMU Pro (Standard): 33.0 – chứng minh khả năng kết hợp suy luận văn bản và hình ảnh.
- MathVista: 51.5 – hiệu suất mạnh trong các bài toán toán học dựa trên hình ảnh.
- DocVQA: 88.4 – xác nhận khả năng đọc tài liệu và nhận diện văn bản trong ảnh.
- VQAv2: 75.2 – phản ánh khả năng trả lời câu hỏi dựa trên hình ảnh rất tốt.
2. Qwen2.5-VL
Qwen2.5-VL là dòng mô hình thị giác–ngôn ngữ với 3 phiên bản: 3B, 7B và 72B. Trong đó, 7B là lựa chọn cân bằng nhất về hiệu suất và hiệu quả, với kích thước mô hình khoảng 6 GB và cửa sổ ngữ cảnh 125K, rất phù hợp để chạy cục bộ trên nhiều thiết bị phổ thông.
Điều ấn tượng là bản 7B của Qwen2.5-VL thậm chí vượt qua Llama 3.2 Vision 11B trên nhiều benchmark quan trọng — minh chứng cho chất lượng huấn luyện và tối ưu hóa vượt trội.
- MMMU: 58.6 – vượt Llama 3.2 Vision trong suy luận đa phương thức.
- MMMU Pro (Vision): 38.3 – mạnh hơn trong nhận thức thị giác và hiểu cảnh phức tạp.
- MathVista: 68.2 – vượt Llama 3.2 Vision trong suy luận toán học dựa trên hình ảnh.
- DocVQA: 95.7 – độ chính xác cao vượt trội trong đọc tài liệu và OCR.
3. LLaVA-NeXT
Một trong những mô hình VLM nhỏ đầu tiên được chú ý là LLaVA, ban đầu xây dựng trên Vicuna và bộ mã hóa thị giác CLIP.
Kể từ khi phát hành, nhóm phát triển đã liên tục cải tiến, dẫn đến LLaVA-NeXT, có các mức 7B, 13B và 34.75B. Mô hình có nhiều phiên bản sử dụng Vicuna hoặc Qwen làm nền tảng ngôn ngữ.
Nội dung dưới đây tập trung vào bản 7B dùng Qwen, vì nó đem lại hiệu suất mạnh nhưng vẫn nhẹ và hiệu quả.
- VQAv2: 82.2 – khả năng trả lời câu hỏi hình ảnh rất tốt.
- MMMU: 35.3 – suy luận đa phương thức ổn định.
- MathVista: 35.3 – mức độ tốt trong suy luận toán học qua hình ảnh.
Ưu điểm lớn nhất của LLaVA-NeXT là hiệu quả huấn luyện. Mô hình được huấn luyện chỉ với 32 GPU trong khoảng một ngày trên 1.3 triệu mẫu dữ liệu, cho thấy khả năng xây dựng mô hình đa phương thức chất lượng cao mà không cần tài nguyên khổng lồ.
4. Idefics2
Idefics2 là mô hình thị giác–ngôn ngữ mã nguồn mở của Hugging Face, xây dựng trên backbone Mistral-7B và bộ mã hóa thị giác SigLIP. Với 8 tỷ tham số, mô hình cân bằng tốt giữa hiệu suất và khả năng chạy cục bộ.
So với Llama 3.2 Vision 11B, bản 8B Idefics2 cạnh tranh rất tốt trên nhiều benchmark, đặc biệt ở hiểu tài liệu và suy luận văn bản trong hình ảnh.
Khả năng xử lý ảnh độ phân giải cao giúp Idefics2 có lợi thế lớn trong các tác vụ OCR và thị giác chi tiết.
>>> Xem thêm các bài viết khác:
- Top 7 Công cụ Theo dõi Đối tượng Mã nguồn mở Tốt Nhất 2025
- Top 5 trình soạn thảo mã cho thị giác máy tính tốt nhất

- MMMU: 43.0 – suy luận đa phương thức mạnh, vượt Llama 3.2 Vision 11B.
- MathVista: 51.4 – xuất sắc trong toán học và suy luận thị giác.
- TextVQA: 73.0 – khả năng hiểu văn bản trong hình ảnh rất tốt.
- MMBench: 76.7 – khả năng hiểu thị giác–ngôn ngữ toàn diện.
5. MiniCPM-V 2.6
MiniCPM-V 2.6 là phiên bản mạnh nhất của dòng MiniCPM-V. Được xây dựng trên SigLIP-400M và Qwen2-7B, mô hình này có 8B tham số, với nhiều cải tiến quan trọng về hiệu quả, suy luận đa phương thức và hiểu thị giác.
>>> Xem thêm: Xây Dựng Mô Hình Ngôn Ngữ Thị Giác với Next.js & Roboflow

Benchmark MiniCPM-V 2.6 dành cho mô hình ngôn ngữ thị giác chạy cục bộ. (Nguồn: Internet)
MiniCPM-V 2.6 có kích thước khoảng 5.5 GB, thuộc nhóm VLM nhỏ phù hợp nhất để chạy cục bộ. Cửa sổ ngữ cảnh 32K giúp xử lý tốt các tác vụ đa phương thức dài.
Mô hình xử lý ảnh lên tới 1.8 triệu pixel và đạt kết quả top-tier trên OCRBench, với tỉ lệ ảo giác thấp cực kỳ phù hợp cho các ứng dụng OCR.
6. InternVL
Dòng mô hình InternVL được thiết kế nhằm thu hẹp khoảng cách giữa hệ thống mã nguồn mở và các mô hình đa phương thức độc quyền. Đúng với mục tiêu đó, InternVL cạnh tranh trực tiếp với các mô hình hàng đầu như GPT-4V trong khả năng suy luận thị giác.
>>> Xem thêm: TOP 20 công cụ Chat AI tiếng Việt miễn phí thông minh phổ biến

InternVL 3.5 có các phiên bản từ 1B đến 15B tham số, và bao gồm cả biến thể Mixture of Experts, điển hình như InternVL 3.5-20B-A4B: tổng 20B tham số nhưng chỉ kích hoạt 4B khi suy luận, một trong những thiết kế VLM nhỏ linh hoạt nhất hiện nay.

Benchmark cho các phiên bản InternVL trong mô hình ngôn ngữ thị giác chạy cục bộ. (Nguồn: Internet)
7. SmolVLM2
Không có mô hình nào trong danh sách nhỏ hơn SmolVLM2 — đây là mô hình ngôn ngữ thị giác nhỏ nhất từng được phát hành.
SmolVLM2 có ba kích thước: 256M, 500M, và 2.2B tham số.
Nhờ hiệu suất cực cao, SmolVLM2 rất lý tưởng để chạy cục bộ trên thiết bị có tài nguyên hạn chế. Ví dụ, bản 256M chỉ dùng dưới 1GB VRAM khi suy luận.
>>> Xem thêm: TOP 25 công cụ AI miễn phí, phổ biến, tốt nhất hiện nay

Ngoài hình ảnh tĩnh, SmolVLM2 còn hỗ trợ hiểu video, có thể xử lý nhiều khung hình và thực hiện các tác vụ như phân tích CCTV, tóm tắt video hoặc trả lời câu hỏi dựa trên nội dung video.
Chạy SMOLVLM2 Trên Roboflow Inference
Sau khi đã xem danh sách các mô hình, bây giờ chúng ta sẽ tìm hiểu cách chạy một trong số đó là SMOLVLM2 bằng Roboflow Inference.
Roboflow cung cấp nhiều cách khác nhau để chạy VLMs: bạn có thể dùng Roboflow Workflows để xây dựng pipeline xử lý thị giác hoàn chỉnh chạy trên cloud, hoặc tự lưu trữ engine suy luận cục bộ để kiểm soát hoàn toàn.
Trong ví dụ này, chúng ta sẽ không thiết lập server đầy đủ, mà chỉ trình bày cách chạy mô hình nhỏ nhất trong danh sách SMOLVLM2 để thực hiện một tác vụ hiểu tài liệu đơn giản trong môi trường Google Colab free-tier.
Bước 1: Cài đặt Roboflow Inference
Bắt đầu bằng cách cài phiên bản Roboflow Inference hỗ trợ GPU:
pip install inference-gpu[transformers]
Bước 2: Chuẩn bị một hình ảnh mẫu

Trong bài kiểm thử này, chúng ta sẽ sử dụng một hình ảnh đơn giản của hoá đơn để xem SMOLVLM2 xử lý trích xuất thông tin có cấu trúc như thế nào.
Bước 3: Import các thư viện cần thiết
from PIL import Image
from inference.models.smolvlm.smolvlm import SmolVLM
Bước 4: Khởi tạo mô hình
Tạo một instance mô hình và xác thực bằng API key Roboflow của bạn.
pg = SmolVLM(api_key=”YOUR_API_KEY”)
Bước 5: Tải hình ảnh
image = Image.open(“PATH_TO_IMAGE”)
Bước 6: Trích xuất thông tin bằng Prompt
Giờ chúng ta sẽ dùng prompt để yêu cầu mô hình trích xuất mô tả sản phẩm, giá và số lượng từ hoá đơn.
prompt = “Extract the description, price, and quantity of all items?”
result = pg.predict(image,prompt)
print(result)

SMOLVLM2 đã trích xuất thành công văn bản và các thông tin số liên quan từ hình ảnh, cho thấy khả năng thực hiện tác vụ hiểu tài liệu chính xác đáng kể, ngay cả khi chạy trên phần cứng nhẹ như GPU miễn phí của Google Colab.
Kết luận: Các Mô Hình Ngôn Ngữ Thị Giác Chạy Cục Bộ Tốt Nhất
Các mô hình ngôn ngữ thị giác chạy cục bộ đã chứng minh rằng khả năng suy luận đa phương thức mạnh mẽ không nhất thiết phải đi kèm chi phí tính toán lớn.
Ngày nay, có một thế hệ mô hình VLM nhẹ, có thể xử lý các tác vụ thị giác–ngôn ngữ phức tạp một cách hiệu quả giúp AI tiên tiến trở nên dễ tiếp cận hơn bao giờ hết.
Nguồn tham khảo: https://blog.roboflow.com/local-vision-language-models/
TOT là đơn vị tiên phong trong hành trình chuyển đổi số. Chúng tôi mang đến giải pháp thiết kế website, mobile app và viết phần mềm theo yêu cầu với dịch vụ linh hoạt, tối ưu theo đúng nhu cầu của doanh nghiệp.
Lấy cảm hứng từ triết lý “Công nghệ vì con người”, TOT giúp doanh nghiệp vận hành hiệu quả hơn, nâng tầm trải nghiệm khách hàng và tạo dấu ấn bền vững cho thương hiệu.
Thông tin liên hệ TopOnTech (TOT):
📞 Hotline/WhatsApp/Zalo: 0906 712 137
✉️ Email: long.bui@toponseek.com
🏢 Địa chỉ: 31 Hoàng Diệu, Phường 12, Quận 4, Thành phố Hồ Chí Minh, Việt Nam

