Các mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất

Các mô hình ngôn ngữ thị giác (VLMs) như GPT-5 có thể xử lý dễ dàng các tác vụ thị giác phức tạp như OCR, VQA và DocVQA. Tuy nhiên, một số mô hình ngôn ngữ thị giác chạy cục bộ nhỏ hơn, như Llama 3.2 Vision, vẫn mang lại hiệu suất ấn tượng trên chính những tác vụ này, trong khi lại nhẹ hơn và hiệu quả hơn rất nhiều. Trong hướng dẫn này, chúng ta sẽ khám phá những mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất mà bạn có thể vận hành trực tiếp trên phần cứng của mình từ Llama 3.2 Vision đến SmolVLM2 và cách triển khai chúng hiệu quả bằng Roboflow Inference.

>>> Xem thêm bài viết:

TOP 10 AI thiết kế website miễn phí, trả phí, hiệu quả năm 2026
18 cách ứng dụng AI cho ecommerce đạt hiệu quả cao
Hướng dẫn triển khai AI trong ứng dụng di động đơn giản
Tạo web bán hàng bằng AI miễn phí, chuẩn SEO, hiệu quả nhất

Mục lục

Tiêu chí đánh giá các mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất

Dưới đây là các tiêu chí để lựa chọn những mô hình chạy cục bộ hiệu quả nhất.

1. Thiết lập thân thiện cho chạy cục bộ

Mô hình phải dễ triển khai trên máy cá nhân thông qua các công cụ như Ollama hoặc Llama.cpp, không cần hạ tầng máy chủ phức tạp hoặc kết nối Internet liên tục. Điều này giúp quá trình thiết lập thuận tiện hơn khi bạn muốn thử nghiệm hoặc xây dựng ứng dụng offline.

2. Khả năng xử lý đa dạng tác vụ thị giác – ngôn ngữ

Mô hình phải thực hiện tốt các tác vụ quan trọng như:

Trả lời câu hỏi dựa trên hình ảnh
Nhận dạng ký tự quang học
Trả lời câu hỏi dựa trên tài liệu dạng hình ảnh

Những tác vụ này phản ánh khả năng suy luận và phân tích thông tin hình ảnh trong bối cảnh thực tế của mô hình.

3. Kích thước mô hình nhỏ gọn

Chúng tôi chỉ chọn các mô hình dưới 20 tỷ tham số để đảm bảo cân bằng giữa hiệu năng và khả năng chạy cục bộ. Các mô hình nhỏ gọn dễ vận hành trên máy tính cá nhân nhưng vẫn mang lại chất lượng cao.

4. Hỗ trợ lượng tử hóa

Các mô hình hỗ trợ GGUF quantization hoặc kỹ thuật lượng tử hóa tương tự được ưu tiên, vì lượng tử hóa:

Giảm bộ nhớ sử dụng
Tăng tốc độ suy luận
Giúp mô hình chạy tốt hơn trên phần cứng không có GPU mạnh

Đây là yếu tố quan trọng khi triển khai mô hình ngôn ngữ thị giác chạy cục bộ.

5. Được duy trì và cập nhật

Yếu tố cuối cùng là mức độ duy trì của mô hình. Những mô hình được cập nhật đều đặn, có cộng đồng mạnh sẽ nhận được:

Tối ưu hiệu năng
Cải thiện độ tương thích
Bản vá lỗi thường xuyên

Điều này đảm bảo khả năng sử dụng lâu dài.

>>> Xem thêm:

Hướng dẫn cách sử dụng Google AI Studio hiệu quả, nhanh chóng
Low Code là gì? Giải pháp phát triển phần mềm và xu hướng tương lai

Các Mô Hình Ngôn Ngữ Thị Giác Chạy Cục Bộ Tốt Nhất

Dưới đây là danh sách những mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất hiện nay.

1. Llama 3.2-Vision (11B)

Llama 3.2 Vision có hai kích thước mô hình: 11B và 90B tham số. Nội dung dưới đây tập trung vào bản 11B, vì nó phù hợp nhất với tiêu chí triển khai cục bộ.

Với kích thước mô hình khoảng 7.8 GB, Llama 3.2 Vision 11B có thể chạy dễ dàng trên hầu hết GPU phổ thông. Khi được lượng tử hóa , dung lượng mô hình còn giảm mạnh hơn nữa nhưng vẫn giữ được hiệu suất cao ở các tác vụ thị giác–ngôn ngữ phức tạp.

Điểm nổi bật khác là cửa sổ ngữ cảnh 128K, cho phép mô hình xử lý và suy luận trên các tài liệu dài, PDF nhiều trang hoặc chuỗi ảnh liên quan — điều rất ấn tượng với một mô hình kích thước nhỏ.

>>> Xem thêm:

Xây dựng quy trình Vision AI nghiên cứu khoa học
Vertex AI là gì? Nền tảng học máy của Google Cloud

bảng đánh giá hiệu năng Llama 3.2 — *Bảng đánh giá hiệu năng Llama 3.2 cho mô hình ngôn ngữ thị giác chạy cục bộ. (Nguồn: Internet)*

Tại thời điểm ra mắt, Llama 3.2 Vision 11B đạt kết quả cực tốt trên nhiều bảng đánh giá, vượt qua các mô hình như Claude 3 Haiku và GPT-4o Mini. Dưới đây là một số điểm benchmark tiêu biểu:

MMMU: 50.7 – cho thấy khả năng hiểu đa phương thức trên nhiều lĩnh vực.
MMMU Pro (Vision): 23.7 – thể hiện sức mạnh trong suy luận thị giác và diễn giải cảnh phức tạp.
MMMU Pro (Standard): 33.0 – chứng minh khả năng kết hợp suy luận văn bản và hình ảnh.
MathVista: 51.5 – hiệu suất mạnh trong các bài toán toán học dựa trên hình ảnh.
DocVQA: 88.4 – xác nhận khả năng đọc tài liệu và nhận diện văn bản trong ảnh.
VQAv2: 75.2 – phản ánh khả năng trả lời câu hỏi dựa trên hình ảnh rất tốt.

2. Qwen2.5-VL

Qwen2.5-VL là dòng mô hình thị giác–ngôn ngữ với 3 phiên bản: 3B, 7B và 72B. Trong đó, 7B là lựa chọn cân bằng nhất về hiệu suất và hiệu quả, với kích thước mô hình khoảng 6 GB và cửa sổ ngữ cảnh 125K, rất phù hợp để chạy cục bộ trên nhiều thiết bị phổ thông.

Điều ấn tượng là bản 7B của Qwen2.5-VL thậm chí vượt qua Llama 3.2 Vision 11B trên nhiều benchmark quan trọng — minh chứng cho chất lượng huấn luyện và tối ưu hóa vượt trội.

MMMU: 58.6 – vượt Llama 3.2 Vision trong suy luận đa phương thức.
MMMU Pro (Vision): 38.3 – mạnh hơn trong nhận thức thị giác và hiểu cảnh phức tạp.
MathVista: 68.2 – vượt Llama 3.2 Vision trong suy luận toán học dựa trên hình ảnh.
DocVQA: 95.7 – độ chính xác cao vượt trội trong đọc tài liệu và OCR.

3. LLaVA-NeXT

Một trong những mô hình VLM nhỏ đầu tiên được chú ý là LLaVA, ban đầu xây dựng trên Vicuna và bộ mã hóa thị giác CLIP.

Kể từ khi phát hành, nhóm phát triển đã liên tục cải tiến, dẫn đến LLaVA-NeXT, có các mức 7B, 13B và 34.75B. Mô hình có nhiều phiên bản sử dụng Vicuna hoặc Qwen làm nền tảng ngôn ngữ.

Nội dung dưới đây tập trung vào bản 7B dùng Qwen, vì nó đem lại hiệu suất mạnh nhưng vẫn nhẹ và hiệu quả.

VQAv2: 82.2 – khả năng trả lời câu hỏi hình ảnh rất tốt.
MMMU: 35.3 – suy luận đa phương thức ổn định.
MathVista: 35.3 – mức độ tốt trong suy luận toán học qua hình ảnh.

Ưu điểm lớn nhất của LLaVA-NeXT là hiệu quả huấn luyện. Mô hình được huấn luyện chỉ với 32 GPU trong khoảng một ngày trên 1.3 triệu mẫu dữ liệu, cho thấy khả năng xây dựng mô hình đa phương thức chất lượng cao mà không cần tài nguyên khổng lồ.

4. Idefics2

Idefics2 là mô hình thị giác–ngôn ngữ mã nguồn mở của Hugging Face, xây dựng trên backbone Mistral-7B và bộ mã hóa thị giác SigLIP. Với 8 tỷ tham số, mô hình cân bằng tốt giữa hiệu suất và khả năng chạy cục bộ.

So với Llama 3.2 Vision 11B, bản 8B Idefics2 cạnh tranh rất tốt trên nhiều benchmark, đặc biệt ở hiểu tài liệu và suy luận văn bản trong hình ảnh.

Khả năng xử lý ảnh độ phân giải cao giúp Idefics2 có lợi thế lớn trong các tác vụ OCR và thị giác chi tiết.

>>> Xem thêm các bài viết khác:

Top 7 Công cụ Theo dõi Đối tượng Mã nguồn mở Tốt Nhất
Top 5 trình soạn thảo mã cho thị giác máy tính tốt nhất

*Hiệu năng benchmark của Idefics2. (Nguồn: Internet)*

MMMU: 43.0 – suy luận đa phương thức mạnh, vượt Llama 3.2 Vision 11B.
MathVista: 51.4 – xuất sắc trong toán học và suy luận thị giác.
TextVQA: 73.0 – khả năng hiểu văn bản trong hình ảnh rất tốt.
MMBench: 76.7 – khả năng hiểu thị giác–ngôn ngữ toàn diện.

5. MiniCPM-V 2.6

MiniCPM-V 2.6 là phiên bản mạnh nhất của dòng MiniCPM-V. Được xây dựng trên SigLIP-400M và Qwen2-7B, mô hình này có 8B tham số, với nhiều cải tiến quan trọng về hiệu quả, suy luận đa phương thức và hiểu thị giác.

>>> Xem thêm: Xây Dựng Mô Hình Ngôn Ngữ Thị Giác với Next.js & Roboflow

Benchmark MiniCPM-V 2.6 dành cho mô hình ngôn ngữ thị giác chạy cục bộ. (Nguồn: Internet)

MiniCPM-V 2.6 có kích thước khoảng 5.5 GB, thuộc nhóm VLM nhỏ phù hợp nhất để chạy cục bộ. Cửa sổ ngữ cảnh 32K giúp xử lý tốt các tác vụ đa phương thức dài.

Mô hình xử lý ảnh lên tới 1.8 triệu pixel và đạt kết quả top-tier trên OCRBench, với tỉ lệ ảo giác thấp cực kỳ phù hợp cho các ứng dụng OCR.

6. InternVL

Dòng mô hình InternVL được thiết kế nhằm thu hẹp khoảng cách giữa hệ thống mã nguồn mở và các mô hình đa phương thức độc quyền. Đúng với mục tiêu đó, InternVL cạnh tranh trực tiếp với các mô hình hàng đầu như GPT-4V trong khả năng suy luận thị giác.

>>> Xem thêm: TOP 20 công cụ Chat AI tiếng Việt miễn phí thông minh phổ biến

*So sánh InternVL và GPT-4v trên DocVQA. (Nguồn: Internet)*

InternVL 3.5 có các phiên bản từ 1B đến 15B tham số, và bao gồm cả biến thể Mixture of Experts, điển hình như InternVL 3.5-20B-A4B: tổng 20B tham số nhưng chỉ kích hoạt 4B khi suy luận, một trong những thiết kế VLM nhỏ linh hoạt nhất hiện nay.

Benchmark cho các phiên bản InternVL trong mô hình ngôn ngữ thị giác chạy cục bộ. (Nguồn: Internet)

7. SmolVLM2

Không có mô hình nào trong danh sách nhỏ hơn SmolVLM2 — đây là mô hình ngôn ngữ thị giác nhỏ nhất từng được phát hành.

SmolVLM2 có ba kích thước: 256M, 500M, và 2.2B tham số.

Nhờ hiệu suất cực cao, SmolVLM2 rất lý tưởng để chạy cục bộ trên thiết bị có tài nguyên hạn chế. Ví dụ, bản 256M chỉ dùng dưới 1GB VRAM khi suy luận.

>>> Xem thêm:

TOP 25 công cụ AI miễn phí, phổ biến, tốt nhất hiện nay
Cách sử dụng AI trong phát triển phần mềm như thế nào?

*SmolVLM2 vượt trội hơn thế hệ trước. (Nguồn: Internet)*

Ngoài hình ảnh tĩnh, SmolVLM2 còn hỗ trợ hiểu video, có thể xử lý nhiều khung hình và thực hiện các tác vụ như phân tích CCTV, tóm tắt video hoặc trả lời câu hỏi dựa trên nội dung video.

Chạy SMOLVLM2 Trên Roboflow Inference

Sau khi đã xem danh sách các mô hình, bây giờ chúng ta sẽ tìm hiểu cách chạy một trong số đó là SMOLVLM2 bằng Roboflow Inference.

Roboflow cung cấp nhiều cách khác nhau để chạy VLMs: bạn có thể dùng Roboflow Workflows để xây dựng pipeline xử lý thị giác hoàn chỉnh chạy trên cloud, hoặc tự lưu trữ engine suy luận cục bộ để kiểm soát hoàn toàn.

Trong ví dụ này, chúng ta sẽ không thiết lập server đầy đủ, mà chỉ trình bày cách chạy mô hình nhỏ nhất trong danh sách SMOLVLM2 để thực hiện một tác vụ hiểu tài liệu đơn giản trong môi trường Google Colab free-tier.

Bước 1: Cài đặt Roboflow Inference

Bắt đầu bằng cách cài phiên bản Roboflow Inference hỗ trợ GPU:

pip install inference-gpu[transformers]

Bước 2: Chuẩn bị một hình ảnh mẫu

hóa đơn mẫu để dùng trong bài kiểm thử — *Hóa đơn mẫu để dùng trong bài kiểm thử. (Nguồn: Internet)*

Trong bài kiểm thử này, chúng ta sẽ sử dụng một hình ảnh đơn giản của hoá đơn để xem SMOLVLM2 xử lý trích xuất thông tin có cấu trúc như thế nào.

Bước 3: Import các thư viện cần thiết

from PIL import Image

from inference.models.smolvlm.smolvlm import SmolVLM

Bước 4: Khởi tạo mô hình

Tạo một instance mô hình và xác thực bằng API key Roboflow của bạn.

pg = SmolVLM(api_key=”YOUR_API_KEY”)

Bước 5: Tải hình ảnh

image = Image.open(“PATH_TO_IMAGE”)

Bước 6: Trích xuất thông tin bằng Prompt

Giờ chúng ta sẽ dùng prompt để yêu cầu mô hình trích xuất mô tả sản phẩm, giá và số lượng từ hoá đơn.

prompt = “Extract the description, price, and quantity of all items?”

result = pg.predict(image,prompt)

print(result)

*Kết quả mô hình SMOLVM2. (Nguồn: Internet)*

SMOLVLM2 đã trích xuất thành công văn bản và các thông tin số liên quan từ hình ảnh, cho thấy khả năng thực hiện tác vụ hiểu tài liệu chính xác đáng kể, ngay cả khi chạy trên phần cứng nhẹ như GPU miễn phí của Google Colab.

Kết luận: Các Mô Hình Ngôn Ngữ Thị Giác Chạy Cục Bộ Tốt Nhất

Các mô hình ngôn ngữ thị giác chạy cục bộ đã chứng minh rằng khả năng suy luận đa phương thức mạnh mẽ không nhất thiết phải đi kèm chi phí tính toán lớn.

Ngày nay, có một thế hệ mô hình VLM nhẹ, có thể xử lý các tác vụ thị giác–ngôn ngữ phức tạp một cách hiệu quả giúp AI tiên tiến trở nên dễ tiếp cận hơn bao giờ hết.

Nguồn tham khảo: Best Local Vision-Language Models for Offline AI

TOT là đơn vị tiên phong trong hành trình chuyển đổi số. Chúng tôi mang đến giải pháp thiết kế website, mobile app và viết phần mềm theo yêu cầu với dịch vụ linh hoạt, tối ưu theo đúng nhu cầu của doanh nghiệp.

Lấy cảm hứng từ triết lý “Công nghệ vì con người”, TOT giúp doanh nghiệp vận hành hiệu quả hơn, nâng tầm trải nghiệm khách hàng và tạo dấu ấn bền vững cho thương hiệu.

Thông tin liên hệ TopOnTech (TOT):

🌐 Website TOT

📞 Hotline/WhatsApp/Zalo: 0906 712 137

✉️ Email: long.bui@toponseek.com

🏢 Địa chỉ: 31 Hoàng Diệu, Phường 12, Quận 4, Thành phố Hồ Chí Minh, Việt Nam

Bài viết liên quan

Hướng dẫn tạo ứng dụng AI với vibe coding trên Google AI Studio dễ dàng

AI Agents cho Startup: Lợi ích và trường hợp sử dụng phổ biến

Chi phí thiết kế website bán hàng là bao nhiêu? Bảng giá & Chi tiết các hạng mục

Thiết kế website ô tô chuyên nghiệp, chuẩn SEO, uy tín nhất Việt Nam

Tổng hợp danh sách DNS tốt, nhanh nhất hiện nay

Authentication là gì? So sánh điểm khác biệt giữa Authentication và Authorization

Dang Vo

Tôi có hơn 3 năm kinh nghiệm SEO trong lĩnh vực công nghệ, từng tham gia nhiều dự án tối ưu và phát triển website. Với nền tảng vững chắc về công nghệ và digital marketing, tôi mong muốn chia sẻ kiến thức và kinh nghiệm của mình để giúp người đọc hiểu, ứng dụng và khai thác hiệu quả sức mạnh của công nghệ.

View all posts by Dang Vo

Bạn đã sẵn sàng chưa?

Cùng TOT bắt đầu hành trình xây dựng dự án ngay hôm nay!

Gửi tin nhắn cho chúng tôi. Chúng tôi sẽ đề xuất giải pháp để nâng tầm doanh nghiệp của bạn.

Sự khác biệt:

Đặt lịch tư vấn miễn phí

Họ

Tên

Công ty / Tổ chức

Email công ty

Số điện thoại

Chúng tôi có thể giúp gì cho bạn?

Yêu cầu của bạn

Các mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất

Tiêu chí đánh giá các mô hình ngôn ngữ thị giác chạy cục bộ tốt nhất

1. Thiết lập thân thiện cho chạy cục bộ

2. Khả năng xử lý đa dạng tác vụ thị giác – ngôn ngữ

3. Kích thước mô hình nhỏ gọn

4. Hỗ trợ lượng tử hóa

5. Được duy trì và cập nhật

Các Mô Hình Ngôn Ngữ Thị Giác Chạy Cục Bộ Tốt Nhất

1. Llama 3.2-Vision (11B)

2. Qwen2.5-VL

3. LLaVA-NeXT

4. Idefics2

5. MiniCPM-V 2.6

6. InternVL

7. SmolVLM2

Chạy SMOLVLM2 Trên Roboflow Inference

Bước 1: Cài đặt Roboflow Inference

Bước 2: Chuẩn bị một hình ảnh mẫu

Bước 3: Import các thư viện cần thiết

Bước 4: Khởi tạo mô hình

Bước 5: Tải hình ảnh

Bước 6: Trích xuất thông tin bằng Prompt

Kết luận: Các Mô Hình Ngôn Ngữ Thị Giác Chạy Cục Bộ Tốt Nhất

Bài viết liên quan

Dang Vo

Bài viết liên quan

Bạn đã sẵn sàng chưa?

Cùng TOT bắt đầu hành trình xây dựng dự án ngay hôm nay!

Sự khác biệt:

Đặt lịch tư vấn miễn phí

Dịch vụ bảo trì Website

Tối ưu tốc độ tải trang

Nâng cấp chuẩn WCAG

Nâng cấp bảo mật Website

Tối ưu hiệu suất Website

Inactive

Enterprise solutions

Thiết kế Website

Viết phần mềm theo yêu cầu

Thiết kế App Mobile

Dịch vụ UI UX & CRO

Ô tô

Giáo dục

Y tế

Bán lẻ