Tìm hiểu về mô hình Claude 3.7 Sonnet & Claude Code

Tìm hiểu về mô hình Claude 3.7 Sonnet

Trong bối cảnh các mô hình AI ngày càng được tích hợp sâu vào quy trình phát triển phần mềm và vận hành doanh nghiệp, Anthropic đã giới thiệu Claude 3.7 Sonnet như một bước nâng cấp đáng chú ý trong năng lực suy luận và lập trình. Không chỉ kết hợp phản hồi nhanh với khả năng suy nghĩ mở rộng theo từng bước, phiên bản này còn đi kèm Claude Code – công cụ hỗ trợ lập trình tự động ngay trên dòng lệnh. Những thay đổi này cho thấy định hướng rõ ràng của Anthropic trong việc đưa trí tuệ nhân tạo tiến gần hơn tới môi trường làm việc thực tế. Hãy cùng TOT tìm hiểu chi tiết qua bài viết sau! 

>>> Tìm hiểu thêm:

Mở đầu 

Mới đây, Anthropic vừa công bố Claude 3.7 Sonnet¹ – được giới thiệu là mô hình thông minh nhất của hãng tính đến thời điểm hiện tại, đồng thời cũng là mô hình suy luận lai (hybrid reasoning model) đầu tiên trên thị trường. Claude 3.7 Sonnet có khả năng tạo ra các phản hồi gần như tức thời, hoặc thực hiện quá trình suy nghĩ mở rộng theo từng bước và hiển thị quá trình suy nghĩ đó cho người dùng. Người dùng API cũng có thể kiểm soát chi tiết thời gian suy luận của mô hình. 

Theo Anthropic, Claude 3.7 Sonnet thể hiện những cải thiện đáng kể trong lập trình và phát triển web front-end. Song song với mô hình này, hãng cũng giới thiệu Claude Code, một công cụ dòng lệnh dành cho lập trình tự động. Claude Code hiện được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn, cho phép các nhà phát triển giao phó các tác vụ kỹ thuật phức tạp cho Claude trực tiếp từ terminal của họ.

Claude 3.7 Sonnet hiện đã có mặt trên tất cả các gói dịch vụ của Claude, bao gồm Free, Pro, Team và Enterprise, cũng như trên nền tảng phát triển Claude, Amazon Bedrock và Vertex AI của Google Cloud. Chế độ suy nghĩ mở rộng có sẵn trên tất cả các nền tảng, ngoại trừ gói Claude miễn phí.

Ở cả chế độ tiêu chuẩn và chế độ suy nghĩ mở rộng, Claude 3.7 Sonnet có mức giá giống với các phiên bản tiền nhiệm: 3 USD cho mỗi một triệu token đầu vào và 15 USD cho mỗi một triệu token đầu ra – mức giá này đã bao gồm cả token dùng cho quá trình suy nghĩ.

Ảnh chụp màn hình hiển thị quy trình của Claude Code
Màn hình hiển thị quy trình onboarding của Claude Code (Nguồn: Anthropic)

>> Xem thêm: 

Claude 3.7 Sonnet: Khả năng suy luận tiên tiến được ứng dụng vào thực tế

Anthropic cho biết Claude 3.7 Sonnet được phát triển theo một triết lý khác so với các mô hình suy luận khác hiện có trên thị trường. Cũng giống như con người sử dụng một bộ não duy nhất cho cả phản hồi nhanh và suy nghĩ sâu, hãng tin rằng khả năng suy luận nên được tích hợp trực tiếp vào các mô hình tiên phong, thay vì tách thành một mô hình riêng biệt. Theo lập luận này, cách tiếp cận thống nhất giúp mang lại trải nghiệm liền mạch hơn cho người dùng.

Triết lý này được phản ánh qua nhiều đặc điểm của Claude 3.7 Sonnet, cụ thể: 

Thứ nhất, Claude 3.7 Sonnet vừa là một mô hình ngôn ngữ lớn (Large Language Model – LLM), vừa là một mô hình suy luận trong cùng một hệ thống. Cụ thể: Bạn có thể lựa chọn khi nào muốn mô hình trả lời bình thường và khi nào muốn nó suy nghĩ lâu hơn trước khi đưa ra câu trả lời. 

Ở chế độ tiêu chuẩn, Claude 3.7 Sonnet là phiên bản nâng cấp của Claude 3.5 Sonnet. Ở chế độ suy nghĩ mở rộng, mô hình sẽ tự phản tư trước khi trả lời, từ đó cải thiện hiệu suất trong các bài toán toán học, vật lý, làm theo hướng dẫn, lập trình và nhiều tác vụ khác. Theo Anthropic, cách thiết kế prompt cho mô hình nhìn chung không khác biệt nhiều giữa hai chế độ. 

Thứ hai, khi sử dụng Claude 3.7 Sonnet thông qua API, người dùng có thể kiểm soát ngân sách cho quá trình suy luận: bạn có thể yêu cầu Claude suy nghĩ không quá N token, với giá trị N có thể lên tới giới hạn đầu ra 128.000 token. Điều này cho phép bạn đánh đổi giữa tốc độ (và chi phí) với chất lượng câu trả lời.

Thứ ba, trong quá trình phát triển các mô hình suy luận, Anthropic ít tập trung hơn vào các bài toán thi đấu toán học và khoa học máy tính, mà chuyển trọng tâm sang các tác vụ thực tế, phản ánh sát hơn cách doanh nghiệp sử dụng LLM trong thực tiễn.

Theo các thử nghiệm ban đầu cho thấy Claude dẫn đầu toàn diện về khả năng lập trình. Dưới đây là một số đánh giá và nhận định về Claude:

  • Cursor nhận định Claude một lần nữa đứng đầu trong các tác vụ lập trình lập trình thực tế, với cải tiến đáng kể từ việc xử lý codebase phức tạp cho đến sử dụng công cụ nâng cao.
  • Cognition nhận định Claude vượt trội hơn tất cả các mô hình khác trong việc lập kế hoạch thay đổi mã nguồn và xử lý các bản cập nhật cho toàn bộ hệ thống.
  • Vercel đánh giá cao độ chính xác vượt trội của Claude trong các quy trình làm việc phức tạp từ các tác nhân (agent), trong khi Replit đã triển khai thành công Claude để xây dựng các ứng dụng web và bảng điều khiển phức tạp từ đầu – những tác vụ mà các mô hình khác thường bị “đứng hình”.
  • Trong các đánh giá của Canva, Claude liên tục tạo ra mã nguồn sẵn sàng cho môi trường sản xuất với phong cách thiết kế tốt hơn và giảm đáng kể lỗi phát sinh.
Ảnh kết quả hiển thị đánh giá state of the art trên SWE-bench Verified 
Biểu đồ cột thể hiện Claude 3.7 Sonnet đạt state-of-the-art trên SWE-bench Verified (Nguồn: Anthropic)

Claude 3.7 Sonnet được báo cáo là đạt hiệu suất dẫn đầu (state-of-the-art) trên SWE-bench Verified, một bộ benchmark đánh giá khả năng giải quyết các vấn đề phần mềm thực tế của các mô hình AI. Thông tin chi tiết về scaffolding được trình bày trong phần phụ lục.

Ảnh kết quả hiển thị đánh giá state of the art trên TAU-bench 
Biểu đồ cột thể hiện Claude 3.7 Sonnet đạt state-of-the-art trên TAU-bench (Nguồn: Anthropic)

Claude 3.7 Sonnet cũng đạt state-of-the-art trên TAU-bench, một framework kiểm thử các AI agent trong các tác vụ thực tế phức tạp có tương tác với người dùng và công cụ. Xem phụ lục để biết thêm thông tin về scaffolding.

Ảnh so sánh các mô hình suy luận tiêu chuẩn 
Bảng tiêu chuẩn so sánh các mô hình suy luận tiên phong (Nguồn: Anthropic) 

Claude 3.7 Sonnet vượt trội trên nhiều khía cạnh, bao gồm tuân thủ chỉ dẫn, suy luận tổng quát, khả năng đa phương thức và lập trình tác nhân. Trong đó chế độ suy nghĩ mở rộng mang lại cải thiện rõ rệt cho toán học và khoa học. Ngoài các tiêu chuẩn truyền thống, mô hình này thậm chí còn vượt qua tất cả các phiên bản trước đó trong các bài kiểm tra chơi game Pokémon của Anthropic. 

>> Xem thêm:

Claude Code

Theo Anthropic, kể từ tháng 6 năm 2024, Sonnet đã trở thành lựa chọn phổ biến của cộng đồng phát triển trên toàn thế giới. Với Claude Code, hãng giới thiệu công cụ lập trình tự động đầu tiên của mình dưới dạng bản xem trước nghiên cứu.

Claude Code được mô tả như một cộng tác viên chủ động, có khả năng tìm kiếm và đọc mã nguồn, chỉnh sửa tệp, viết và chạy thử nghiệm, cam kết và đẩy mã nguồn lên GitHub và sử dụng các công cụ dòng lệnh, trong khi vẫn cho phép nhà phát triển theo dõi toàn bộ quá trình. 

Video giới thiệu về Claude Code (Nguồn: Anthropic)

 Claude Code hiện vẫn là một sản phẩm giai đoạn đầu, nhưng đã trở nên không thể thiếu đối với đội ngũ của Anthropic, đặc biệt trong phát triển hướng kiểm thử, gỡ những lỗi phức tạp và tái cấu trúc ở quy mô lớn. Trong giai đoạn thử nghiệm ban đầu, Claude Code đã hoàn thành những tác vụ mà thông thường cần hơn 45 phút làm thủ công, chỉ trong một lần chạy duy nhất, giúp giảm đáng kể thời gian phát triển và chi phí vận hành. 

Anthropic cho biết trong thời gian tới, Claude Code sẽ tiếp tục được cải thiện dựa trên quá trình sử dụng thực tế, bao gồm: nâng cao độ tin cậy của việc gọi công cụ, bổ sung hỗ trợ cho các lệnh chạy dài, cải thiện khả năng hiển thị trong ứng dụng và mở rộng hiểu biết của chính Claude về năng lực của nó.

Mục tiêu của bản preview này là giúp Anthropic hiểu rõ hơn cách các nhà phát triển sử dụng Claude trong lập trình, từ đó phục vụ cho việc cải tiến mô hình trong tương lai. Khi tham gia bản preview này, bạn sẽ có quyền truy cập vào chính những công cụ mạnh mẽ mà Anthropic dùng để xây dựng và cải tiến Claude, và phản hồi của bạn sẽ trực tiếp đến định hướng phát triển sản phẩm. 

>> Tham khảo thêm:

Làm việc với Claude trên codebase 

Anthropic cũng công bố việc cải thiện trải nghiệm lập trình trên Claude.ai. Tính năng tích hợp GitHub hiện đã có mặt trên tất cả các gói Claude, cho phép kết nối trực tiếp repository với mô hình.

Claude 3.7 Sonnet được giới thiệu là mô hình lập trình mạnh nhất của Anthropic cho đến nay. Với khả năng hiểu sâu hơn về các dự án cá nhân, dự án công việc và mã nguồn mở, mô hình này được kỳ vọng sẽ hỗ trợ hiệu quả hơn trong việc sửa lỗi, phát triển tính năng và xây dựng tài liệu.

Phát triển và triển khai có trách nhiệm 

Anthropic cho biết họ đã tiến hành kiểm thử và đánh giá toàn diện Claude 3.7 Sonnet, phối hợp cùng các chuyên gia bên ngoài để đảm bảo mô hình đáp ứng các tiêu chuẩn về bảo mật, an toàn và độ tin cậy. Claude 3.7 Sonnet cũng đưa ra các phân biệt tinh tế hơn giữa yêu cầu có hại và vô hại, giúp giảm 45% các từ chối không cần thiết so với phiên bản tiền nhiệm.

System card của bản phát hành này bao gồm các kết quả an toàn mới ở nhiều danh mục, cung cấp phân tích chi tiết về các đánh giá trong Responsible Scaling Policy, có thể được các phòng thí nghiệm AI và nhà nghiên cứu khác áp dụng. 

Tài liệu này cũng đề cập đến các rủi ro mới phát sinh từ việc sử dụng máy tính, đặc biệt là tấn công prompt injection, đồng thời giải thích cách Anthropic đánh giá các lỗ hổng này và huấn luyện Claude để chống lại cũng như giảm thiểu chúng. 

Ngoài ra, system card còn xem xét các lợi ích an toàn tiềm năng từ mô hình suy luận, bao gồm khả năng hiểu cách mô hình đưa ra quyết định và đánh giá mức độ đáng tin cậy, ổn định của quá trình suy luận. Hãy đọc toàn bộ system card để tìm hiểu thêm.

Triển vọng trong tương lai 

Theo Anthropic, Claude 3.7 Sonnet và Claude Code đại diện cho một bước tiến hướng tới các hệ thống AI có khả năng mở rộng năng lực con người. Với khả năng suy luận sâu, hoạt động tương đối tự chủ và cộng tác hiệu quả, các hệ thống này được kỳ vọng sẽ góp phần mở rộng phạm vi những gì con người có thể thực hiện với sự hỗ trợ của AI.

Anthropic khuyến khích cộng đồng khám phá các năng lực mới này và tiếp tục đóng góp phản hồi để hoàn thiện mô hình trong tương lai. 

Ảnh minh hoạ mốc thời gian dự đoán về triển vọng của Claude trong tương lai 
Mốc thời gian thể hiện quá trình Claude tiến hóa từ trợ lý đến người tiên phong (Nguồn: Anthropic)

>> Xem thêm:

Phụ lục

Nguồn dữ liệu đánh giá

TAU-bench

Thông tin về scaffolding

Các điểm số đạt được thông qua việc bổ sung một phần prompt vào Airline Agent Policy, hướng dẫn Claude sử dụng tốt hơn công cụ lập kế hoạch, trong đó mô hình được khuyến khích ghi lại suy nghĩ của mình khi giải quyết vấn đề, tách biệt với chế độ suy nghĩ thông thường, trong các chuỗi tương tác nhiều lượt nhằm tận dụng tối đa khả năng suy luận. 

Để đáp ứng các bước bổ sung phát sinh khi Claude sử dụng nhiều suy nghĩ hơn, số bước tối đa (được tính bằng số lần hoàn thành của mô hình) đã được tăng từ 30 lên 100 (phần lớn các chuỗi hoàn thành dưới 30 bước, chỉ một chuỗi vượt quá 50 bước).

Ngoài ra, điểm TAU-bench của Claude 3.5 Sonnet (phiên bản mới) khác với kết quả công bố ban đầu do các cải tiến nhỏ của tập dữ liệu kể từ thời điểm phát hành. Anthropic đã chạy lại trên tập dữ liệu cập nhật để so sánh chính xác hơn với Claude 3.7 Sonnet.

SWE-bench

Thông tin về scaffolding

Có nhiều cách tiếp cận để giải quyết các tác vụ agentic mở như SWE-bench. Một số phương pháp chuyển phần lớn độ phức tạp của việc quyết định file cần kiểm tra, chỉnh sửa và các test cần chạy sang phần mềm truyền thống, để mô hình ngôn ngữ cốt lõi chỉ tập trung vào việc sinh mã tại các vị trí xác định trước hoặc lựa chọn từ một tập hành động hạn chế.

Agentless (Xia et al., 2024) là một framework phổ biến, được sử dụng trong đánh giá Deepseek R1 và nhiều mô hình khác. Framework này bổ sung cho agent các cơ chế truy xuất file dựa trên prompt và embedding, định vị patch, và rejection sampling best-of-40 dựa trên regression test. Các scaffold khác (ví dụ: Aide) còn bổ sung thêm năng lực tính toán trong giai đoạn test, như retry, best-of-N hoặc Monte Carlo Tree Search (MCTS).

Theo Anthropic, đối với Claude 3.7 Sonnet và Claude 3.5 Sonnet (phiên bản mới), công ty áp dụng một cách tiếp cận đơn giản hơn đáng kể với mức scaffolding tối thiểu, trong đó mô hình tự quyết định các lệnh cần chạy và các file cần chỉnh sửa trong một phiên duy nhất. Kết quả pass@1 “không dùng suy nghĩ mở rộng” được báo cáo chỉ trang bị cho mô hình hai công cụ được mô tả — một công cụ bash và một công cụ chỉnh sửa file dựa trên thay thế chuỗi — cùng với công cụ “planning” đã được đề cập trong kết quả TAU-bench.

Do hạn chế về hạ tầng, chỉ 489/500 bài toán thực sự có thể giải được trên hạ tầng nội bộ của Anthropic (tức là lời giải chuẩn có thể vượt qua test). Để đảm bảo tương thích với bảng xếp hạng chính thức, trong điểm pass@1 tiêu chuẩn, 11 bài không thể giải được vẫn được tính là thất bại. Nhằm đảm bảo tính minh bạch, công ty công bố riêng các test case không hoạt động trên hạ tầng của mình.

Đối với kết quả “high compute”, Anthropic cho biết họ áp dụng thêm độ phức tạp và tính toán song song trong giai đoạn test như sau:

  • Lấy mẫu nhiều lần thử song song với scaffold đã nêu
  • Loại bỏ các patch làm hỏng regression test hiển thị trong repository, tương tự phương pháp rejection sampling của Agentless (không sử dụng thông tin từ test ẩn)
  • Xếp hạng các lần thử còn lại bằng một mô hình chấm điểm tương tự các kết quả GPQA và AIME được mô tả trong bài nghiên cứu của họ, sau đó chọn phương án tốt nhất để nộp

Theo báo cáo, cách làm này đạt 70,3% trên tập con 489 tác vụ đã được xác minh hoạt động trên hạ tầng nội bộ. Nếu không sử dụng scaffold này, Claude 3.7 Sonnet đạt 63,7% trên SWE-bench Verified với cùng tập con.

11 test case bị loại do không tương thích với hạ tầng nội bộ bao gồm:

  • scikit-learn__scikit-learn-14710
  • django__django-10097
  • psf__requests-2317
  • sphinx-doc__sphinx-10435
  • sphinx-doc__sphinx-7985
  • sphinx-doc__sphinx-8475
  • matplotlib__matplotlib-20488
  • astropy__astropy-8707
  • astropy__astropy-8872
  • sphinx-doc__sphinx-8595

>>> Tìm hiểu thêm: 

Nhìn chung, Claude 3.7 Sonnet đánh dấu một bước tiến đáng chú ý trong việc đưa AI đến gần hơn với môi trường làm việc thực tế. Với khả năng suy luận linh hoạt, phản hồi nhanh và công cụ hỗ trợ lập trình như Claude Code, Claude 3.7 hứa hẹn sẽ trở thành trợ lý AI hữu ích cho lập trình viên và doanh nghiệp trong quá trình phát triển sản phẩm và tối ưu quy trình làm việc.

>>> Nguồn tham khảo: Claude 3.7 Sonnet and Claude Code

TOT là đơn vị tiên phong trong hành trình chuyển đổi số. Chúng tôi mang đến giải pháp thiết kế website, mobile appviết phần mềm theo yêu cầu với dịch vụ linh hoạt, tối ưu theo đúng nhu cầu của doanh nghiệp. 

Lấy cảm hứng từ triết lý “Công nghệ vì con người”, TOT giúp doanh nghiệp vận hành hiệu quả hơn, nâng tầm trải nghiệm khách hàng và tạo dấu ấn bền vững cho thương hiệu.

Thông tin liên hệ TopOnTech (TOT):

🌐 Website TOT

📞 Hotline/WhatsApp/Zalo: 0906 712 137

✉️ Email: long.bui@toponseek.com🏢 Địa chỉ:31 Đường Hoàng Diệu, Phường Xóm Chiếu, TP. Hồ Chí Minh, Việt Nam

Liên hệ

Bạn đã sẵn sàng chưa?

Cùng TOT bắt đầu hành trình xây dựng dự án ngay hôm nay!

Gửi tin nhắn cho chúng tôi. Chúng tôi sẽ đề xuất giải pháp để nâng tầm doanh nghiệp của bạn.

Sự khác biệt:

Đặt lịch tư vấn miễn phí