Nền tảng AI nào tạo hình ảnh chân thực hơn? ChatGPT hay DeepSeek?

ChatGPT hay DeepSeek: Nền tảng AI nào tạo ra hình ảnh chân thực nhất?

Trí tuệ nhân tạo (AI) đang thay đổi cách chúng ta sáng tạo nghệ thuật số và thiết kế. Với sự hỗ trợ của AI tạo sinh, bạn có thể dễ dàng tạo ra những tác phẩm ấn tượng ngay trên máy tính bảng hay Chromebook. Bài viết này, XTmobile sẽ so sánh hai mô hình nổi bật là Janus-Pro-7B (của DeepSeek) và DALL·E 3 (của ChatGPT) để tìm hiểu xem nền tảng nào tạo ra hình ảnh chân thực hơn.

DALL·E 3 sử dụng mô hình khuếch tán và ChatGPT để tạo hình ảnh

DALL·E 3 là một mô hình tạo sinh sử dụng kỹ thuật khuếch tán, được huấn luyện trên bộ dữ liệu đa dạng và phong phú. Nhờ đó, nó có khả năng tạo ra những hình ảnh chi tiết với nhiều phong cách nghệ thuật khác nhau. Điểm nổi bật của DALL·E 3 là sự kết hợp chặt chẽ với ChatGPT, tận dụng khả năng xử lý ngôn ngữ và các mô hình transformer lớn. Điều này giúp nó hiểu và diễn giải những mô tả phức tạp một cách chính xác hơn về mặt ngữ nghĩa.

DALL·E 3 sử dụng mô hình khuếch tán và ChatGPT để tạo hình ảnh

Tuy nhiên, DALL·E 3 được tối ưu chủ yếu cho việc tạo hình ảnh, chứ không có khả năng xử lý hay phân tích hình ảnh như một số mô hình đa phương tiện khác. ChatGPT có thể hiểu hình ảnh nhờ vào các mô hình thị giác bổ sung từ OpenAI, nhưng những mô hình này hoạt động riêng lẻ và không phải là một phần của DALL·E 3.

Janus-Pro-7B phân tách việc phân tích hình ảnh và tạo hình ảnh

Janus-Pro-7B, được phát triển bởi DeepSeek, là một mô hình tạo sinh với 7 tỷ tham số. Mạng nơ-ron của nó được huấn luyện để cho ra kết quả chính xác và có cấu trúc rõ ràng. Điểm đặc biệt của mô hình Janus-Pro-7B nằm ở thiết kế tách biệt: một bộ mã hóa để hiểu hình ảnh và một bộ khác để tạo hình ảnh từ văn bản.

Bộ mã hóa hiểu hình ảnh (Understanding Encoder) phân tích hình ảnh, nhận diện đối tượng và xác định mối quan hệ giữa chúng. Nó có thể quan sát một bức ảnh, nhận diện các vật thể, con người hoặc cảnh quan, sau đó chuyển đổi thành mô tả văn bản có ý nghĩa.
Bộ mã hóa tạo hình ảnh (Generation Encoder) tiếp nhận mô tả văn bản và chuyển nó thành các yếu tố trực quan, cho phép mô hình tạo hình ảnh bám sát theo yêu cầu của người dùng.

Janus-Pro-7B phân tách việc phân tích hình ảnh và tạo hình ảnh

Nhờ thiết kế này, Janus-Pro-7B không chỉ tạo hình ảnh mà còn xử lý cả văn bản và hình ảnh, khác với DALL·E 3 vốn chỉ tập trung vào tạo ảnh.

Độ chân thực của ảnh từ Janus-Pro-7B và DALL·E 3

Yêu cầu: Một bức ảnh chân thực về một chậu xương rồng và một chiếc xe đạp.

DALL·E 3 tạo ra một hình ảnh có ánh sáng được kiểm soát quá mức, thiếu đi những chi tiết tự nhiên vốn có ở bên ngoài đời thực. Ngay cả khi điều chỉnh mô tả để tăng độ thực tế, kết quả vẫn không được nhu mong đợi. Ngoài ra, DALL·E 3 còn tự động thêm vào một số chi tiết khác ngoài yêu cầu như một chiếc máy ảnh và một chậu cây khác. Điều này cho thấy mô hình có xu hướng sáng tạo tự do thay vì bám sát tính chân thực.

Độ chân thực của ảnh từ Janus-Pro-7B và DALL·E 3

Mặt khác, Janus-Pro-7B tạo ra một hình ảnh có độ sâu trường ảnh hợp lý, giúp phông nền trở nên mờ tự nhiên, mang lại cảm giác giống ảnh chụp thực tế. Các chi tiết như ánh sáng, kết cấu bề mặt và phản chiếu trên xe đạp đều rất chân thực. Nhìn chung, Janus-Pro-7B vượt trội về độ thực tế nhờ giữ đúng yêu cầu và tái hiện chi tiết trung thực.

Độ chân thực của ảnh từ Janus-Pro-7B và DALL·E 3

Cách bố trí không gian giữa DALL·E 3 và Janus-Pro-7B

Yêu cầu: Một hình ảnh có chó đen bên trái, mèo ở giữa và chuột ở bên phải.

Hình ảnh bên dưới do ChatGPT tạo ra mô tả một khung cảnh ngoài trời có sự xuất hiện của chó đen, mèo và chuột. Tuy nhiên, thay vì sắp xếp theo đúng thứ tự yêu cầu (trái – giữa – phải), mô hình chỉ tuân theo một cách tương đối, không hoàn toàn chính xác.

Cách bố trí không gian giữa DALL·E 3 và Janus-Pro-7B

DeepSeek bám sát yêu cầu và sắp xếp các đối tượng đúng theo vị trí mô tả. Tuy nhiên, hình ảnh của DeepSeek có độ phân giải thấp hơn và ít tinh tế hơn so với ChatGPT. Điều này cho thấy Janus-Pro-7B có xu hướng tuân thủ chính xác bố cục mô tả, trong khi DALL·E 3 có xu hướng sáng tạo và điều chỉnh bố cục theo phong cách nghệ thuật hơn.

Cách bố trí không gian giữa DALL·E 3 và Janus-Pro-7B

So sánh với yêu cầu phức tạp có nhiều yếu tố

Yêu cầu: Một chú mèo cam lông xù với đôi mắt xanh, nằm thư giãn trên lối đi lát đá trong một khu vườn Nhật Bản.

Các mô hình AI xử lý các đề xuất phức tạp sẽ phân tích nhiều chi tiết và yêu cầu khác nhau để tạo hình ảnh. Trong các bài kiểm tra, Janus-Pro-7B đạt 84.19 điểm trên DPG-Bench, trong khi DALL·E 3 đạt 83.50, cho thấy cả hai đều có khả năng tạo ra hình ảnh gần như nhau.

So sánh với yêu cầu phức tạp có nhiều yếu tố

Tuy nhiên, khi so sánh trực tiếp với cùng một yêu cầu, có sự khác biệt về cách hiểu và cách hoàn thiện hình ảnh. DALL-E 3 (ChatGPT) thể hiện hầu hết các chi tiết được yêu cầu, như hoa anh đào, lối đi bằng đá, khu vườn Nhật Bản với chùa và cầu. Song, dù bố cục tổng thể rất đẹp, nhưng hình ảnh chú mèo lại trông không thật lắm.

So sánh với yêu cầu phức tạp có nhiều yếu tố

Janus-Pro-7B (DeepSeek) đáp ứng hầu hết mọi yếu tố nhưng bỏ qua một số chi tiết đặc trưng trong cảnh quan là chùa và cây cầu. Ngoài ra, độ phân giải của Janus-Pro-7B cũng thấp hơn so với DALL-E 3. Dù vậy, xét về yếu tố chân thực của nhân vật chính trong hình, DeepSeek vẫn có lợi thế hơn.

So sánh độ chính xác về màu sắc

Yêu cầu: Một tác phẩm gồm chuối vàng tươi, táo đỏ đậm, cốc sứ xanh dương đậm và một quả lê xanh đặt trên bàn cẩm thạch trắng.

Bức ảnh do Janus-Pro-7B (DeepSeek) có quả chuối màu vàng tự nhiên, cốc sứ mang tông xanh dịu, táo đỏ có kết cấu tự nhiên và lê xanh đều màu. Ánh sáng nhẹ nhàng giúp màu sắc trông thực tế hơn.

So sánh độ chính xác về màu sắc

Hình ảnh còn lại là của DALL·E 3 (ChatGPT) với chuối trông như sáp, cốc sứ chuyển thành màu xanh ngọc đậm, táo đỏ vẫn tự nhiên nhưng lê lại có thêm chút cam. Ánh sáng mạnh và độ tương phản cao đã khiến màu sắc thêm phần sống động nhưng lại thiếu tự nhiên.

So sánh độ chính xác về màu sắc

Kết luận

Tùy vào nhu cầu sáng tạo mà bạn có thể chọn giữa DALL·E 3 (Chat GPT) và Janus-Pro-7B (DeepSeek). Nếu bạn muốn hình ảnh có màu sắc rực rỡ, sáng tạo và linh hoạt bố cục, DALL·E 3 là lựa chọn phù hợp. Nhưng nếu bạn cần độ chân thực, bố trí không gian chính xác và bám sát yêu cầu, Janus-Pro-7B mang đến phong cách tự nhiên hơn.

Xem thêm:

XTmobile.vn (Nguồn: Android Police)