Các nhà khoa học của MIT đã đi tiên phong trong việc tạo ra bước đột phá trong việc tăng tốc các trình tạo hình ảnh AI phổ biến nhất lên tốc độ gấp 30 lần. Một khuôn khổ mới đã được phát triển để nâng cao các hệ thống AI tổng hợp như DALL·E 3 Và Khuếch tán ổn định, cô đọng quy trình của họ thành các mô hình nhỏ hơn trong khi vẫn duy trì chất lượng.
Trong nghiên cứu của họ được tải lên máy chủ in sẵn vào ngày 5 tháng 12 năm 2023 arXiv, các nhà khoa học đã giới thiệu một kỹ thuật có tên là “chưng cất phù hợp phân phối” (DMD). Phương pháp này cho phép các mô hình AI mới bắt chước các trình tạo hình ảnh đã có sẵn, chẳng hạn như DALL·E 3 và Stable Diffusion, giúp tạo ra hình ảnh nhanh hơn mà không làm giảm chất lượng.
“Công việc của chúng tôi là một phương pháp mới giúp tăng tốc các mô hình khuếch tán hiện tại như Khuếch tán ổn định và DALL·E 3 lên 30 lần,” cho biết Thiên Uy Âm, đồng tác giả chính của nghiên cứu và là nghiên cứu sinh tại MIT. “Tiến bộ này không chỉ giảm đáng kể thời gian tính toán mà còn duy trì, nếu không nói là vượt trội, chất lượng của nội dung hình ảnh được tạo ra.”
Các mô hình phổ biến thường bao gồm một quy trình gồm nhiều giai đoạn, trong đó AI học cách hiểu ngữ cảnh và ý nghĩa của hình ảnh thông qua đào tạo bằng siêu dữ liệu và chú thích văn bản mô tả. Bằng cách này, các nhà nghiên cứu của MIT thúc đẩy Trình tạo hình ảnh AI lên tới 30 lần.
Trong thực tế, các mô hình này sử dụng “khuếch tán thuận” để mã hóa hình ảnh với nhiễu ngẫu nhiên, sau đó là tới 100 bước “khuếch tán ngược” để tạo ra hình ảnh rõ ràng dựa trên lời nhắc văn bản, như nhà khoa học AI giải thích Jay Alammar.
Bằng cách triển khai DMD, số bước “khuếch tán ngược” giảm xuống còn một, giảm đáng kể thời gian tạo hình ảnh. Ví dụ: khi sử dụng Stable Diffusion v1.5, thời gian tạo hình ảnh giảm từ khoảng 2.590 mili giây xuống 90 mili giây, nhanh hơn 28,8 lần.
Kỹ thuật DMD kết hợp hai thành phần chính: “mất hồi quy” tổ chức các hình ảnh dựa trên sự giống nhau trong quá trình đào tạo, tạo điều kiện cho việc học nhanh hơn, trong khi “mất mát khớp phân phối” đảm bảo hình ảnh được tạo ra tương ứng với xác suất trong thế giới thực, giảm thiểu kết quả không thực tế.
“Việc giảm số lần lặp lại đã là Chén Thánh trong các mô hình khuếch tán kể từ khi chúng ra đời,” cho biết Fredo Durand, đồng tác giả và giáo sư tại MIT. “Chúng tôi rất vui mừng khi cuối cùng đã cho phép tạo hình ảnh một bước, điều này sẽ giảm đáng kể chi phí tính toán và đẩy nhanh quá trình.”
Cách tiếp cận đổi mới này làm giảm đáng kể yêu cầu về năng lượng tính toán, giúp việc tạo hình ảnh trở nên hiệu quả hơn, đặc biệt là trong các ngành yêu cầu tốc độ.