Giải mã cơn sốt Sora - AI tạo video từ văn bản do OpenAI phát triển
Sora - đột phá của OpenAI
Vào tuần trước, OpenAI đã giới thiệu một mô hình AI mới có tên là Sora đã khiến cho cộng đồng công nghệ vô cùng bất ngờ. Được biết, mô hình này cho phép người dùng tạo ra các đoạn video ngắn chỉ từ vào dòng mô tả văn bản và mở ra khả năng sáng tạo nội dung video mà không cần đến trang thiết bị chuyên nghiệp hay như kỹ năng dựng phim và bối cảnh phức tạp.
Theo đó thì công nghệ lõi của Sora đến từ sự kết hợp giữa kiến trúc diffusion và transformer. Kiến trúc diffusion cũng đã được chứng minh qua thành công của DALL-E 3 trong việc tạo hình ảnh từ văn bản, nay được áp dụng cho video và cho phép Sora tạo ra những chuỗi hình ảnh động, chi tiết từ đầu vào ngẫu nhiên.
Nguồn ảnh: Nhịp sống thị trường |
Và phương pháp này giúp dự đoán cũng như biến đổi đầu vào thành nội dung hình ảnh có cấu trúc rõ ràng. Trong khi đó thì kiến trúc transformer với khả năng có thể xử lý một cách tuần tự một cách hiệu quả cũng được tích hợp để có thể xử lý và sinh ra nội dung phù hợp với lời nhắc, dựa trên sự hiểu biết sâu sắc về ngôn ngữ lẫn ngữ cảnh.
Sora vẫn có những điểm yếu nhất định
Song song với đó, chất lượng của những video do Sora tạo ra chính là điểm đáng chú ý nhất với độ sống động cùng với sự chân thực cao, ngay cả trong các bối cảnh phức tạp. Mặc dù vẫn còn một vài lỗi nhỏ (điển hình như là hành động, cử chỉ hơi thiếu thực tế của nhân vật chính ở trong một video), tuy nhiên những lỗi này khó có thể nhận ra nếu như không quan sát kỹ. Điều này cũng làm nổi bật tiềm năng của Sora trong việc tạo ra nội dung video có chất lượng cao. Hơn thế là khả năng tùy biến cực mạnh của Sora và thay đổi phong cách, bối cảnh chỉ với vài câu lệnh.
Không những giới thiệu khả năng chuyển đổi từ văn bản sang video mà Sora còn gây được ấn tượng nhờ vào khả năng tùy biến cực mạnh. Và công cụ này cũng cho phép người dùng có thể thực hiện các điều chỉnh sâu rộng về hình ảnh, từ việc thay đổi bối cảnh cho đến biến đổi hoàn toàn nhân vật cũng như môi trường xung quanh mang đến sức mạnh tạo ấn tượng.
Nguồn ảnh: 24h |
Một ví dụ điển hình về sức mạnh tùy biến của Sora AI được minh họa qua loạt video được đăng tải trên mạng xã hội Twitter (hay X) bởi Min Choi - đây là một chuyên gia về AI vốn có được cơ hội trải nghiệm sớm với công cụ của OpenAI. Theo đó, Choi đã chia sẻ cách Sora AI không chỉ tạo video từ các mô tả văn bản mà còn có khả năng biến đổi toàn bộ phong cách cũng như môi trường của video.
Ví dụ như đoạn video gốc lúc đầu được tạo ra bởi Sora quay cảnh một chiếc siêu xe màu đỏ đang lướt băng băng ở trên đường với hàng dài cây số phủ bóng ở hai bên đường. Mặc dù vậy, ở một video sau đó thì môi trường xung quanh đã có sự biến đổi.
Ở trong một video, chiếc xe tưởng như đang lướt ở khung cảnh dưới nước, trong khi ở video khác nó biến thành một chiếc xe cổ tích hợp vào khung cảnh của năm 1920, chỉ dựa vào câu lệnh có nội dung “thay đổi bối cảnh của năm 1920 với một chiếc ô tô cũ và đảm bảo rằng nó vẫn có màu đỏ”. Hay thậm chí, trong một sự tùy chỉnh khác, chiếc siêu xe được thay thế bằng một chiếc xe ngựa kéo, đặt trong một môi trường thời trung cổ, tạo ra một bối cảnh cũng như cảm giác hoàn toàn mới.
Đến thời điểm hiện tại, chỉ một nhóm nhỏ chuyên gia được OpenAI cho phép truy cập vào công cụ này để có thể đánh giá và kiểm tra khả năng sáng tạo cũng như nhận diện ra những rủi ro đang tiềm ẩn. Những demo video được chia sẻ bởi nhóm này thậm chí còn cho thấy được chất lượng cao hơn cả những gì được trình bày trong thông báo ra mắt của OpenAI, từ video quay cảnh một chú khỉ đánh cờ với độ chi tiết ấn tượng đến từng sợi lông, đến cảnh vận động viên đạp xe đổ đèo, thậm chí là cảnh hai giọt nước nhảy múa với nhau.
Nguồn ảnh: VTV |
Nhìn chung thì những ví dụ được đăng tải ở trên không chỉ cho thấy được khả năng sản sinh video của Sora mà còn mở ra được những câu hỏi về tương lai của sự phân biệt giữa thực tế và nội dung do AI tạo ra. Và câu hỏi đặt ra lúc này là liệu chúng ta có đến một ngày không phân biệt được đâu là hình ảnh thực tế và đâu là sản phẩm của AI, dẫn đến một thế giới giống như ở trong phim Ma trận - nơi mà người dùng không còn nhận biết được thực tại.
Các chuyên gia phân tích cho biết, điểm gây lo ngại lớn nhất của Sora nằm ở chính đột phá của OpenAI. Những video được tạo ra quá giống thật khiến cho người sợ mô hình có thể bị lạm dụng nhằm phát tán nội dung sai lệch, vi phạm quyền riêng tư và phân biệt chủng tộc, hay thậm chí có thể tác động đến kết quả của cuộc bầu cử. Mặc dù cấm sử dụng Sora tạo nội dung xấu nhưng công ty hiện chưa tìm được cách nhận biết đâu là hình ảnh do AI tạo ra, đâu là thật để gắn nhãn và phân loại.
Fred Havemeyer - đây là người đứng đầu bộ phận nghiên cứu về AI của Macquarie nói rằng, khả năng đáng kinh ngạc của Sora sẽ gây ra nhiều lo lắng liên quan đến vấn đề đạo đức và ảnh hưởng đến xã hội. Cũng theo ông, tác động tiêu cực của AI sẽ là chủ đề được tranh luận nhiều nhất ở trong năm 2024 và Sora là phát súng mở màn.
Còn theo tờ New York Times thì OpenAI vẫn giấu kỹ thông tin về những nội dung để đào tạo Sora đến từ đâu và bao nhiêu phần trăm trong số đó có bản quyền. Tuy nhiên thì giới phân tích đều chung nhận định là Sora mở ra một kỷ nguyên mới của AI trong việc tạo video, tương tự như cách mà ChatGPT xuất hiện. Và khi chính thức thương mại hóa, nó có thể tác động trực tiếp đến ngành điện ảnh, thiết kế game, truyền thông./.