ISSN-2815-5823
Tâm Phạm
Thứ tư, 10h07 10/04/2024

Các Big Tech tranh mua dữ liệu đào tạo AI khiến thị trường này trở nên sôi động

(KDPT) - Để có thể đào tạo các mô hình trí tuệ nhân tạo (AI) tạo sinh thì các ông lớn công nghệ (Big Tech) đang chạy đua đàm phán mua dữ liệu, trong đó có bao gồm hình ảnh, video từ những công ty truyền thông cùng với nền tảng lưu trữ đa phương tiện.

Quy mô thị trường dữ liệu AI chưa rõ ràng dù rất lớn

Ghi nhận, ở thời kỳ đỉnh cao vào đầu thập niên 2000, Photobucket, có trụ sở ở bang Colorado chính là nền tảng lưu trữ hình ảnh hàng đầu thế giới với 70 triệu người dùng và chiếm gần 50% thị phần hình ảnh trực tuyến của Mỹ. Hiện nay, chỉ còn 2 triệu người vẫn sử dụng Photobucket. Tuy nhiên thì cuộc cách mạng AI có thể thổi một luồng sinh khi mới cho nền tảng lưu trữ hình ảnh đang dần sa sút này. 

Ted Leonard - là CEO của Photobucket tiết lộ với Reuters cho biết, ông đàm phán với việc nhiều tập đoàn công nghệ để cấp phép sử dụng 13 tỷ hình ảnh cũng như video của Photobucket. Kho dữ liệu hình ảnh và video khổng lồ này sẽ được sử dụng cho mục đích đào tạo những mô hình AI có khả năng tạo ra nội dung mới để có thể phản hồi mệnh lệnh của người dùng. 

Và Leonard cũng đã thảo luận về các mức giá từ 5 cent đến 1 USD Mỹ cho mỗi bức ảnh và hơn 1 USD cho mỗi video, tùy theo người mua và loại hình ảnh. Ông cho biết thêm rằng, có một khách hàng muốn mua hơn một tỷ USD và nhiều hơn lượng video ở trên nền tảng Photobucket.

Và các cuộc đàm phán trên cho thấy rằng Photobucket có thể nắm giữ nội dung trị giá đến hàng tỷ USD. Những người khổng lồ công nghệ như là Google, Meta và OpenAI lúc đầu sử dụng miễn phí hàng loạt dữ liệu lấy từ Internet để đào tạo các mô hình AI như ChatGPT. Họ cũng cho rằng hành động đó hợp pháp mặc dù đang đối mặt với những vụ kiện từ hàng loạt chủ sở hữu bản quyền dữ liệu. Song song với đó, các ông lớn công nghệ này cũng đang âm thầm trả tiền để mua nội dung có tính phí. 

Vào hồi tháng 2, Reddit đạt được thỏa thuận trị giá 60 triệu USD với Google. (Nguồn ảnh: Vnexpress)
Vào hồi tháng 2, Reddit đạt được thỏa thuận trị giá 60 triệu USD với Google. (Nguồn ảnh: Vnexpress)

Edward Klaris - đối tác quản lý hãng luật Klaris Law nói rằng: “Hiện đang có cuộc chạy đua tìm kiếm những bên nắm giữ bản quyền có bộ sưu tập nội dung riêng tư không có sẵn miễn phí ở trên Internet”. 

Klaris Law cũng đang tư cấn cho các chủ sở hữu nội dung về các giao dịch giá trị hàng chục triệu USD trong các hợp đồng cấp phép sử dụng kho lưu trữ ảnh, phim, sách để đào tạo AI. OpenAI, Google, Meta, Microsoft, Apple, Amazon từ chối bình luận về những giao dịch như thế. 

Có nhiều công ty nghiên cứu thị trường lớn thậm chí còn chưa ước tính quy mô của thị trường dữ liệu AI vốn dĩ không rõ ràng bởi các công ty thường không tiết lộ những giao dịch liên quan. Thời gian gần đây, Business Research Insights cũng ước tính thị trường dữ liệu AI hiện ở mức khoảng 2,5 tỷ USD và có thể tăng lên gần 30 tỷ USD trong thời gian 10 năm. 

“Big Tech” đang khuấy động thị trường

Có thể thấy, cuộc chạy đua giành dữ liệu diễn ra khi các nhà sản xuất mô hình nền tảng AI tạo sinh đối mặt với áp lực đang ngày càng tăng trong việc giải quyết nhu cầu về lượng nội dung khổng lồ mà họ đưa vào hệ thống. Quá trình này được gọi là đào tạo mô hình AI, đòi hỏi năng lực điện toán chuyên sâu và cũng thường mất nhiều tháng để hoàn thành. 

Những tập đoàn công nghệ lập luận rằng, hoạt động đào tạo mô hình AI sẽ rất tốn kém nếu như họ không thể sử dụng lượng dữ liệu khổng lồ được thu thập miễn phí từ các trang web, ví dụ như dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl.

Mặc dù vậy thì cách tiếp cận của họ đã khơi mào một làn sóng kiện tụng vi phạm bản quyền, đồng thời cũng thúc đẩy các công ty truyền thông chèn mã vào trang web của họ để có thể chặn việc thu thập thông tin. Chính vì thế, các nhà sản xuất mô hình AI cũng đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu thông qua các thỏa thuận với các chủ sở hữu nội dung, thông qua ngành công nghiệp môi giới dữ liệu. 

Và trong những tháng sau khi mà ChatGPT của OpenAI ra mắt vào thời điểm cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đã đạt được thỏa thuận với Shutterstock để có thể sử dụng hàng trăm triệu hình ảnh, video cùng với tệp nhạc của nhà cung cấp này cho mục đích đào tạo AI. 

Ông Ted Leonard, CEO của Photobucket. (Nguồn ảnh: Vneconomy)
Ông Ted Leonard, CEO của Photobucket. (Nguồn ảnh: Vneconomy)

Jarrod Yahes - là Giám đốc tài chính của Shutterstock nói rằng, các thỏa thuận với các Big Tech ban đầu dao động từ 25-50 triệu USD mỗi công ty. Jarrod Yahes cũng nói thêm rằng, sau đó những công ty công nghệ nhỏ hơn cũng tìm kiếm những thỏa thuận tương tự.

Ghi nhận, đối thủ cạnh tranh của Shutterstock là Freepik nói rằng, đã đạt được thỏa thuận với hai công ty công nghệ để có thể cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh với mức giá từ 2-4 cent cho mỗi hình ảnh. Joaquin Cuenca Abela - CEO của Shutterstock tiết lộ rằng, có thêm 5 giao dịch tương tự cũng đang được đàm phán. 

OpenAI là khách hàng đầu tiên của Shutterstock cũng đã chính thức ký thỏa thuận sử dụng dữ liệu với ít nhất 4 tổ chức truyền thông tin tức, trong đó có bao gồm The Associated Press (AP) Thomson Reuters, chủ sở hữu của Reuters News cũng đã đạt được thỏa thuận cấp phép nội dung tin tức để có thể giúp đào tạo những mô hình ngôn ngữ lớn, tuy nhiên không tiết lộ chi tiết. 

Ngành công nghiệp mới được khai sinh

Trong khi đó thì có một ngành công nghiệp mới đang xuất hiện khi mà các công ty chuyên về dữ liệu AI chú trọng tìm kiếm quyền sử dụng những nội dung trong thế giới thực như podcasts (đây là các tập tin âm thanh mà người dùng có thể tải về nghe), video ngắn cùng với  nội dung tương tác với trợ lý kỹ thuật số.

Cùng với đó, các công ty này cũng xây dựng đội ngũ nhân viên hợp đồng ngắn hạn để có thể tạo ra các hình ảnh mẫu cũng như giọng nói theo yêu cầu. Mô hình kinh doanh của họ cũng được ví như “Uber dành cho dữ liệu”. 

Ví dụ như Defined.ai có trụ ở tại thành phố Seattle (Mỹ) cũng đã cấp phép sử dụng dữ liệu cho một loạt công ty trong đó bao gồm Google, Meta, Apple, Amazon, Microsoft.

(Nguồn ảnh: Internet)
(Nguồn ảnh: Internet)

Defined.ai cũng đưa ra nhiều mức giá khác tùy theo người mua cũng như loại nội dung. Tuy nhiên, Daniela Braga - CEO của Defined.ai nói rằng, các công ty thường sẵn sàng trả từ 1-2 USD cho mỗi hình ảnh, 2-4 USD cho mỗi video ngắn, 100-300 USD cho mỗi giờ video. Bà nói rằng, giá thị trường cho văn bản là khoảng 0,001 USD/từ.

Bà cũng lưu ý rằng, những hình ảnh khỏa thân, đòi hỏi quy trình xử lý nhạy cảm nhất thì có giá từ 5-7 USD/hình. 

Braga cho biết, Defined.ai chia sẻ những khoản thu nhập đó với những nhà cung cấp nội dung. Bà cũng khẳng định dữ liệu của Defined.ai có nguồn gốc hợp pháp bởi đã nhận được sự đồng ý từ những người sở hữu chúng cũng như loại bỏ thông tin nhận dạng cá nhân. 

Và một trong những nhà cung cấp của Defined.ai chính là một doanh nhân ở Brazil. Người này cho biết thêm, ông trả chủ sở hữu những hình ảnh, podcast cũng như dữ liệu y tế mà ông cung cấp cho Defined.ai khoảng 20-30% tổng giá trị của giao dịch. 

Vị này cũng nhấn mạnh, những hình ảnh đắt giá nhất trong danh mục đầu tư của ông chính là những hình ảnh đặc sắc được sử dụng để có thể đào tạo các hệ thống AI có chức năng ngăn chặn nội dung bạo lực mà các công ty công nghệ cần. 

Để có thể đáp ứng được yêu cầu này, ông đã thu thập các hình ảnh về hiện trường vụ án, xung đột bạo lực, các cuộc phẫu thuật. Những dữ liệu này được khai thác chủ yếu từ cảnh sát, phóng viên tự do cũng như sinh viên y khoa, thường ở những nơi như Nam Mỹ và châu Phi.

Quyền riêng tư lo ngại bị vi phạm

Nhiều người trong ngành cho biết, việc khôi phục kho dữ liệu hình ảnh của các nền tảng như Photobucket để làm nguyên liệu cho các mô hình AI mới nhất đã dẫn đến những vấn đề khác, đặc biệt là về quyền riêng tư của những người dùng. 

Cũng trong nhiều trường hợp, thay vì sáng tạo hình ảnh mới, các hệ thống AI cung cấp bản sao chính xác của dữ liệu đào tạo ví dụ như hình ảnh có hình mờ bản quyền của Getty Images, trích đoạn văn nguyên văn của các bài báo từ New York Times hay là hình ảnh thật của những cá nhân ngoài đời.

Điều đó cũng có nghĩa là những bức ảnh riêng tư hoặc là những suy nghĩ riêng tư của một người được đưa lên Internet cách đây nhiều thập niên cũng có thể xuất hiện ở trong các kết quả đầu ra của mô hình AI mà không cần nhận được sự đồng ý một cách rõ ràng. 

Ted Leonard - CEO của Photobucket khẳng định rằng, ông có cơ sở pháp lý vững chắc để sử dụng hình ảnh lưu trữ trên nền tảng này. Ông trích dẫn bản cập nhật các điều khoản sử dụng dịch vụ của công ty vào hồi tháng 10, trong đó yêu cầu người dùng cấp cho công ty quyền không hạn chế để có thể bán bất kỳ nội dung trên Photobucket cho mục đích đào tạo hệ thống AI.

Và ông xem dữ liệu được người dùng cấp phép sử dụng là một giải pháp thay thế cho việc bán quảng cáo. Ông nói rằng: “Chúng tôi cần thanh toán các hóa đơn cũng như dữ liệu được cấp phép có thể giúp cho chúng tôi tiếp tục hỗ trợ những tài khoản miễn phí của người dùng”.

(Nguồn ảnh: Internet)
(Nguồn ảnh: Internet)

Braga của Defined.ai cho biết rằng, bà tránh mua những nội dung từ các công ty như Photobucket đồng thời ưu tiên mua nguồn ảnh được tạo ra bởi những người có ảnh hưởng ở trên mạng xã hội.

Có thể thấy, Photobucket không phải là nền tảng cấp phép sử dụng hình ảnh duy nhất. Vào hồi tháng trước, Automattic - đây là công ty mẹ của mạng xã hội Tumblr cho hay đang chia sẻ nội dung với “những công ty AI được chọn lọc”.

Còn vào hồi tháng 2, Reuters đã đưa tin Reddit đạt được thỏa thuận trị giá 60 triệu đô la với Google để có thể cung cấp nội dung của mạng xã hội này dành cho mục đích đào tạo các mô hình AI của Google. 

Tuy nhiên, sau đó thì Reddit nói rằng, hoạt động kinh doanh cấp phép dữ liệu của công ty đang bị Ủy ban Thương mại liên bang Mỹ (FTC) điều tra. Và công ty này cũng thừa nhận, hoạt động này có thể sẽ vi phạm các quy định bảo vệ quyền riêng tư cũng như sở hữu trí tuệ./.

Kinhdoanhvaphattrien.vn | 05/11/2023

eMagazine
kinhdoanhvaphattrien.vn | 19/05/2024