Tâm Phạm

Thứ Tư, 10h07 10/04/2024

Khoa học & Công nghệ

Các Big Tech tranh mua dữ liệu đào tạo AI khiến thị trường này trở nên sôi động

Đọc thêm

Khảo sát của IDC và Microsoft: Mỗi USD đầu tư vào trí tuệ nhân tạo (AI) sẽ mang về lợi nhuận 8 USD

Bí quyết có việc làm trong thời đại trí tuệ nhân tạo: Phải biết làm Sếp!

Cần đưa trí tuệ nhân tạo (AI) vào “khuôn khổ”

(KDPT) - Để có thể đào tạo các mô hình trí tuệ nhân tạo (AI) tạo sinh thì các ông lớn công nghệ (Big Tech) đang chạy đua đàm phán mua dữ liệu, trong đó có bao gồm hình ảnh, video từ những công ty truyền thông cùng với nền tảng lưu trữ đa phương tiện.

Quy mô thị trường dữ liệu AI chưa rõ ràng dù rất lớn

Ghi nhận, ở thời kỳ đỉnh cao vào đầu thập niên 2000, Photobucket, có trụ sở ở bang Colorado chính là nền tảng lưu trữ hình ảnh hàng đầu thế giới với 70 triệu người dùng và chiếm gần 50% thị phần hình ảnh trực tuyến của Mỹ. Hiện nay, chỉ còn 2 triệu người vẫn sử dụng Photobucket. Tuy nhiên thì cuộc cách mạng AI có thể thổi một luồng sinh khi mới cho nền tảng lưu trữ hình ảnh đang dần sa sút này.

Ted Leonard - là CEO của Photobucket tiết lộ với Reuters cho biết, ông đàm phán với việc nhiều tập đoàn công nghệ để cấp phép sử dụng 13 tỷ hình ảnh cũng như video của Photobucket. Kho dữ liệu hình ảnh và video khổng lồ này sẽ được sử dụng cho mục đích đào tạo những mô hình AI có khả năng tạo ra nội dung mới để có thể phản hồi mệnh lệnh của người dùng.

Và Leonard cũng đã thảo luận về các mức giá từ 5 cent đến 1 USD Mỹ cho mỗi bức ảnh và hơn 1 USD cho mỗi video, tùy theo người mua và loại hình ảnh. Ông cho biết thêm rằng, có một khách hàng muốn mua hơn một tỷ USD và nhiều hơn lượng video ở trên nền tảng Photobucket.

Và các cuộc đàm phán trên cho thấy rằng Photobucket có thể nắm giữ nội dung trị giá đến hàng tỷ USD. Những người khổng lồ công nghệ như là Google, Meta và OpenAI lúc đầu sử dụng miễn phí hàng loạt dữ liệu lấy từ Internet để đào tạo các mô hình AI như ChatGPT. Họ cũng cho rằng hành động đó hợp pháp mặc dù đang đối mặt với những vụ kiện từ hàng loạt chủ sở hữu bản quyền dữ liệu. Song song với đó, các ông lớn công nghệ này cũng đang âm thầm trả tiền để mua nội dung có tính phí.

Vào hồi tháng 2, Reddit đạt được thỏa thuận trị giá 60 triệu USD với Google. (Nguồn ảnh: Vnexpress)

Edward Klaris - đối tác quản lý hãng luật Klaris Law nói rằng: “Hiện đang có cuộc chạy đua tìm kiếm những bên nắm giữ bản quyền có bộ sưu tập nội dung riêng tư không có sẵn miễn phí ở trên Internet”.

Klaris Law cũng đang tư cấn cho các chủ sở hữu nội dung về các giao dịch giá trị hàng chục triệu USD trong các hợp đồng cấp phép sử dụng kho lưu trữ ảnh, phim, sách để đào tạo AI. OpenAI, Google, Meta, Microsoft, Apple, Amazon từ chối bình luận về những giao dịch như thế.

Có nhiều công ty nghiên cứu thị trường lớn thậm chí còn chưa ước tính quy mô của thị trường dữ liệu AI vốn dĩ không rõ ràng bởi các công ty thường không tiết lộ những giao dịch liên quan. Thời gian gần đây, Business Research Insights cũng ước tính thị trường dữ liệu AI hiện ở mức khoảng 2,5 tỷ USD và có thể tăng lên gần 30 tỷ USD trong thời gian 10 năm.

“Big Tech” đang khuấy động thị trường

Có thể thấy, cuộc chạy đua giành dữ liệu diễn ra khi các nhà sản xuất mô hình nền tảng AI tạo sinh đối mặt với áp lực đang ngày càng tăng trong việc giải quyết nhu cầu về lượng nội dung khổng lồ mà họ đưa vào hệ thống. Quá trình này được gọi là đào tạo mô hình AI, đòi hỏi năng lực điện toán chuyên sâu và cũng thường mất nhiều tháng để hoàn thành.

Những tập đoàn công nghệ lập luận rằng, hoạt động đào tạo mô hình AI sẽ rất tốn kém nếu như họ không thể sử dụng lượng dữ liệu khổng lồ được thu thập miễn phí từ các trang web, ví dụ như dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl.

Mặc dù vậy thì cách tiếp cận của họ đã khơi mào một làn sóng kiện tụng vi phạm bản quyền, đồng thời cũng thúc đẩy các công ty truyền thông chèn mã vào trang web của họ để có thể chặn việc thu thập thông tin. Chính vì thế, các nhà sản xuất mô hình AI cũng đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu thông qua các thỏa thuận với các chủ sở hữu nội dung, thông qua ngành công nghiệp môi giới dữ liệu.

Và trong những tháng sau khi mà ChatGPT của OpenAI ra mắt vào thời điểm cuối năm 2022, các công ty bao gồm Meta, Google, Amazon và Apple đã đạt được thỏa thuận với Shutterstock để có thể sử dụng hàng trăm triệu hình ảnh, video cùng với tệp nhạc của nhà cung cấp này cho mục đích đào tạo AI.

Ông Ted Leonard, CEO của Photobucket. (Nguồn ảnh: Vneconomy)

Jarrod Yahes - là Giám đốc tài chính của Shutterstock nói rằng, các thỏa thuận với các Big Tech ban đầu dao động từ 25-50 triệu USD mỗi công ty. Jarrod Yahes cũng nói thêm rằng, sau đó những công ty công nghệ nhỏ hơn cũng tìm kiếm những thỏa thuận tương tự.

Ghi nhận, đối thủ cạnh tranh của Shutterstock là Freepik nói rằng, đã đạt được thỏa thuận với hai công ty công nghệ để có thể cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh với mức giá từ 2-4 cent cho mỗi hình ảnh. Joaquin Cuenca Abela - CEO của Shutterstock tiết lộ rằng, có thêm 5 giao dịch tương tự cũng đang được đàm phán.

OpenAI là khách hàng đầu tiên của Shutterstock cũng đã chính thức ký thỏa thuận sử dụng dữ liệu với ít nhất 4 tổ chức truyền thông tin tức, trong đó có bao gồm The Associated Press (AP) Thomson Reuters, chủ sở hữu của Reuters News cũng đã đạt được thỏa thuận cấp phép nội dung tin tức để có thể giúp đào tạo những mô hình ngôn ngữ lớn, tuy nhiên không tiết lộ chi tiết.

Ngành công nghiệp mới được khai sinh

Trong khi đó thì có một ngành công nghiệp mới đang xuất hiện khi mà các công ty chuyên về dữ liệu AI chú trọng tìm kiếm quyền sử dụng những nội dung trong thế giới thực như podcasts (đây là các tập tin âm thanh mà người dùng có thể tải về nghe), video ngắn cùng với nội dung tương tác với trợ lý kỹ thuật số.

Cùng với đó, các công ty này cũng xây dựng đội ngũ nhân viên hợp đồng ngắn hạn để có thể tạo ra các hình ảnh mẫu cũng như giọng nói theo yêu cầu. Mô hình kinh doanh của họ cũng được ví như “Uber dành cho dữ liệu”.

Ví dụ như Defined.ai có trụ ở tại thành phố Seattle (Mỹ) cũng đã cấp phép sử dụng dữ liệu cho một loạt công ty trong đó bao gồm Google, Meta, Apple, Amazon, Microsoft.

Defined.ai cũng đưa ra nhiều mức giá khác tùy theo người mua cũng như loại nội dung. Tuy nhiên, Daniela Braga - CEO của Defined.ai nói rằng, các công ty thường sẵn sàng trả từ 1-2 USD cho mỗi hình ảnh, 2-4 USD cho mỗi video ngắn, 100-300 USD cho mỗi giờ video. Bà nói rằng, giá thị trường cho văn bản là khoảng 0,001 USD/từ.

Bà cũng lưu ý rằng, những hình ảnh khỏa thân, đòi hỏi quy trình xử lý nhạy cảm nhất thì có giá từ 5-7 USD/hình.

Braga cho biết, Defined.ai chia sẻ những khoản thu nhập đó với những nhà cung cấp nội dung. Bà cũng khẳng định dữ liệu của Defined.ai có nguồn gốc hợp pháp bởi đã nhận được sự đồng ý từ những người sở hữu chúng cũng như loại bỏ thông tin nhận dạng cá nhân.

Và một trong những nhà cung cấp của Defined.ai chính là một doanh nhân ở Brazil. Người này cho biết thêm, ông trả chủ sở hữu những hình ảnh, podcast cũng như dữ liệu y tế mà ông cung cấp cho Defined.ai khoảng 20-30% tổng giá trị của giao dịch.

Vị này cũng nhấn mạnh, những hình ảnh đắt giá nhất trong danh mục đầu tư của ông chính là những hình ảnh đặc sắc được sử dụng để có thể đào tạo các hệ thống AI có chức năng ngăn chặn nội dung bạo lực mà các công ty công nghệ cần.

Để có thể đáp ứng được yêu cầu này, ông đã thu thập các hình ảnh về hiện trường vụ án, xung đột bạo lực, các cuộc phẫu thuật. Những dữ liệu này được khai thác chủ yếu từ cảnh sát, phóng viên tự do cũng như sinh viên y khoa, thường ở những nơi như Nam Mỹ và châu Phi.

Quyền riêng tư lo ngại bị vi phạm

Nhiều người trong ngành cho biết, việc khôi phục kho dữ liệu hình ảnh của các nền tảng như Photobucket để làm nguyên liệu cho các mô hình AI mới nhất đã dẫn đến những vấn đề khác, đặc biệt là về quyền riêng tư của những người dùng.

Cũng trong nhiều trường hợp, thay vì sáng tạo hình ảnh mới, các hệ thống AI cung cấp bản sao chính xác của dữ liệu đào tạo ví dụ như hình ảnh có hình mờ bản quyền của Getty Images, trích đoạn văn nguyên văn của các bài báo từ New York Times hay là hình ảnh thật của những cá nhân ngoài đời.

Điều đó cũng có nghĩa là những bức ảnh riêng tư hoặc là những suy nghĩ riêng tư của một người được đưa lên Internet cách đây nhiều thập niên cũng có thể xuất hiện ở trong các kết quả đầu ra của mô hình AI mà không cần nhận được sự đồng ý một cách rõ ràng.

Ted Leonard - CEO của Photobucket khẳng định rằng, ông có cơ sở pháp lý vững chắc để sử dụng hình ảnh lưu trữ trên nền tảng này. Ông trích dẫn bản cập nhật các điều khoản sử dụng dịch vụ của công ty vào hồi tháng 10, trong đó yêu cầu người dùng cấp cho công ty quyền không hạn chế để có thể bán bất kỳ nội dung trên Photobucket cho mục đích đào tạo hệ thống AI.

Và ông xem dữ liệu được người dùng cấp phép sử dụng là một giải pháp thay thế cho việc bán quảng cáo. Ông nói rằng: “Chúng tôi cần thanh toán các hóa đơn cũng như dữ liệu được cấp phép có thể giúp cho chúng tôi tiếp tục hỗ trợ những tài khoản miễn phí của người dùng”.

Braga của Defined.ai cho biết rằng, bà tránh mua những nội dung từ các công ty như Photobucket đồng thời ưu tiên mua nguồn ảnh được tạo ra bởi những người có ảnh hưởng ở trên mạng xã hội.

Có thể thấy, Photobucket không phải là nền tảng cấp phép sử dụng hình ảnh duy nhất. Vào hồi tháng trước, Automattic - đây là công ty mẹ của mạng xã hội Tumblr cho hay đang chia sẻ nội dung với “những công ty AI được chọn lọc”.

Còn vào hồi tháng 2, Reuters đã đưa tin Reddit đạt được thỏa thuận trị giá 60 triệu đô la với Google để có thể cung cấp nội dung của mạng xã hội này dành cho mục đích đào tạo các mô hình AI của Google.

Tuy nhiên, sau đó thì Reddit nói rằng, hoạt động kinh doanh cấp phép dữ liệu của công ty đang bị Ủy ban Thương mại liên bang Mỹ (FTC) điều tra. Và công ty này cũng thừa nhận, hoạt động này có thể sẽ vi phạm các quy định bảo vệ quyền riêng tư cũng như sở hữu trí tuệ./.

Tạp chí Điện tử Kinh doanh & Phát triển

Từ khoá:

AI BichTech trí tuệ nhân tạo

Khoa học & Công nghệ

Kinh tế số 2 công cụ tạo sức bật trực tiếp cho doanh nghiệp nhỏ và vừa Hà Nội

(KDPT) - Với chủ đề "Doanh nghiệp nhỏ và vừa Hà Nội ứng dụng AI và thương mại điện tử bứt phá tăng trưởng hai con số", Diễn đàn Kinh...

18:07 31/07/2026

Chuyển đổi số Chuyển đổi số tiếp tục là điểm sáng với hơn 4,6 tỷ giao dịch qua Nền tảng tích hợp, chia sẻ dữ liệu quốc gia

(KDPT) - Trong tháng 7/2026, Bộ Khoa học và Công nghệ (KH&CN) tập trung hoàn thiện thể chế, tạo nền tảng thúc đẩy khoa học, công nghệ, đổi...

15:19 31/07/2026

Kinh tế số Việt Nam lần thứ hai đăng cai Hội nghị Kinh tế lượng châu Á AMES 2026

(KDPT) - Hội nghị Châu Á của Hiệp hội Kinh tế lượng khu vực Đông Á và Đông Nam Á năm 2026 (AMES 2026) chính thức diễn ra tại Hà Nội từ ngày...

12:21 31/07/2026

Khoa học & Công nghệ 35 dự án khởi nghiệp nông thôn trình làng nhiều ý tưởng ứng dụng công nghệ tại vòng bán kết miền Bắc

(KDPT) - Những dự án góp mặt tại vòng bán kết khu vực miền Bắc cuộc thi "Dự án khởi nghiệp thanh niên nông thôn" năm 2026 không chỉ khai thác...

20:12 30/07/2026

Chuyển đổi số Agribank tài trợ 10 trạm dịch vụ công số tại Lạng Sơn

(KDPT) - Tiếp nối lộ trình triển khai thành công tại các địa phương đi đầu về công nghệ như: Hà Nội, Thanh Hóa, Quảng Ninh, Ninh Bình, Đà...

21:12 27/07/2026

Chuyển đổi số KCD & OpenInfra Days Vietnam 2026: Cơ hội cập nhật xu hướng, học hỏi kinh nghiệm triển khai công nghệ cho cộng đồng Việt Nam

(KDPT) - Ngày 25/7, tại Hà Nội đã diễn ra sự kiện KCD & OpenInfra Days Vietnam 2026 do Kubernetes Community Days (KCD) thuộc Cloud Native Computing Foundation...

20:07 25/07/2026

Chuyển đổi số Hình thành đội ngũ doanh nhân Việt Nam có năng lực cạnh tranh quốc tế

(KDPT) - Kinh tế tư nhân là một trong những động lực quan trọng của nền kinh tế. Với định hướng "5 tiên phong", cộng đồng doanh nghiệp...

12:38 23/07/2026

Chuyển đổi số VietOffice 2026 thúc đẩy chuyển đổi số với loạt giải pháp văn phòng thông minh

(KDPT) - Không chỉ là triển lãm chuyên ngành, VietOffice 2026 còn là diễn đàn kết nối doanh nghiệp, cập nhật các giải pháp AI, số hóa tài liệu,...

17:12 21/07/2026

Khoa học & Công nghệ Phát triển công nghiệp công nghệ số: Động lực mới cho tăng trưởng quốc gia

(KDPT) - Thủ tướng Chính phủ ban hành Quyết định số 840/QĐ-TTg Chương trình phát triển công nghiệp công nghệ số giai đoạn 2026-2030, tầm...

17:12 21/07/2026

Khoa học & Công nghệ VAIC 2026: Vinh danh thế hệ “AI BUILDERS” đưa tri thức toàn cầu giải bài toán thực tế Việt Nam

(KDPT) - Lễ Bế mạc và công bố Giải pháp Đổi mới sáng tạo Việt Nam (Viet Nam AI Innovation Challenge – VAIC 2026) đã chính thức diễn ra thành công...

16:43 20/07/2026

Kinh tế số Tăng tốc với AI, OPES giữ top 7 thị phần bảo hiểm phi nhân thọ nửa đầu năm 2026

(KDPT) - Nửa đầu năm 2026, Bảo hiểm số OPES duy trì đà tăng trưởng doanh thu mạnh mẽ, cao hơn trung bình ngành, đồng thời củng cố lợi thế...

21:14 16/07/2026

Chuyển đổi số Lào Cai phát triển nguồn nhân lực, tạo nền tảng cho tăng trưởng nhanh và bền vững

(KDPT) - Trong bối cảnh chuyển đổi số, hội nhập quốc tế và yêu cầu phát triển các ngành kinh tế mới, Ban Chấp hành Đảng bộ tỉnh Lào Cai...

12:58 16/07/2026

Kinhdoanhvaphattrien.vn | 05/11/2023

eMagazine

Doanh nghiệp Việt và hành trình ESG - Phần VII: Cơ hội “tái sinh” của Hóa chất Đức Giang sau những sóng gió

(KDPT) - Với một doanh nghiệp lớn, tham gia sâu rộng nhiều lĩnh vực, đặc biệt là việc tạo dựng hình ảnh trên thị trường tài chính, thì câu chuyện niềm tin từ các hoạt động sản xuất cốt lõi sẽ quyết định đến tâm lý hành động của nhà đầu tư. Điều này, ở thời điểm này, có lẽ là tối quan trọng với Hóa chất Đức Giang, khi niềm tin đang là thứ “tài sản xa xỉ” nhất.

Xem thêm

10h45 31/07/2026

25 năm Shinec và Hành trình "thắp lửa nhân tâm" - Phần VIII: Tầm nhìn 200 năm

(KDPT) - Tuổi thọ của một khu công nghiệp không nằm ở thời hạn pháp lý mà còn ở khả năng thích nghi, đổi mới và tái sinh.

Xem thêm

11h14 30/07/2026

Nghị quyết 10 và cuộc tái định vị khu công nghiệp Việt Nam - Bài 3: Bảy định hướng lớn cần hoàn thiện trong chính sách và thể chế khu công nghiệp

(KDPT) - Nghị quyết 10 không chỉ thay đổi tư duy thu hút FDI, mà còn mở ra yêu cầu tái định vị vai trò của khu công nghiệp. Theo TS. Phạm Hồng Điệp, để hiện thực hóa mục tiêu đó, bên cạnh quyết tâm của doanh nghiệp và địa phương, cần tiếp tục hoàn thiện thể chế theo hướng khuyến khích đổi mới sáng tạo, phát triển doanh nghiệp và nâng cao chất lượng hệ sinh thái công nghiệp.

Xem thêm

11h25 29/07/2026

Xem nhiều nhất

Việt Nam lần thứ hai đăng cai Hội nghị Kinh tế lượng châu Á AMES 2026

2 công cụ tạo sức bật trực tiếp cho doanh nghiệp nhỏ và vừa Hà Nội

Hôm nay (31/7), dầu thô thế giới quay đầu giảm nhẹ

Chủ tịch HĐQT MB: Từ những bài toán thực tiễn đến những mô hình có thể vươn ra thế giới

Tân Hoàng Minh Group chính thức khởi động D’. Diamant Bleu, mở đầu chuỗi dự án chiến lược

Vietnam Airlines báo lỗ trở lại dù doanh thu lập đỉnh 4 quý liên tiếp, thị giá cổ phiếu mất hơn 19% trong 6 tháng

Hàng nghìn runner, fashionista cùng đổ bộ VPBank Ho Chi Minh City Music Half Marathon 2026

Nhận định chứng khoán (27-31/7): VN-Index chấm dứt chuỗi 4 tuần lao dốc nhưng áp lực chốt lời vẫn lớn

140 vận động viên tham dự Giải vô địch bóng bàn quốc gia Báo Nhân Dân lần thứ 44

Doanh nghiệp Việt và hành trình ESG - Phần VII: Cơ hội “tái sinh” của Hóa chất Đức Giang sau những sóng gió

Doanh nhân thời cuộc Phát triển doanh nghiệp, doanh nhân dân tộc Việt Nam: Từ một phạm trù chiến lược đến hệ cơ chế "khế ước xã hội có kỷ luật"

Góc nhìn Xu hướng chuyển dịch năng lượng toàn cầu và bài học kinh nghiệm chiến lược cho Việt Nam

Kinh tế số 2 công cụ tạo sức bật trực tiếp cho doanh nghiệp nhỏ và vừa Hà Nội

Chuyển đổi số Chuyển đổi số tiếp tục là điểm sáng với hơn 4,6 tỷ giao dịch qua Nền tảng tích hợp, chia sẻ dữ liệu quốc gia

Kinh tế số Việt Nam lần thứ hai đăng cai Hội nghị Kinh tế lượng châu Á AMES 2026

Khoa học & Công nghệ 35 dự án khởi nghiệp nông thôn trình làng nhiều ý tưởng ứng dụng công nghệ tại vòng bán kết miền Bắc

Chuyển đổi số Agribank tài trợ 10 trạm dịch vụ công số tại Lạng Sơn

Chuyển đổi số KCD & OpenInfra Days Vietnam 2026: Cơ hội cập nhật xu hướng, học hỏi kinh nghiệm triển khai công nghệ cho cộng đồng Việt Nam

Chuyển đổi số Hình thành đội ngũ doanh nhân Việt Nam có năng lực cạnh tranh quốc tế

Chuyển đổi số VietOffice 2026 thúc đẩy chuyển đổi số với loạt giải pháp văn phòng thông minh

Khoa học & Công nghệ Phát triển công nghiệp công nghệ số: Động lực mới cho tăng trưởng quốc gia

Khoa học & Công nghệ VAIC 2026: Vinh danh thế hệ “AI BUILDERS” đưa tri thức toàn cầu giải bài toán thực tế Việt Nam

Kinh tế số Tăng tốc với AI, OPES giữ top 7 thị phần bảo hiểm phi nhân thọ nửa đầu năm 2026

Chuyển đổi số Lào Cai phát triển nguồn nhân lực, tạo nền tảng cho tăng trưởng nhanh và bền vững

Ứng dụng Việt Nam dẫn đầu khu vực Đông Nam Á về ứng dụng Gemini trong hỗ trợ học thuật

Chuyển đổi số Vì sao 90% doanh nghiệp Việt mua ERP nhưng vẫn thất bại?

Kinh tế số InnoEx 2026 bàn lời giải tăng trưởng cho doanh nghiệp trong kỷ nguyên AI

kinhdoanhvaphattrien.vn | 01/08/2026