Theo PGS.TS Đinh Điền, Trường Đại học Khoa học Tự nhiên, ĐHQG TPHCM cho biết, chữ Nôm là thể loại chữ viết tay đầu tiên của người Việt Nam do các bậc tiền nhân xây dựng dựa trên chất liệu của chữ Hán.

Chữ Nôm được sử dụng trong gần 1.000 năm từ thế kỷ X đến thế kỷ thứ XIX. Trong suốt 10 thế kỷ đó, rất nhiều công trình về lịch sử, văn học, y học, nông nghiệp, địa lý… đã được biên soạn, viết bằng chữ Nôm và còn được lưu giữ cho đến ngày nay.

PGS.TS Đinh Điền thuyết minh về tính năng chuyển dịch chữ Nôm sang chữ Quốc ngữ.

Ý tưởng xây dựng hệ thống phiên dịch tự động được PGS.TS Đinh Điền, Giám đốc Trung tâm ngôn ngữ học tính toán, Đại học Khoa học Tự nhiên ấp ủ từ hơn 20 năm trước. Tuy nhiên, thời điểm đó chưa có nhiều nguồn dữ liệu Hán - Nôm cũng như các mô hình máy học tiên tiến. Nhiều năm sau, với sự xuất hiện các mô hình học sâu (deep learning) của trí tuệ nhân tạo, họ mới bắt đầu phát triển mô hình phiên dịch tự động này.

Theo lời PGS.TS Đinh Điền, việc chuyển tự chữ Nôm sang chữ quốc ngữ rất phức tạp do hai hệ chữ khác loại hình chữ viết. Chữ Nôm thuộc loại hình chữ ghi ý (ideographic), còn chữ quốc ngữ thuộc loại hình chữ ghi âm vị (phonemic).

Cùng một chữ Nôm có thể được dịch sang nhiều chữ Qlquốc ngữ khác nhau tùy theo tri thức văn hóa, lịch sử, địa lý, tiếng Việt cổ, tiếng địa phương, từ chuyên ngành… Hay nói cách khác, việc chọn chữ quốc ngữ nào cho bản dịch cần phải suy đoán, và việc suy đoán này phải sử dụng đến nhiều “tri thức” cả trong và ngoài ngôn ngữ (extra-linguistic).

Nhóm nghiên cứu gồm 10 giảng viên đến từ Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên và Bộ môn Hán - Nôm, khoa Văn học, Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia TP HCM). Nhóm xây dựng hệ thống chuyển ngữ tự động (automatic transliteration) từ năm 2020 và hiện đã hoàn thành. Theo đó, người dùng có thể tra cứu tại: tools.clc.hcmus.edu.vn.

Website chuyển tự (dịch) tự động từ chữ Nôm sang chữ quốc ngữ góp phần bảo tồn và phát huy các giá trị văn hóa truyền thống của dân tộc, đặc biệt có thể được ứng dụng ngay để phát triển phần mềm dịch thuật trên thiết bị di động nhằm phục vụ du khách khi tham quan, tìm hiểu các địa điểm có sử dụng chữ Nôm.

Cụ thể, với các văn bản thuộc lĩnh vực lịch sử, văn học, xã hội, hệ thống cho kết quả chính xác trên 90%. Các văn bản về y học dân tộc và các tài liệu mang tính chuyên ngành, mô hình cho độ chính xác 70%. Riêng truyện Kiều mô hình có thể dịch chính xác tới 99%.

Theo nhóm nghiên cứu, đây là dự án phi lợi nhuận nhằm hướng đến công cụ dịch chuẩn xác từ chữ Hán - Nôm sang chữ quốc ngữ. Thông qua dự án, cộng đồng có thể đóng góp nguồn tư liệu chữ Hán - Nôm để cập nhật thêm kho ngữ liệu huấn luyện mô hình phong phú hơn, giúp hoạt động chính xác hơn. Thông qua website, các nhà nghiên cứu có thể hiệu chỉnh những lỗi nhận dạng chữ Hán - Nôm sai hay chuyển tự sai, giúp máy ngày càng hoàn thiện hơn.