← Trang chủ Năng lực số
Nghiên cứu khoa học dữ liệu & Văn học

Bài toán dịch giả
Chinh Phụ Ngâm Khúc

Dùng phương pháp Stylometry (đo lường phong cách ngôn ngữ) để tiếp cận bí ẩn 250 năm: Ai đã dịch Chinh Phụ Ngâm sang chữ Nôm — Đoàn Thị Điểm hay Phan Huy Ích?

1 Bối cảnh

Chinh Phụ Ngâm Khúc (征婦吟曲 — Khúc ngâm của người vợ lính) là một trong những tác phẩm hay nhất của văn học Việt Nam trung đại. Bản gốc được viết bằng chữ Hán bởi Đặng Trần Côn vào khoảng thập niên 1740, trong bối cảnh loạn lạc thời Lê mạt.

Tuy nhiên, bản được người Việt yêu thích và thuộc lòng không phải bản chữ Hán, mà là bản dịch sang chữ Nôm theo thể song thất lục bát — một kiệt tác dịch thuật mà nhiều người cho rằng còn hay hơn cả bản gốc.

Thuở trời đất nổi cơn gió bụi
Khách má hồng nhiều nỗi truân chuyên
Xanh kia thăm thẳm tầng trên
Vì ai gây dựng cho nên nỗi này — Chinh Phụ Ngâm Khúc, bản dịch Nôm

Và câu hỏi lớn là: Ai đã dịch bản Nôm này?

2 Cuộc tranh luận 250 năm

Suốt hơn hai thế kỷ, giới nghiên cứu văn học Việt Nam chia thành hai phái:

Phái 1: Đoàn Thị Điểm (1705–1748)

Nữ sĩ tài ba, tác giả Truyền kỳ tân phả. Là người được ghi tên trong phần lớn sách giáo khoa Việt Nam suốt thế kỷ XX.

Phái 2: Phan Huy Ích (1751–1822)

Danh sĩ thời Tây Sơn, tác giả Dụ Am ngâm lục. Được nhà nghiên cứu Hoàng Xuân Hãn và nhiều học giả ủng hộ từ thập niên 1940.

Lập luận cho Đoàn Thị Điểm

Đầu thế kỷ XIX

Phạm Đình Hổ trong Vũ trung tùy bút ghi tên bà là người dịch — đây là nguồn ghi chép sớm nhất.

Giọng nữ tính

Bản dịch viết từ góc nhìn người vợ ("thiếp"), rất tự nhiên và sâu sắc nếu tác giả là phụ nữ.

Tài năng văn chương

Bà nổi tiếng là nữ sĩ tài ba bậc nhất thời Lê, từng đối đáp khiến nam nho sinh phải kính phục.

Lập luận cho Phan Huy Ích

Thập niên 1940

Hoàng Xuân Hãn tìm thấy bản chép tay có lời tựa ghi tên Phan Huy Ích là người dịch.

Niên đại ngôn ngữ

Bản dịch mang dấu ấn ngôn ngữ cuối thế kỷ XVIII — gần thời Phan Huy Ích hơn (ông sống sau bà ~50 năm).

Gia tộc văn học

Nhà Phan Huy có truyền thống mạnh về dịch thuật Hán-Nôm. Ông quen thuộc thể song thất lục bát qua Dụ Am ngâm lục.

Thể loại phù hợp

Đoàn Thị Điểm chủ yếu viết văn xuôi chữ Hán (Truyền kỳ tân phả), không có tác phẩm thơ Nôm nào đủ dài để so sánh.

Cuộc tranh luận kéo dài hàng thế kỷ mà chưa có lời giải. Liệu khoa học dữ liệu có thể giúp soi sáng vấn đề?

3 Phương pháp: Stylometry là gì?

Stylometry (đo lường phong cách) là phương pháp dùng thống kê ngôn ngữ để xác định tác giả. Ý tưởng cốt lõi: mỗi người viết có "dấu vân tay ngôn ngữ" — cách dùng những từ nhỏ, vô hình mà bản thân không ý thức.

Những từ này gọi là hư từ (function words): "mà", "và", "đã", "còn", "cũng", "lại", "của", "cho", "được"... Chúng không mang nghĩa nội dung, nhưng tần suất sử dụng rất khác nhau giữa các tác giả và rất khó giả mạo.

Ba thước đo chúng tôi sử dụng

Thước đoCách hoạt độngĐọc kết quả
Cosine Similarity Đo góc giữa hai vector tần suất hư từ trong không gian nhiều chiều Cao hơn = giống hơn (thang 0–1)
Burrows' Delta "Chuẩn vàng" của stylometry — so sánh độ lệch chuẩn hóa (z-score) của từng hư từ Thấp hơn = giống hơn
Manhattan Distance Tổng chênh lệch tuyệt đối tần suất từng hư từ Thấp hơn = giống hơn

4 Dữ liệu

Chúng tôi thu thập các tác phẩm đã xác nhận chắc chắn tác giả:

MẫuTác phẩmSố từThể loại
Đoàn Thị Điểm Nữ trung tùng phận (4 phần) 9.803 Truyện thơ Nôm
Phan Huy Ích 9 bài văn tế + 11 bài Vân du tùy bút 3.488 Văn tế Nôm + Tùy bút
Chinh Phụ Ngâm Toàn bộ 13 chương bản dịch Nôm 2.884 Thơ song thất lục bát

Tập hư từ: 94 từ bao gồm đại từ (ta, tôi, thiếp, chàng...), liên từ, trợ từ, phó từ, giới từ, thán từ — được chọn phù hợp cho thơ Nôm trung đại.

Lưu ý quan trọng: Cả hai ứng viên đều có rất ít tác phẩm Nôm xác nhận. Đoàn Thị Điểm chủ yếu viết văn xuôi chữ Hán; Phan Huy Ích chủ yếu viết văn tế. Đây là hạn chế lớn nhất — chúng ta đang so sánh khác thể loại.

5 Thí nghiệm 1: Phân tích cơ bản

Chạy 3 thước đo với đầy đủ 94 hư từ:

Thước đoCPN ↔ ĐTĐCPN ↔ PHIGần hơn
Cosine Similarity 0.6983 0.5411 ĐTĐ
Burrows' Delta 1.5131 1.5544 ĐTĐ
Manhattan Distance 0.1355 0.1408 ĐTĐ

Kết quả ban đầu: ĐTĐ thắng 3/3

Chinh Phụ Ngâm gần Đoàn Thị Điểm hơn trên cả ba thước đo. Vậy xong rồi chứ? Chưa.

6 Phát hiện bất ngờ: Kết quả đảo ngược!

Khi nhìn kỹ vào top hư từ chênh lệch, chúng tôi phát hiện điều đáng ngờ:

Hư từCPN (%)ĐTĐ (%)PHI (%)Gần
chàng1.840.460.03ĐTĐ
thiếp1.040.620.00ĐTĐ
lại0.970.290.24ĐTĐ
0.210.810.03PHI
chẳng0.800.320.28ĐTĐ
người0.760.300.24ĐTĐ

"Chàng" chiếm 1.84% trong CPN (vì nội dung nói về chồng đi lính) và 0.46% trong ĐTĐ (Nữ trung tùng phận cũng có chàng/nàng). PHI viết văn tế → gần như không có "chàng" (0.03%). Tương tự với "thiếp".

Vấn đề: "Chàng" và "thiếp" không phải dấu vân tay phong cách — chúng là yếu tố chủ đề. CPN kể về vợ nhớ chồng nên nhiều "chàng/thiếp". ĐTĐ cũng viết truyện nam-nữ nên có. PHI viết văn tế nên không có. Kết quả bị nhiễu bởi nội dung, không phải phong cách.

Giải pháp: Bỏ hết đại từ (chàng, thiếp, ta, tôi, mình, ai, người, kẻ, bác, nó), chỉ giữ 52 hư từ "vô hình":

Thước đoCPN ↔ ĐTĐCPN ↔ PHIGần hơn
Cosine Similarity 0.7188 0.7303 PHI
Burrows' Delta 1.5854 1.3919 PHI
Manhattan Distance 0.0792 0.0645 PHI

Kết quả đảo ngược hoàn toàn: PHI thắng 3/3!

Khi loại bỏ nhiễu chủ đề, "dấu vân tay" thực sự của Chinh Phụ Ngâm gần Phan Huy Ích hơn trên cả ba thước đo.

So sánh trực quan hai thí nghiệm:

94 hư từ (có đại từ)

Cosine
ĐTĐ 0.698
PHI 0.541

52 hư từ "vô hình" (bỏ đại từ)

Cosine
ĐTĐ 0.719
PHI 0.730

7 Phân tích từng chương CPN

Chia CPN thành 13 chương, chạy với 52 hư từ "vô hình":

ChươngSố từCosine ĐTĐCosine PHIDelta ĐTĐDelta PHIKết quả
1. Loạn thời1680.5270.5291.8131.336PHI 3/3
2. Xuất chinh2800.5040.4591.8121.549PHI 2/3
3. Bi cụ3220.5710.6881.8111.312PHI 3/3
4. Hoài tưởng2660.3300.4971.8291.327PHI 3/3
5. Cô lánh1960.5070.5971.7531.376PHI 3/3
6. Mong tưởng1540.4320.4061.8301.378PHI 2/3
7. Sầu muộn2100.4040.4311.8011.421PHI 3/3
8. Thất vọng1680.3540.3741.8731.378PHI 3/3
9. Vọng tâm2800.4880.3891.7881.416PHI 2/3
10. Hoài nghi1040.5780.4981.8431.491PHI 2/3
11. Ưu lão3160.5410.5141.6761.418PHI 2/3
12. Nguyện ước1680.5770.4481.7501.593ĐTĐ 2/3
13. Khẩn cầu2520.5080.4981.6541.399PHI 2/3

Kết quả: 12/13 chương gần PHI, 1/13 gần ĐTĐ

Chỉ chương 12 ("Nguyện ước") nghiêng về ĐTĐ. Sự nhất quán xuyên suốt 13 chương cho thấy kết quả không phải ngẫu nhiên — tín hiệu phong cách ổn định.

Kiểm tra chéo (Cross-validation)

Để đảm bảo thuật toán đáng tin cậy, chúng tôi chạy hai bài kiểm tra:

Bài kiểm traKỳ vọngKết quả
Chia ĐTĐ làm 2 nửa, hỏi: "Nửa B của ai?" Phải trả lời ĐTĐ ĐTĐ 3/3 — Đúng!
Cho mẫu PHI vào, hỏi: "PHI của ai?" Phải trả lời PHI PHI 3/3 — Đúng!

Cả hai bài kiểm tra đều chính xác → thuật toán phân biệt được hai tác giả một cách đáng tin cậy.

Chỉ số bổ sung

Chỉ sốĐTĐPHICPNCPN gần
TTR (đa dạng từ vựng) 0.194 0.408 0.362 PHI
Độ dài dòng TB (từ) 7.0 9.9 7.0 ĐTĐ
Tỉ lệ Hán Việt (%) 5.13 4.99 3.64 Xa cả hai

Nhận xét: TTR (đa dạng từ vựng) của CPN gần PHI hơn, nhưng độ dài dòng lại gần ĐTĐ. Tỉ lệ Hán Việt của CPN thấp hơn cả hai — có thể do thể loại thơ trữ tình dùng ít từ Hán Việt hơn văn xuôi và văn tế.

8 Kết luận và hạn chế

Tổng kết phân tích

Thí nghiệmBộ hư từKết quả
Cơ bản94 từ (đủ đại từ)ĐTĐ 3/3
Bỏ đại từ84 từPHI 2/3
Chỉ hư từ "vô hình"52 từPHI 3/3
Từng chương (52 từ)13 chươngPHI 12/13
Cross-validationKiểm tra chéoChính xác 100%

Kết quả chính

Khi loại bỏ nhiễu chủ đề (đại từ "chàng/thiếp"), tín hiệu phong cách ngôn ngữ trong Chinh Phụ Ngâm nhất quán gần Phan Huy Ích hơn, ổn định xuyên suốt 13 chương.

Kết quả này phù hợp với quan điểm của Hoàng Xuân Hãn và nhiều nhà nghiên cứu hiện đại.

Những hạn chế cần nhìn nhận

1. Khác thể loại nghiêm trọng: ĐTĐ → truyện thơ Nôm, PHI → văn tế + tùy bút, CPN → thơ trữ tình song thất lục bát. Khác thể loại ảnh hưởng rất lớn đến tần suất hư từ. Nếu tìm được thêm thơ Nôm xác nhận của ĐTĐ, kết quả có thể thay đổi.

2. Mẫu PHI nhỏ: Chỉ 3.488 từ — ở ngưỡng tối thiểu cho stylometry. Cần thêm dữ liệu để tăng độ tin cậy.

3. Có thể có nhiều bản dịch: Một giả thuyết thú vị là có thể cả hai đều dịch, và bản lưu truyền là sự tổng hợp từ nhiều nguồn.

4. Ngôn ngữ biến đổi: ĐTĐ sống nửa đầu thế kỷ XVIII, PHI sống nửa sau. 50 năm đủ để ngôn ngữ Nôm có sự khác biệt — CPN gần PHI có thể vì cùng thời kỳ ngôn ngữ, không nhất thiết vì cùng tác giả.

Bài học lớn nhất: Stylometry không cho đáp án tuyệt đối. Nó cho chúng ta bằng chứng thống kê để cân nhắc cùng với bằng chứng văn bản học, lịch sử, và ngữ văn. Đặc biệt, việc kết quả đảo ngược hoàn toàn khi thay đổi bộ hư từ nhắc nhở rằng: phải luôn hiểu dữ liệu mình đang phân tích, không chỉ chạy thuật toán và tin kết quả.

9 Tự thử nghiệm

Bạn có thể tự chạy lại toàn bộ thí nghiệm này bằng công cụ Thám tử văn học:

Thử ngay công cụ Thám tử văn học

Tải mẫu sẵn hoặc dán văn bản tự tìm.
Thử bỏ "chàng/thiếp" xem kết quả có đảo ngược không!

Mở Thám tử văn học

Bài viết dựa trên phân tích thực hiện ngày 21/03/2026 bằng phương pháp Function Words Stylometry.
Dữ liệu nguồn: Nữ trung tùng phận (ĐTĐ), Dụ Am ngâm lục — Văn tế & Vân du tùy bút (PHI), Chinh Phụ Ngâm bản Nôm 13 chương.

📚 Xem thêm bài học hay tại Phần mềm Năng lực số
👁 Lượt xem: 0

Ý tưởng và thực hiện: Nguyễn Minh Hải