Chinh Phụ Ngâm Khúc (征婦吟曲 — Khúc ngâm của người vợ lính) là một trong những tác phẩm hay nhất của văn học Việt Nam trung đại. Bản gốc được viết bằng chữ Hán bởi Đặng Trần Côn vào khoảng thập niên 1740, trong bối cảnh loạn lạc thời Lê mạt.
Tuy nhiên, bản được người Việt yêu thích và thuộc lòng không phải bản chữ Hán, mà là bản dịch sang chữ Nôm theo thể song thất lục bát — một kiệt tác dịch thuật mà nhiều người cho rằng còn hay hơn cả bản gốc.
Và câu hỏi lớn là: Ai đã dịch bản Nôm này?
Suốt hơn hai thế kỷ, giới nghiên cứu văn học Việt Nam chia thành hai phái:
Nữ sĩ tài ba, tác giả Truyền kỳ tân phả. Là người được ghi tên trong phần lớn sách giáo khoa Việt Nam suốt thế kỷ XX.
Danh sĩ thời Tây Sơn, tác giả Dụ Am ngâm lục. Được nhà nghiên cứu Hoàng Xuân Hãn và nhiều học giả ủng hộ từ thập niên 1940.
Phạm Đình Hổ trong Vũ trung tùy bút ghi tên bà là người dịch — đây là nguồn ghi chép sớm nhất.
Bản dịch viết từ góc nhìn người vợ ("thiếp"), rất tự nhiên và sâu sắc nếu tác giả là phụ nữ.
Bà nổi tiếng là nữ sĩ tài ba bậc nhất thời Lê, từng đối đáp khiến nam nho sinh phải kính phục.
Hoàng Xuân Hãn tìm thấy bản chép tay có lời tựa ghi tên Phan Huy Ích là người dịch.
Bản dịch mang dấu ấn ngôn ngữ cuối thế kỷ XVIII — gần thời Phan Huy Ích hơn (ông sống sau bà ~50 năm).
Nhà Phan Huy có truyền thống mạnh về dịch thuật Hán-Nôm. Ông quen thuộc thể song thất lục bát qua Dụ Am ngâm lục.
Đoàn Thị Điểm chủ yếu viết văn xuôi chữ Hán (Truyền kỳ tân phả), không có tác phẩm thơ Nôm nào đủ dài để so sánh.
Stylometry (đo lường phong cách) là phương pháp dùng thống kê ngôn ngữ để xác định tác giả. Ý tưởng cốt lõi: mỗi người viết có "dấu vân tay ngôn ngữ" — cách dùng những từ nhỏ, vô hình mà bản thân không ý thức.
Những từ này gọi là hư từ (function words): "mà", "và", "đã", "còn", "cũng", "lại", "của", "cho", "được"... Chúng không mang nghĩa nội dung, nhưng tần suất sử dụng rất khác nhau giữa các tác giả và rất khó giả mạo.
| Thước đo | Cách hoạt động | Đọc kết quả |
|---|---|---|
| Cosine Similarity | Đo góc giữa hai vector tần suất hư từ trong không gian nhiều chiều | Cao hơn = giống hơn (thang 0–1) |
| Burrows' Delta | "Chuẩn vàng" của stylometry — so sánh độ lệch chuẩn hóa (z-score) của từng hư từ | Thấp hơn = giống hơn |
| Manhattan Distance | Tổng chênh lệch tuyệt đối tần suất từng hư từ | Thấp hơn = giống hơn |
Chúng tôi thu thập các tác phẩm đã xác nhận chắc chắn tác giả:
| Mẫu | Tác phẩm | Số từ | Thể loại |
|---|---|---|---|
| Đoàn Thị Điểm | Nữ trung tùng phận (4 phần) | 9.803 | Truyện thơ Nôm |
| Phan Huy Ích | 9 bài văn tế + 11 bài Vân du tùy bút | 3.488 | Văn tế Nôm + Tùy bút |
| Chinh Phụ Ngâm | Toàn bộ 13 chương bản dịch Nôm | 2.884 | Thơ song thất lục bát |
Tập hư từ: 94 từ bao gồm đại từ (ta, tôi, thiếp, chàng...), liên từ, trợ từ, phó từ, giới từ, thán từ — được chọn phù hợp cho thơ Nôm trung đại.
Chạy 3 thước đo với đầy đủ 94 hư từ:
| Thước đo | CPN ↔ ĐTĐ | CPN ↔ PHI | Gần hơn |
|---|---|---|---|
| Cosine Similarity | 0.6983 | 0.5411 | ĐTĐ |
| Burrows' Delta | 1.5131 | 1.5544 | ĐTĐ |
| Manhattan Distance | 0.1355 | 0.1408 | ĐTĐ |
Chinh Phụ Ngâm gần Đoàn Thị Điểm hơn trên cả ba thước đo. Vậy xong rồi chứ? Chưa.
Khi nhìn kỹ vào top hư từ chênh lệch, chúng tôi phát hiện điều đáng ngờ:
| Hư từ | CPN (%) | ĐTĐ (%) | PHI (%) | Gần |
|---|---|---|---|---|
| chàng | 1.84 | 0.46 | 0.03 | ĐTĐ |
| thiếp | 1.04 | 0.62 | 0.00 | ĐTĐ |
| lại | 0.97 | 0.29 | 0.24 | ĐTĐ |
| là | 0.21 | 0.81 | 0.03 | PHI |
| chẳng | 0.80 | 0.32 | 0.28 | ĐTĐ |
| người | 0.76 | 0.30 | 0.24 | ĐTĐ |
"Chàng" chiếm 1.84% trong CPN (vì nội dung nói về chồng đi lính) và 0.46% trong ĐTĐ (Nữ trung tùng phận cũng có chàng/nàng). PHI viết văn tế → gần như không có "chàng" (0.03%). Tương tự với "thiếp".
Giải pháp: Bỏ hết đại từ (chàng, thiếp, ta, tôi, mình, ai, người, kẻ, bác, nó), chỉ giữ 52 hư từ "vô hình":
| Thước đo | CPN ↔ ĐTĐ | CPN ↔ PHI | Gần hơn |
|---|---|---|---|
| Cosine Similarity | 0.7188 | 0.7303 | PHI |
| Burrows' Delta | 1.5854 | 1.3919 | PHI |
| Manhattan Distance | 0.0792 | 0.0645 | PHI |
Khi loại bỏ nhiễu chủ đề, "dấu vân tay" thực sự của Chinh Phụ Ngâm gần Phan Huy Ích hơn trên cả ba thước đo.
So sánh trực quan hai thí nghiệm:
Chia CPN thành 13 chương, chạy với 52 hư từ "vô hình":
| Chương | Số từ | Cosine ĐTĐ | Cosine PHI | Delta ĐTĐ | Delta PHI | Kết quả |
|---|---|---|---|---|---|---|
| 1. Loạn thời | 168 | 0.527 | 0.529 | 1.813 | 1.336 | PHI 3/3 |
| 2. Xuất chinh | 280 | 0.504 | 0.459 | 1.812 | 1.549 | PHI 2/3 |
| 3. Bi cụ | 322 | 0.571 | 0.688 | 1.811 | 1.312 | PHI 3/3 |
| 4. Hoài tưởng | 266 | 0.330 | 0.497 | 1.829 | 1.327 | PHI 3/3 |
| 5. Cô lánh | 196 | 0.507 | 0.597 | 1.753 | 1.376 | PHI 3/3 |
| 6. Mong tưởng | 154 | 0.432 | 0.406 | 1.830 | 1.378 | PHI 2/3 |
| 7. Sầu muộn | 210 | 0.404 | 0.431 | 1.801 | 1.421 | PHI 3/3 |
| 8. Thất vọng | 168 | 0.354 | 0.374 | 1.873 | 1.378 | PHI 3/3 |
| 9. Vọng tâm | 280 | 0.488 | 0.389 | 1.788 | 1.416 | PHI 2/3 |
| 10. Hoài nghi | 104 | 0.578 | 0.498 | 1.843 | 1.491 | PHI 2/3 |
| 11. Ưu lão | 316 | 0.541 | 0.514 | 1.676 | 1.418 | PHI 2/3 |
| 12. Nguyện ước | 168 | 0.577 | 0.448 | 1.750 | 1.593 | ĐTĐ 2/3 |
| 13. Khẩn cầu | 252 | 0.508 | 0.498 | 1.654 | 1.399 | PHI 2/3 |
Chỉ chương 12 ("Nguyện ước") nghiêng về ĐTĐ. Sự nhất quán xuyên suốt 13 chương cho thấy kết quả không phải ngẫu nhiên — tín hiệu phong cách ổn định.
Để đảm bảo thuật toán đáng tin cậy, chúng tôi chạy hai bài kiểm tra:
| Bài kiểm tra | Kỳ vọng | Kết quả |
|---|---|---|
| Chia ĐTĐ làm 2 nửa, hỏi: "Nửa B của ai?" | Phải trả lời ĐTĐ | ĐTĐ 3/3 — Đúng! |
| Cho mẫu PHI vào, hỏi: "PHI của ai?" | Phải trả lời PHI | PHI 3/3 — Đúng! |
Cả hai bài kiểm tra đều chính xác → thuật toán phân biệt được hai tác giả một cách đáng tin cậy.
| Chỉ số | ĐTĐ | PHI | CPN | CPN gần |
|---|---|---|---|---|
| TTR (đa dạng từ vựng) | 0.194 | 0.408 | 0.362 | PHI |
| Độ dài dòng TB (từ) | 7.0 | 9.9 | 7.0 | ĐTĐ |
| Tỉ lệ Hán Việt (%) | 5.13 | 4.99 | 3.64 | Xa cả hai |
Nhận xét: TTR (đa dạng từ vựng) của CPN gần PHI hơn, nhưng độ dài dòng lại gần ĐTĐ. Tỉ lệ Hán Việt của CPN thấp hơn cả hai — có thể do thể loại thơ trữ tình dùng ít từ Hán Việt hơn văn xuôi và văn tế.
| Thí nghiệm | Bộ hư từ | Kết quả |
|---|---|---|
| Cơ bản | 94 từ (đủ đại từ) | ĐTĐ 3/3 |
| Bỏ đại từ | 84 từ | PHI 2/3 |
| Chỉ hư từ "vô hình" | 52 từ | PHI 3/3 |
| Từng chương (52 từ) | 13 chương | PHI 12/13 |
| Cross-validation | Kiểm tra chéo | Chính xác 100% |
Khi loại bỏ nhiễu chủ đề (đại từ "chàng/thiếp"), tín hiệu phong cách ngôn ngữ trong Chinh Phụ Ngâm nhất quán gần Phan Huy Ích hơn, ổn định xuyên suốt 13 chương.
Kết quả này phù hợp với quan điểm của Hoàng Xuân Hãn và nhiều nhà nghiên cứu hiện đại.
1. Khác thể loại nghiêm trọng: ĐTĐ → truyện thơ Nôm, PHI → văn tế + tùy bút, CPN → thơ trữ tình song thất lục bát. Khác thể loại ảnh hưởng rất lớn đến tần suất hư từ. Nếu tìm được thêm thơ Nôm xác nhận của ĐTĐ, kết quả có thể thay đổi.
2. Mẫu PHI nhỏ: Chỉ 3.488 từ — ở ngưỡng tối thiểu cho stylometry. Cần thêm dữ liệu để tăng độ tin cậy.
3. Có thể có nhiều bản dịch: Một giả thuyết thú vị là có thể cả hai đều dịch, và bản lưu truyền là sự tổng hợp từ nhiều nguồn.
4. Ngôn ngữ biến đổi: ĐTĐ sống nửa đầu thế kỷ XVIII, PHI sống nửa sau. 50 năm đủ để ngôn ngữ Nôm có sự khác biệt — CPN gần PHI có thể vì cùng thời kỳ ngôn ngữ, không nhất thiết vì cùng tác giả.
Bạn có thể tự chạy lại toàn bộ thí nghiệm này bằng công cụ Thám tử văn học:
Tải mẫu sẵn hoặc dán văn bản tự tìm.
Thử bỏ "chàng/thiếp" xem kết quả có đảo ngược không!
Bài viết dựa trên phân tích thực hiện ngày 21/03/2026 bằng phương pháp Function Words Stylometry.
Dữ liệu nguồn: Nữ trung tùng phận (ĐTĐ), Dụ Am ngâm lục — Văn tế & Vân du tùy bút (PHI), Chinh Phụ Ngâm bản Nôm 13 chương.
Ý tưởng và thực hiện: Nguyễn Minh Hải