Một sự hợp tác giữa các nhà nghiên cứu tại Hoa Kỳ và Canada đã phát hiện ra rằng các mô hình ngôn ngữ lớn (LLM) như ChatGPT gặp khó khăn trong việc tái tạo các thành ngữ lịch sử mà không cần nhiều tập huấn trước – một quá trình tốn kém và đòi hỏi nhiều công sức, vượt quá khả năng của hầu hết các sáng kiến học thuật hoặc giải trí, tạo ra các dự án như hoàn thành cuốn tiểu thuyết cuối cùng còn dang dở của Charles Dickens thực sự thông qua AI là một đề xuất không thể xảy ra.
Các nhà nghiên cứu đã khám phá một loạt các phương pháp để tạo ra văn bản Nghe chính xác về mặt lịch sử, bắt đầu bằng lời nhắc nhở đơn giản sử dụng văn xuôi đầu thế kỷ XX và chuyển sang tinh chỉnh một mô hình thương mại về một bộ sưu tập sách nhỏ từ thời kỳ đó.
Họ cũng so sánh kết quả với một mô hình riêng biệt được đào tạo hoàn toàn trên những cuốn sách được xuất bản từ năm 1880 đến năm 1914.
Trong thử nghiệm đầu tiên, hướng dẫn ChatGPT-4o bắt chước vây–de–thế kỷ ngôn ngữ tạo ra những kết quả khá khác biệt so với những kết quả của mô hình nhỏ hơn dựa trên GPT2 đã được tinh chỉnh dựa trên tài liệu từ thời kỳ đó:

Khi được yêu cầu hoàn thành một văn bản lịch sử thực sự (trên cùng ở giữa), ngay cả ChatGPT-4o được chuẩn bị kỹ lưỡng (dưới cùng bên trái) cũng không thể không quay trở lại chế độ ‘blog’, không thể biểu diễn được thành ngữ được yêu cầu. Ngược lại, mô hình GPT2 được tinh chỉnh (dưới cùng bên phải) nắm bắt được phong cách ngôn ngữ tốt, nhưng không chính xác theo những cách khác. Nguồn: https://arxiv.org/pdf/2505.00030
Mặc dù việc tinh chỉnh giúp đầu ra gần với phong cách ban đầu hơn, người đọc vẫn thường có thể phát hiện ra dấu vết của ngôn ngữ hoặc ý tưởng hiện đại, điều này cho thấy ngay cả các mô hình được điều chỉnh cẩn thận vẫn tiếp tục phản ánh ảnh hưởng của dữ liệu đào tạo đương thời của chúng.
Các nhà nghiên cứu đi đến kết luận đáng thất vọng rằng không có cách nào tiết kiệm chi phí để tạo ra văn bản lịch sử hoặc đối thoại đúng ngữ pháp do máy tạo ra. Họ cũng phỏng đoán rằng bản thân thách thức có thể không được đặt ra một cách hợp lý:
‘[Chúng ta] cũng nên cân nhắc khả năng rằng sự bất hợp lý về mặt nào đó có thể là không thể tránh khỏi. Cho dù chúng ta thể hiện quá khứ bằng cách hướng dẫn điều chỉnh các mô hình lịch sử để chúng có thể trò chuyện, hay bằng cách dạy các mô hình đương đại để nói chuyện với một giai đoạn cũ hơn, thì có thể cần phải có một số sự thỏa hiệp giữa các mục tiêu về tính xác thực và sự trôi chảy trong giao tiếp.
‘Rốt cuộc, không có ví dụ “xác thực” nào về cuộc trò chuyện giữa người hỏi và người trả lời vào thế kỷ 1914 từ năm XNUMX. Các nhà nghiên cứu cố gắng tạo ra một cuộc trò chuyện như vậy sẽ cần phải suy ngẫm về [tiền đề] rằng việc diễn giải luôn bao gồm sự đàm phán giữa hiện tại và [quá khứ].’
Nghiên cứu mới có tiêu đề Liệu mô hình ngôn ngữ có thể tái hiện quá khứ mà không có sự lỗi thời không?và đến từ ba nhà nghiên cứu đến từ Đại học Illinois, Đại học British Columbia và Đại học Cornell.
Thảm họa hoàn toàn
Ban đầu, trong phương pháp nghiên cứu ba phần, các tác giả đã kiểm tra xem các mô hình ngôn ngữ hiện đại có thể được thúc đẩy để bắt chước ngôn ngữ lịch sử thông qua lời nhắc đơn giản hay không. Sử dụng các đoạn trích thực tế từ những cuốn sách được xuất bản từ năm 1905 đến năm 1914, họ đã yêu cầu ChatGPT‑4o tiếp tục các đoạn văn này bằng cùng một thành ngữ.
Văn bản gốc của thời kỳ đó là:
‘Trong trường hợp cuối cùng này, khoảng năm hoặc sáu đô la được tiết kiệm cho mỗi phút, vì phải kéo dài hơn hai mươi thước phim để chiếu trong một phút một vật thể của một người đang nghỉ ngơi hoặc một phong cảnh. Như vậy, có được sự kết hợp thực tế giữa hình ảnh tĩnh và hình ảnh động, tạo ra hiệu ứng nghệ thuật nhất.
‘Nó cũng cho phép chúng tôi làm việc với hai máy quay phim chiếu xen kẽ để tránh hiện tượng nhấp nháy, hoặc chiếu đồng thời hình ảnh màu đỏ và xanh lá cây và tái tạo màu sắc tự nhiên, do đó giúp mắt người, vốn quen với việc tiếp nhận các màu cơ bản cùng lúc, thoát khỏi mọi sự mệt mỏi về mặt sinh lý. Bây giờ chúng ta sẽ nói về ứng dụng của ánh sáng lạnh vào nhiếp ảnh tức thời.’
Để đánh giá xem văn bản được tạo ra có phù hợp với phong cách lịch sử dự định hay không và nhận thức rằng mọi người không đặc biệt giỏi đoán ngày tháng một văn bản được viết, các nhà nghiên cứu đã tinh chỉnh một roberta mô hình để ước tính ngày xuất bản, sử dụng một tập hợp con của Corpus của tiếng Anh lịch sử Mỹ, bao gồm tài liệu từ năm 1810 đến năm 2009.
Sau đó, bộ phân loại RoBERTa được sử dụng để đánh giá các phần tiếp theo do ChatGPT‑4o tạo ra, được gợi ý bằng các đoạn văn thực tế từ những cuốn sách được xuất bản từ năm 1905 đến năm 1914.
Lời nhắc của hệ thống (tức là hướng dẫn theo ngữ cảnh cho ChatGPT về cách tiếp cận nhiệm vụ) là:
‘Nhiệm vụ của bạn là hoàn thành các đoạn văn từ những cuốn sách đầu thế kỷ XX. Bạn sẽ được cung cấp một đoạn văn từ một cuốn sách xuất bản năm 1913. Tiếp tục đoạn văn này theo cùng một phong cách, ít nhất 200 từ. Chỉ cung cấp phần tiếp theo này; không đưa ra bất kỳ nhận xét đóng khung nào, như ‘đây là phần tiếp theo:’.
Mặc dù cả hai một phát và 20 phát gợi ý, đầu ra của ChatGPT-4o luôn hướng tới phong cách ngôn ngữ của thế kỷ 21.
Ví dụ đưa ra trong bài báo nêu bật một trong những nỗ lực giống như blog của ChatGPT-4o nhằm tiếp tục nội dung văn bản thực tế về nhiếp ảnh:
‘Việc sử dụng ánh sáng lạnh trong nhiếp ảnh tức thời đã cách mạng hóa cách tiếp cận để chụp ảnh trong điều kiện ánh sáng khác nhau. Theo truyền thống, các nhiếp ảnh gia phải vật lộn với sự khắc nghiệt và thay đổi của ánh sáng tự nhiên hoặc bản chất xâm lấn của nhiếp ảnh flash, có thể làm xáo trộn bầu không khí của một cảnh hoặc hành vi tự nhiên của các đối tượng, đặc biệt là trong nhiếp ảnh động vật hoang dã và nhiếp ảnh chân dung con người.
‘Ánh sáng lạnh, với bản chất mềm mại và khuếch tán hơn… cho phép thể hiện màu sắc và kết cấu tự nhiên hơn, điều này thường bị mất đi dưới ánh sáng nhân tạo gay gắt.’
Như chúng ta có thể dễ dàng thấy, văn bản chung chung theo phong cách Wiki này không khớp với phong cách dài dòng và phức tạp của văn bản gốc thời kỳ đó. Hơn nữa, nó không thực sự tiếp tục từ nơi nội dung gốc dừng lại, mà chuyển sang một suy ngẫm trừu tượng, lan man về một trong những chủ đề phụ.
Nhóm nghiên cứu cũng đã thử nghiệm GPT-1914, một mô hình lớp GPT‑2 nhỏ hơn được đào tạo từ đầu trên 26.5 tỷ mã thông báo tài liệu có niên đại từ năm 1880 đến năm 1914.
Mặc dù kết quả của nó kém mạch lạc hơn so với ChatGPT‑4o, nhưng nó phù hợp hơn với phong cách của giai đoạn nguồn. Ví dụ duy nhất được cung cấp trong bài báo, một lần nữa là sự hoàn thiện của văn bản về giai đoạn thực tế về nhiếp ảnh, có nội dung như sau:
‘Nguyên lý hoạt động của nó đã được giải thích (trang 4). Ở đây chúng tôi chỉ đề cập rằng nó có thể được áp dụng một cách có lợi khi chúng ta muốn chụp ảnh rất nhanh trên giấy phủ collodion, cũng như những bức ảnh chụp bằng tấm gelatin.
‘Trong những trường hợp như vậy, thời gian phơi sáng không được vượt quá ít nhất một giây; nhưng nếu muốn hình ảnh được tráng trong thời gian ngắn hơn – chẳng hạn như nửa giây – thì nhiệt độ không bao giờ được giảm xuống dưới 20° C., nếu không, hình ảnh sẽ trở nên quá tối sau khi tráng; hơn nữa, tấm phim sẽ mất độ nhạy trong những điều kiện này.
‘Tuy nhiên, đối với mục đích thông thường, chỉ cần để bề mặt nhạy cảm tiếp xúc với nhiệt độ thấp là đủ mà không cần bất kỳ biện pháp phòng ngừa đặc biệt nào ngoài việc giữ’ [sic]
Vì ngay cả tài liệu gốc và thực tế cũng rất bí ẩn và khá khó hiểu nên rất khó để hiểu được mức độ chính xác mà GPT-1914 đã lấy từ bản gốc; nhưng âm thanh đầu ra chắc chắn nghe chân thực hơn.
Tuy nhiên, các tác giả kết luận từ thí nghiệm này rằng việc nhắc nhở đơn giản không giúp khắc phục được những sai lệch hiện đại của một mô hình được đào tạo trước quy mô lớn như ChatGPT-4o.
Các âm mưu dày
Để đo lường mức độ gần giống giữa kết quả mô hình với văn bản lịch sử xác thực, các nhà nghiên cứu đã sử dụng một bộ phân loại thống kê để ước tính ngày xuất bản có thể có của mỗi mẫu văn bản. Sau đó, họ trực quan hóa kết quả bằng cách sử dụng Biểu đồ mật độ hạt nhân, cho thấy mô hình cho rằng mỗi đoạn văn nằm ở đâu trên dòng thời gian lịch sử.

Ngày xuất bản ước tính cho văn bản thực và văn bản được tạo, dựa trên bộ phân loại được đào tạo để nhận dạng phong cách lịch sử (văn bản nguồn 1905–1914 so với phần tiếp theo của GPT‑4o sử dụng lời nhắc một lần và 20 lần, và của GPT‑1914 chỉ được đào tạo trên tài liệu từ năm 1880–1914).
Mô hình RoBERTa được tinh chỉnh được sử dụng cho nhiệm vụ này, các tác giả lưu ý, không hoàn hảo, nhưng vẫn có thể làm nổi bật các xu hướng phong cách chung. Các đoạn văn do GPT-1914 viết, mô hình được đào tạo hoàn toàn trên văn học thời kỳ đó, tập trung vào đầu thế kỷ XX – tương tự như tài liệu nguồn gốc.
Ngược lại, đầu ra của ChatGPT-4o, ngay cả khi được nhắc đến với nhiều ví dụ lịch sử, có xu hướng giống với văn bản thế kỷ XNUMX, phản ánh dữ liệu mà nó ban đầu được đào tạo.
Các nhà nghiên cứu định lượng sự không phù hợp này bằng cách sử dụng Phân kỳ Jensen-Shannon, thước đo mức độ khác nhau của hai phân phối xác suất. GPT‑1914 đạt điểm sít sao 0.006 so với văn bản lịch sử thực tế, trong khi kết quả một lần và 4 lần của ChatGPT‑20o cho thấy khoảng cách rộng hơn nhiều, lần lượt là 0.310 và 0.350.
Các tác giả cho rằng những phát hiện này chỉ ra rằng việc chỉ nhắc nhở, ngay cả khi có nhiều ví dụ, cũng không phải là cách đáng tin cậy để tạo ra văn bản mô phỏng một cách thuyết phục phong cách lịch sử.
Hoàn thành đoạn văn
Sau đó, bài báo điều tra xem liệu việc tinh chỉnh có thể tạo ra kết quả tốt hơn hay không, vì quá trình này liên quan trực tiếp đến việc sử dụng trọng lượng của một mô hình bằng cách ‘tiếp tục’ quá trình đào tạo của nó trên dữ liệu do người dùng chỉ định – một quá trình có thể ảnh hưởng đến chức năng cốt lõi ban đầu của mô hình, nhưng cải thiện đáng kể hiệu suất của nó trên miền đang được ‘đẩy’ vào nó hoặc được nhấn mạnh trong quá trình đào tạo chính xác.
Trong thí nghiệm tinh chỉnh đầu tiên, nhóm đã đào tạo GPT-4o-mini trên khoảng hai nghìn cặp hoàn thành đoạn văn được rút ra từ những cuốn sách xuất bản từ năm 1905 đến năm 1914, với mục đích xem liệu một sự điều chỉnh nhỏ hơn có thể chuyển dịch đầu ra của mô hình theo hướng chính xác hơn về mặt lịch sử hay không.
Sử dụng cùng một bộ phân loại dựa trên RoBERTa đóng vai trò là người đánh giá trong các thử nghiệm trước đó để ước tính ‘ngày’ theo phong cách của mỗi đầu ra, các nhà nghiên cứu phát hiện ra rằng trong thử nghiệm mới, mô hình được tinh chỉnh đã tạo ra văn bản gần đúng với sự thật cơ bản.
Sự khác biệt về phong cách so với các văn bản gốc, được đo bằng sự khác biệt của Jensen-Shannon, đã giảm xuống còn 0.002, nhìn chung phù hợp với GPT‑1914:

Ngày xuất bản ước tính cho văn bản thực và văn bản được tạo, cho thấy mức độ phù hợp giữa GPT‑1914 và phiên bản tinh chỉnh của GPT‑4o‑mini với phong cách viết đầu thế kỷ XX (dựa trên các cuốn sách xuất bản từ năm 1905 đến năm 1914).
Tuy nhiên, các nhà nghiên cứu cảnh báo rằng thước đo này chỉ có thể nắm bắt được những đặc điểm bề ngoài của phong cách lịch sử chứ không phải những sự sai lệch sâu sắc hơn về mặt khái niệm hoặc thực tế.
‘[Đây] không phải là một bài kiểm tra rất nhạy cảm. Mô hình RoBERTa được sử dụng làm thẩm phán ở đây chỉ được đào tạo để dự đoán ngày tháng, không phải để phân biệt các đoạn văn xác thực với các đoạn văn không hợp thời. Có lẽ nó sử dụng bằng chứng văn phong thô để đưa ra dự đoán đó. Người đọc là con người, hoặc các mô hình lớn hơn, vẫn có thể phát hiện ra nội dung không hợp thời trong các đoạn văn nghe có vẻ “hợp thời”.’
Con người liên lạc
Cuối cùng, các nhà nghiên cứu đã tiến hành các cuộc thử nghiệm đánh giá trên con người bằng cách sử dụng 250 đoạn văn được chọn lọc thủ công từ những cuốn sách được xuất bản từ năm 1905 đến năm 1914, và họ nhận thấy rằng nhiều văn bản trong số này có thể được diễn giải khá khác so với thời điểm viết bài:
‘Danh sách của chúng tôi bao gồm, ví dụ, một mục từ bách khoa toàn thư về Alsace (lúc đó là một phần của Đức) và một mục về bệnh beri-beri (lúc đó thường được giải thích là một căn bệnh do nấm chứ không phải là tình trạng thiếu hụt dinh dưỡng). Mặc dù đó là những khác biệt về thực tế, chúng tôi cũng đã chọn những đoạn văn thể hiện những khác biệt tinh tế hơn về thái độ, hùng biện hoặc trí tưởng tượng.
‘Ví dụ, mô tả về những nơi không phải của châu Âu vào đầu thế kỷ XX có xu hướng trượt vào khái quát chủng tộc. Một mô tả về bình minh trên mặt trăng được viết vào năm 1913 tưởng tượng ra hiện tượng sắc độ phong phú, bởi vì chưa ai từng thấy ảnh chụp một thế giới không có [bầu khí quyển]’.
Các nhà nghiên cứu đã tạo ra những câu hỏi ngắn mà mỗi đoạn văn lịch sử có thể trả lời một cách hợp lý, sau đó tinh chỉnh GPT-4o-mini trên các cặp câu hỏi-trả lời này. Để tăng cường đánh giá, họ đã đào tạo năm phiên bản riêng biệt của mô hình, mỗi lần cầm ra một phần dữ liệu khác để thử nghiệm.
Sau đó, họ tạo ra các phản hồi bằng cách sử dụng cả phiên bản mặc định của GPT-4o và GPT-4o‑mini cũng như các biến thể được tinh chỉnh, mỗi biến thể được đánh giá trên phần mà nó chưa thấy trong quá trình đào tạo.
Lost in Time
Để đánh giá mức độ thuyết phục của các mô hình trong việc mô phỏng ngôn ngữ lịch sử, các nhà nghiên cứu đã yêu cầu ba chuyên gia chú thích xem xét 120 bản hoàn thiện do AI tạo ra và đánh giá xem liệu mỗi bản có hợp lý với một nhà văn vào năm 1914 hay không.
Phương pháp đánh giá trực tiếp này tỏ ra khó khăn hơn dự kiến: mặc dù những người chú thích đồng ý với đánh giá của họ gần tám mươi phần trăm thời gian, sự mất cân bằng trong phán đoán của họ (với “có thể chấp nhận được” được chọn thường xuyên gấp đôi “không có thể chấp nhận được”) có nghĩa là mức độ đồng ý thực tế của họ chỉ ở mức trung bình, được đo bằng Điểm Kappa của Cohen của 0.554.
Bản thân người đánh giá đã mô tả nhiệm vụ như sau khó khăn, thường đòi hỏi phải nghiên cứu thêm để đánh giá xem tuyên bố đó có phù hợp với những gì được biết hoặc tin tưởng vào năm 1914 hay không.
Một số đoạn văn nêu ra những câu hỏi khó về giọng điệu và quan điểm – ví dụ, liệu một phản hồi có được giới hạn phù hợp trong thế giới quan của nó để phản ánh những gì sẽ là điển hình vào năm 1914 hay không. Loại phán đoán này thường phụ thuộc vào mức độ chủ nghĩa dân tộc (tức là xu hướng nhìn nhận các nền văn hóa khác thông qua những giả định hoặc thành kiến của riêng mình).
Trong bối cảnh này, thách thức là quyết định xem một đoạn văn có thể hiện đủ sự thiên vị văn hóa để có vẻ hợp lý về mặt lịch sử mà không nghe có vẻ quá hiện đại hay quá xúc phạm theo tiêu chuẩn ngày nay hay không. Các tác giả lưu ý rằng ngay cả đối với các học giả quen thuộc với giai đoạn này, cũng rất khó để vạch ra một ranh giới rõ ràng giữa ngôn ngữ có cảm giác chính xác về mặt lịch sử và ngôn ngữ phản ánh các ý tưởng hiện tại.
Tuy nhiên, kết quả cho thấy thứ hạng rõ ràng của các mô hình, với phiên bản tinh chỉnh của GPT‑4o‑mini được đánh giá là hợp lý nhất về tổng thể:

Đánh giá của người chú thích về mức độ hợp lý của kết quả đầu ra của từng mô hình
Cho dù mức độ hiệu suất này được đánh giá hợp lý trong tám mươi phần trăm các trường hợp, đủ tin cậy để nghiên cứu lịch sử vẫn chưa rõ ràng – đặc biệt là vì nghiên cứu không bao gồm biện pháp cơ bản về tần suất các văn bản thời kỳ chính thống có thể bị phân loại sai.
Cảnh báo kẻ xâm nhập
Tiếp theo là ‘bài kiểm tra xâm nhập’, trong đó các chuyên gia chú thích được cho xem bốn đoạn văn ẩn danh trả lời cùng một câu hỏi lịch sử. Ba trong số các câu trả lời đến từ các mô hình ngôn ngữ, trong khi một câu trả lời là một đoạn trích thực sự và chính hãng từ một nguồn thực tế vào đầu thế kỷ XX.
Nhiệm vụ là xác định đoạn văn nào là đoạn văn gốc, thực sự được viết vào thời kỳ đó.
Cách tiếp cận này không yêu cầu người chú thích đánh giá trực tiếp mức độ hợp lý mà thay vào đó đo tần suất đoạn văn thực sự nổi bật so với phản hồi do AI tạo ra, trên thực tế, kiểm tra xem các mô hình có thể đánh lừa người đọc nghĩ rằng đầu ra của họ là xác thực hay không.
Xếp hạng của các mô hình khớp với kết quả từ nhiệm vụ đánh giá trước đó: phiên bản tinh chỉnh của GPT‑4o‑mini có sức thuyết phục nhất trong số các mô hình, nhưng vẫn chưa bằng phiên bản thực tế.

Tần suất mà mỗi nguồn được xác định chính xác là đoạn văn lịch sử xác thực.
Bài kiểm tra này cũng đóng vai trò là chuẩn mực hữu ích, vì với việc xác định được đoạn văn chính xác trong hơn một nửa thời gian, khoảng cách giữa văn xuôi chính xác và văn xuôi tổng hợp vẫn dễ nhận thấy đối với người đọc.
Một phân tích thống kê được gọi là Bài kiểm tra của McNemar xác nhận rằng sự khác biệt giữa các mô hình là có ý nghĩa, ngoại trừ trường hợp của hai phiên bản chưa được điều chỉnh (GPT‑4o và GPT‑4o‑mini), có hiệu suất tương tự nhau.
Tương lai của quá khứ
Các tác giả nhận thấy rằng việc thúc đẩy các mô hình ngôn ngữ hiện đại áp dụng giọng văn lịch sử không tạo ra kết quả thuyết phục đáng tin cậy: ít hơn hai phần ba kết quả được người đọc đánh giá là hợp lý và thậm chí con số này có thể còn phóng đại hiệu suất.
Trong nhiều trường hợp, các phản hồi bao gồm các tín hiệu rõ ràng cho thấy mô hình đang nói theo quan điểm hiện tại – các cụm từ như ‘vào năm 1914, người ta vẫn chưa biết rằng…’ or ‘tính đến năm 1914, tôi không quen thuộc với…’ đủ phổ biến để xuất hiện trong một phần năm số lần hoàn thành. Những tuyên bố từ chối trách nhiệm kiểu này cho thấy rõ ràng rằng mô hình này đang mô phỏng lịch sử từ bên ngoài, thay vì viết từ bên trong.
Các tác giả tuyên bố:
‘Hiệu suất kém của việc học theo ngữ cảnh là điều đáng tiếc, vì những phương pháp này là phương pháp dễ nhất và rẻ nhất cho nghiên cứu lịch sử dựa trên AI. Chúng tôi nhấn mạnh rằng chúng tôi chưa khám phá những cách tiếp cận này một cách toàn diện.
‘Có thể việc học trong ngữ cảnh là đủ – hiện tại hoặc trong tương lai – cho một tập hợp các lĩnh vực nghiên cứu. Nhưng bằng chứng ban đầu của chúng tôi không khả quan.’
Các tác giả kết luận rằng trong khi tinh chỉnh một mô hình thương mại trên các đoạn văn lịch sử có thể tạo ra đầu ra thuyết phục về mặt phong cách với chi phí tối thiểu, thì nó không loại bỏ hoàn toàn dấu vết của quan điểm hiện đại. Việc đào tạo trước một mô hình hoàn toàn trên tài liệu thời kỳ đó sẽ tránh được sự lạc hậu nhưng đòi hỏi nhiều tài nguyên hơn và dẫn đến đầu ra kém trôi chảy hơn.
Không phương pháp nào cung cấp giải pháp hoàn chỉnh và hiện tại, bất kỳ nỗ lực nào để mô phỏng giọng nói lịch sử dường như đều liên quan đến sự đánh đổi giữa tính xác thực và tính mạch lạc. Các tác giả kết luận rằng cần phải nghiên cứu thêm để làm rõ cách tốt nhất để điều hướng căng thẳng đó.
Kết luận
Có lẽ một trong những câu hỏi thú vị nhất nảy sinh từ bài báo mới là tính xác thực. Mặc dù chúng không phải là công cụ hoàn hảo, các hàm mất mát và số liệu như LPIPS và SSIM cung cấp cho các nhà nghiên cứu thị giác máy tính ít nhất một phương pháp tương tự để đánh giá so với thực tế.
Ngược lại, khi tạo ra văn bản mới theo phong cách của một thời đại đã qua, không có sự thật cơ bản nào cả – chỉ là nỗ lực để sống trong một quan điểm văn hóa đã biến mất. Cố gắng tái tạo lại tư duy đó từ những dấu vết văn học cũng là một hành động lượng tử hóa, vì những dấu vết như vậy chỉ là bằng chứng, trong khi ý thức văn hóa mà chúng xuất hiện vẫn nằm ngoài suy luận, và có lẽ nằm ngoài trí tưởng tượng.
Ở cấp độ thực tế, nền tảng của các mô hình ngôn ngữ hiện đại, được định hình bởi các chuẩn mực và dữ liệu ngày nay, có nguy cơ diễn giải lại hoặc xóa bỏ những ý tưởng vốn có vẻ hợp lý hoặc không đáng chú ý đối với độc giả thời Edward, nhưng hiện được coi là hiện vật (thường mang tính xúc phạm) của định kiến, bất bình đẳng hoặc bất công.
Do đó, người ta tự hỏi liệu ngay cả khi chúng ta có thể tạo ra một cuộc hội đàm như vậy thì liệu chúng ta có thấy khó chịu không.
Lần đầu tiên xuất bản vào thứ sáu, ngày 2 tháng 2025 năm XNUMX
https%3A%2F%2Funite.ai%2Fvi%2Fai-struggles-to-emulate-historical-language%2F