Henry

Henry

Did You Know?

Clarity is the soul of great writing.

Bài luận văn này nhằm mục đích khám phá liệu các mô hình ngôn ngữ lớn (LLMs) có mã hóa nhiều kiến thức thực tế trong các tham số nội bộ của chúng hơn so với những gì chúng diễn đạt thông qua đầu ra văn bản hay không.

Trước tiên, các tác giả đề xuất một khung định nghĩa mới về kiến thức: Đối với một câu hỏi, mức độ kiến thức của mô hình được thể hiện qua việc nó có thể xếp hạng câu trả lời đúng trước các câu trả lời sai ở mức độ nào. Dựa trên cơ sở này, họ phân biệt giữa “Kiến thức bên ngoài” (External Knowledge) — vốn phụ thuộc vào xác suất đầu ra của mô hình, và “Kiến thức bên trong” (Internal Knowledge) — vốn tận dụng các tính toán nội bộ của mô hình (như các trạng thái ẩn). Khi kiến thức bên trong vượt xa kiến thức bên ngoài một cách đáng kể, thì tồn tại “Kiến thức ẩn” (Hidden Knowledge).

Thông qua các thí nghiệm trả lời câu hỏi kín (Closed-book QA) trên ba LLM mã nguồn mở phổ biến (Llama-3-8B, Mistral-7B, Gemma-2-9B), nghiên cứu phát hiện ra rằng các LLM phổ biến tồn tại kiến thức ẩn (với khoảng cách tương đối trung bình đạt mức 40%). Đáng ngạc nhiên hơn, đôi khi nội bộ mô hình “hoàn toàn biết” câu trả lời đúng (có khả năng xếp nó trên tất cả các câu trả lời sai), nhưng trong một lượng lớn mẫu thử (1000 lần), nó hầu như không bao giờ tạo ra câu trả lời này. Điều này tiết lộ những hạn chế trong khả năng tạo (generation) của các LLM hiện tại, đồng thời hạn chế tiềm năng của việc nâng cao hiệu suất trả lời câu hỏi thông qua việc tăng cường tính toán trong thời gian kiểm tra (chẳng hạn như lấy mẫu nhiều lần).

Paper: Inside-Out: Hidden Factual Knowledge in LLMs – arXiv:2503.15299

1. Thông tin về Tác giả và Đội ngũ

  • Đội ngũ tác giả: Bài luận văn này được thực hiện thông qua sự hợp tác giữa các nhà nghiên cứu đến từ Viện Công nghệ Israel (Technion – Israel Institute of Technology) và Google Research. Đây là một nghiên cứu điển hình cho sự hợp tác giữa giới học thuật và giới công nghiệp.
  • Các học giả/Cơ quan nổi tiếng:
    • Google Research: Là một trong những cơ quan nghiên cứu trí tuệ nhân tạo hàng đầu thế giới, có sự tích lũy sâu dày và nhiều thành tựu mang tính khai phá trong lĩnh vực mô hình ngôn ngữ lớn (như Transformer, BERT, PaLM, Gemini, v.v.).
    • Viện Công nghệ Israel (Technion): Là trường đại học khoa học và kỹ thuật hàng đầu của Israel cũng như thế giới, có thực lực nghiên cứu mạnh mẽ trong lĩnh vực khoa học máy tính, đặc biệt là xử lý ngôn ngữ tự nhiên (NLP) và học máy (Machine Learning).
    • Yonatan Belinkov: Là một học giả rất nổi tiếng trong lĩnh vực tính khả giải (Interpretability) của NLP, đặc biệt là trong việc sử dụng kỹ thuật thăm dò (Probing) để phân tích các biểu diễn nội bộ của mạng thần kinh. Sự tham gia của ông đã cung cấp nền tảng chuyên môn cho việc sử dụng phương pháp thăm dò để nghiên cứu kiến thức nội bộ trong luận văn này.

2. Bối cảnh và Động lực

  • Thời gian công bố: Tháng 3 năm 2025 (Bản tiền ấn phẩm trên arXiv).
  • Câu hỏi nghiên cứu: Vấn đề cốt lõi là: Liệu các LLM có mã hóa nhiều kiến thức trong các tham số của chúng hơn so với những gì chúng thực sự diễn đạt trong đầu ra hay không? Hiện tượng này được các tác giả gọi là “Kiến thức ẩn” (Hidden Knowledge).
  • Bối cảnh vấn đề và Động lực: Các LLM thể hiện xuất sắc trong các nhiệm vụ thâm dụng tri thức (như trả lời câu hỏi), nhưng chúng ta vẫn còn hiểu biết rất ít về cơ chế lưu trữ và trích xuất kiến thức nội bộ của chúng.
  • Tại sao điều này lại quan trọng?
    • Nâng cao hiệu suất: Nếu tồn tại kiến thức ẩn, việc tìm ra cách để “khai thác” chúng có thể cải thiện hiệu suất và độ tin cậy của mô hình.
    • Tính an toàn: Những kiến thức ẩn chưa được phát hiện có thể nổi lên trong các tình huống bất ngờ, làm rò rỉ thông tin nhạy cảm hoặc tạo ra các đầu ra không mong muốn.
    • Tính khả giải (Interpretability): Hiểu được cách kiến thức được mã hóa nội bộ và tại sao đôi khi chúng không thể biểu đạt ra bên ngoài sẽ giúp hiểu sâu hơn về cơ chế hoạt động của LLM.
  • Thách thức hiện tại: Làm thế nào để định nghĩa và đo lường “kiến thức” của LLM một cách khoa học? Các phương pháp hiện có thường chỉ nhìn vào một câu trả lời duy nhất mà mô hình tạo ra, nhưng điều này có thể bị ảnh hưởng bởi các yếu tố như chiến lược giải mã (decoding strategy), cách diễn đạt câu hỏi, v.v., dẫn đến việc thiếu tính toàn diện và độ tin cậy.

3. Các nghiên cứu liên quan

Phân loại Phương pháp nghiên cứu chính Đóng góp/Đặc điểm chính Hạn chế Văn bản tiêu biểu
Phương pháp sớm

1. Điền vào chỗ trống (Cloze Sentence)

2. Đặt câu hỏi trực tiếp (Zero-shot/Fine-tuning)

– Đánh giá kiến thức thông qua việc hoàn thành câu hoặc hỏi đáp trực tiếp.

– Đặt nền móng cho việc đánh giá kiến thức của LLM.

– Phụ thuộc vào một kết quả tạo duy nhất.

– Chưa xem xét tính nhất quán về ngữ nghĩa hoặc trạng thái nội bộ.

Petroni et al., 2019;

Radford et al., 2019; Roberts et al., 2020

Phương pháp hiện đại Hỏi đáp trực tiếp của LLM theo tuân thủ chỉ dẫn (Instruction-following)

– Gần gũi hơn với các kịch bản ứng dụng thực tế.

– Tận dụng khả năng hiểu chỉ dẫn của LLM.

– Vẫn phụ thuộc vào đầu ra đơn lẻ.

– Dễ bị ảnh hưởng bởi chiến lược giải mã và lời nhắc (prompt).

Wei et al., 2024
Nghiên cứu nâng cao

1. Đánh giá tính nhất quán của các câu hỏi tương đương về ngữ nghĩa.

2. Thăm dò trạng thái nội bộ (Probing).

3. Lời nhắc tự xác thực (Self-verification Prompting).

4. Nghiên cứu chỉnh sửa và quên kiến thức.

– Đánh giá tính cứng cáp (robustness) qua các cách diễn đạt câu hỏi khác nhau.

– Tiết lộ mối quan hệ giữa trạng thái nội bộ và kiến thức.

– Nâng cao độ tin cậy thông qua hiệu chuẩn mức độ tự tin.

– Khám phá tác động của việc cập nhật kiến thức động.

– Tính khả giải của phương pháp thăm dò còn hạn chế.

– Thiết kế lời nhắc phụ thuộc vào kinh nghiệm thủ công.

– Hiệu quả lâu dài của chỉnh sửa kiến thức chưa rõ ràng.

Elazar et al., 2021;

Burns et al., 2023; Azaria & Mitchell, 2023;

Lin et al., 2022; Kadavath et al., 2022;

Cohen et al., 2024; Gekhman et al., 2024

Tổng kết những thiếu sót của các nghiên cứu trước đây:

  • Thiếu một định nghĩa thống nhất về kiến thức: Đối với LLM, việc “biết” một sự thật thực sự có nghĩa là gì vẫn chưa có một định nghĩa được công nhận và có thể vận hành được (Fierro et al., 2024).
  • Phụ thuộc vào đầu ra duy nhất: Hầu hết các nghiên cứu chỉ đánh giá một câu trả lời duy nhất do mô hình tạo ra, nhưng điều này có thể mang tính ngẫu nhiên và không phản ánh đầy đủ “kho dự trữ kiến thức” của mô hình. Mô hình có thể tình cờ tạo ra câu trả lời sai, hoặc mặc dù tạo ra câu trả lời đúng nhưng lại gán xác suất cao hơn cho các câu trả lời sai khác.
  • Chưa nghiên cứu hệ thống về “Kiến thức ẩn”: Mặc dù có những nghiên cứu ám chỉ rằng trạng thái nội bộ của mô hình có thể chứa nhiều thông tin hơn, nhưng chưa có nghiên cứu nào định nghĩa rõ ràng và định lượng khoảng cách giữa kiến thức nội bộ và biểu đạt bên ngoài.

4. Tư tưởng cốt lõi

1. Định nghĩa lại “Kiến thức” của LLM

Vấn đề của các phương pháp truyền thống: Trước đây, việc đánh giá liệu một LLM có “biết” một sự thật hay không (ví dụ: “Thủ đô của Pháp là Paris”) thường chỉ dựa vào việc nó có thể tạo ra câu trả lời đúng hay không. Tuy nhiên, cách tiếp cận này sẽ bỏ qua các trường hợp:

  • Mô hình có thể tình cờ đoán đúng: (Gán xác suất cao cho câu trả lời sai, nhưng ngẫu nhiên lấy mẫu trúng kết quả đúng).
  • Mô hình có thể biết nhưng không diễn đạt được: (Câu trả lời đúng tồn tại trong phân phối xác suất, nhưng chiến lược giải mã không thể chạm tới).

Định nghĩa mới: Kiến thức = Khả năng phân biệt giữa câu trả lời đúng và các câu trả lời gây nhiễu.

  • Đưa cho mô hình một câu hỏi (ví dụ: “Thủ đô của Pháp là gì?”).
  • Cung cấp nhiều câu trả lời ứng viên (Paris, Luân Đôn, Berlin, Madrid).
  • Tính toán khả năng xếp hạng của mô hình đối với tất cả các cặp câu trả lời (Đúng, Sai):
    • Nếu mô hình có thể xếp hạng chính xác cho tất cả các cặp như “Paris > Luân Đôn”, “Paris > Berlin”, v.v., điều đó chứng tỏ nó thực sự “biết”.

Biểu đạt toán học:

Cách tiếp cận này giống như các câu hỏi trắc nghiệm trong một kỳ thi — một “học bá” thực thụ không chỉ có thể chọn đúng đáp án, mà còn có thể loại trừ một cách rõ ràng tất cả các phương án sai.

2. Phân biệt “Kiến thức bên trong” và “Kiến thức bên ngoài”

Loại Nguồn dữ liệu Phương pháp ví dụ Đặc điểm
Kiến thức bên ngoài Chỉ sử dụng các tín hiệu đầu ra có thể quan sát được, chủ yếu dựa trên tính toán xác suất của các Token. – Xác suất tạo P(a|q)
– Tự xác thực: P(True|q,a)

Do hạn chế của chiến lược giải mã, lượng kiến ​​thức thực sự có thể bị đánh giá thấp.

Kiến thức bên trong Có thể tận dụng quá trình tính toán trung gian của mô hình, ví dụ như trạng thái ẩn của các lớp. Thăm dò tuyến tính (Linear Probing) phân tích mô hình kích hoạt của lớp ẩn. Tiết lộ kiến thức tiềm năng trong “quá trình suy nghĩ” của mô hình.

Khi Điểm kiến thức bên trong >> Điểm kiến thức bên ngoài, điều đó chứng minh sự tồn tại của Kiến thức ẩn (mô hình biết nhưng không nói ra được).

3. Tại sao lại thiết kế như vậy?

  • Cảm hứng từ khoa học nhận thức: Con người cũng gặp hiện tượng “đầu lưỡi” (biết nhưng nhất thời không nói ra được), LLM có thể cũng tương tự.
  • Nhu cầu thực tiễn kỹ thuật: Các chiến lược giải mã hiện tại (như Beam Search) có thể che lấp năng lực thực sự của mô hình.
  • Cân nhắc về an toàn: Ngăn chặn những kiến thức nguy hiểm bị “ẩn” trong mô hình vô tình kích hoạt trong các điều kiện cụ thể.

4. Phép ẩn dụ: Hãy tưởng tượng LLM là một học sinh

  • Kỳ thi truyền thống (Kiến thức bên ngoài): Chỉ nhìn vào đáp án cuối cùng mà học sinh viết trên tờ giấy thi.
  • Kỳ thi kiểu mới (Kiến thức bên trong):
    • Cho học sinh làm câu hỏi trắc nghiệm (tạo ra nhiều đáp án).
    • Đồng thời dùng điện não đồ (EEG) để theo dõi hoạt động não bộ (phân tích trạng thái ẩn).
  • Phát hiện: Khi nhìn thấy phương án đúng, mức độ hoạt động của não bộ cao hơn, ngay cả khi cuối cùng học sinh đó chọn sai. Điều này chứng minh học sinh thực sự biết, chỉ là “kỹ năng làm bài” có vấn đề.

Thiết kế này đánh giá toàn diện hơn năng lực nhận thức thực sự của mô hình, thay vì chỉ tập trung vào kết quả đầu ra.

Phân tích sự khác biệt chính:

  • Phương pháp truyền thống: Chỉ dựa trên một lần “phát ngôn” duy nhất của AI. Nếu AI nói sai, chúng ta mặc định là nó không biết. Điều này giống như việc đánh giá năng lực một học sinh chỉ qua một câu trả lời duy nhất trên giấy.
  • Phương pháp của bài nghiên cứu: Đi sâu vào “tư duy” bên trong. Thậm chí khi AI không nói ra được đáp án đúng (xác suất tạo thấp), nhưng nếu các trạng thái ẩn bên trong cho thấy nó có khả năng phân biệt được đúng/sai, bài nghiên cứu vẫn kết luận là nó có kiến thức.

Sơ đồ này minh họa trực quan cho hiện tượng “biểu lý bất nhất” mà chúng ta đã thảo luận: AI có thể sở hữu kiến thức trong “não bộ” (trạng thái ẩn) nhưng lại không thể diễn đạt ra “miệng” (xác suất tạo).

5. Phương án và Kỹ thuật

Để xác thực tư tưởng cốt lõi, các tác giả đã thiếtkế một bộ quy trình thực nghiệm để tính toán và so sánh một cách xấp xỉ giữa kiến thức nội bộ và kiến thức bên ngoài.

5.1. Xây dựng tập dữ liệu

  • Dữ liệu gốc: Tác giả sử dụng tập dữ liệu EntityQuestions, bao gồm nhiều bộ ba sự thật dưới dạng (Chủ ngữ, Quan hệ, Tân ngữ), ví dụ: (Bill Gates, Vợ/Chồng, Melinda Gates). Mỗi bộ ba còn tương ứng với một câu hỏi, ví dụ: “Vợ của Bill Gates là ai?”.
  • Sàng lọc quan hệ: Tác giả chọn ra bốn loại quan hệ: Vợ/Chồng (P26), Nhà sản xuất (P176), Hãng thu âm (P264), Tác giả (P50). Lý do chọn các quan hệ này là vì câu trả lời của chúng thường là duy nhất và rõ ràng, không dễ bị đoán mò.
  • Phân chia tập dữ liệu: Xây dựng tập huấn luyện (Training set), tập phát triển (Development set) và tập kiểm thử (Test set). Tập kiểm thử bao gồm khoảng 1700 câu hỏi.

5.2. Tạo tập hợp các câu trả lời ứng viên

  • Tập câu hỏi: Mỗi sự thật chỉ sử dụng một câu hỏi gốc được cung cấp trong tập dữ liệu EntityQuestions.
  • Tạo câu trả lời:
    • Giải mã tham lam (Greedy Decoding): Đầu tiên, sử dụng giải mã tham lam để tạo ra một câu trả lời. Giải mã tham lam sẽ chọn token có xác suất cao nhất tại mỗi bước để cuối cùng tạo ra một kết quả.
    • Lấy mẫu nhiệt độ (Temperature Sampling): Sau đó, sử dụng phương thức temperature=1 để lấy mẫu 1000 câu trả lời. Temperature là một tham số điều khiển tính ngẫu nhiên; nhiệt độ càng cao, kết quả lấy mẫu càng ngẫu nhiên.
    • Thêm câu trả lời đúng: Nếu câu trả lời thực tế không xuất hiện trong 1000 lần lấy mẫu đầu tiên, nó sẽ được thêm thủ công vào tập ứng viên. Đây là một bước cực kỳ quan trọng, vì tác giả muốn biết liệu ngay cả khi mô hình không tạo ra câu trả lời đúng, nó có thực sự “biết” câu trả lời đó là đúng hay không.
  • Ý nghĩa: Thông qua các bước trên, tác giả đã xây dựng được một tập hợp các câu trả lời mà mô hình cho là “có vẻ hợp lý (plausible)”, trong đó bao gồm cả đáp án đúng và đáp án sai.

5.3. Phán đoán câu trả lời đúng

  • LLM Judge: Tác giả sử dụng một mô hình ngôn ngữ lớn làm trọng tài (Qwen2.5 14B Instruct) để phán đoán xem câu trả lời có tương đương với câu trả lời thực tế hay không.
  • Lời nhắc Chuỗi tư duy có hướng dẫn (Program-guided Chain-of-Thought Prompt): Trọng tài LLM sử dụng các câu lệnh được thiết kế tỉ mỉ và đã qua xác minh thủ công để đảm bảo tỷ lệ chính xác cao hơn nhiều so với việc khớp từ ngữ chính xác (exact match) đơn thuần. Điều này là do câu trả lời có thể có nhiều cách diễn đạt khác nhau, chẳng hạn như từ đồng nghĩa hoặc các cách mô tả khác nhau.

5.4. Lựa chọn hàm chấm điểm

Loại Tên/Phương pháp Mô tả Mục đích/Chỉ số đo lường
Hàm chấm điểm bên ngoài P(a|q) Tích xác suất của các token gốc tạo nên câu trả lời a. Đo lường xác suất mô hình sẽ đưa ra câu trả lời ‘a’.
P\_norm(a|q) Độ dài được chuẩn hóa của P(a|q) Tránh việc xác suất của câu trả lời dài bị thấp do độ dài.
P(True|q,a) Thông qua các lời nhắc (prompt) đặc biệt để mô hình tự phán đoán xem $a$ có phải là câu trả lời đúng cho $q$ hay không, và quan sát xác suất mô hình tạo ra từ “True”.

Đo lường năng lực xác thực (Verification) của mô hình, tức là khả năng phán đoán xem một câu trả lời là đúng hay sai.

Hàm chấm điểm bên trong Bộ phân loại thăm dò (Probing Classifier)

1. Trích xuất trạng thái ẩn h_M(q,a) sau khi đưa câu hỏi q và câu trả lời ứng viên a vào mô hình M.

2. Sử dụng bộ phân loại tuyến tính (Logistic Regression) để dự đoán xem a có đúng với q hay không.

3. Xác suất của lớp “Đúng” do bộ phân loại đưa ra được dùng làm điểm số nội bộ T_M(q,a).

Đo lường mức độ tin cậy nội bộ của mô hình đối với câu trả lời a. Thông qua phân tích trạng thái ẩn để suy luận xem mô hình có “biết” một câu trả lời là đúng hay không. Sử dụng chiến lược “Thăm dò nhận biết kiến thức” (Knowledge-aware Probing) tập trung vào việc phân biệt đáp án đúng và sai của các sự thật đã biết.

6. Thí nghiệm và Kết luận

Thiết kế thí nghiệm: Đối với ba mô hình Llama-3-8B, Mistral-7B, và Gemma-2-9B, trên khoảng 1700 câu hỏi kiểm thử thuộc 4 loại quan hệ, các tác giả đã tiến hành so sánh điểm kiến thức nội bộ $K_{int}$ (tính bằng bộ thăm dò) và ba loại điểm kiến thức bên ngoài K_{ext} (tính từ P, P_norm, P_true). Chỉ số K=1 đại diện cho khả năng phân biệt hoàn hảo giữa tất cả các cặp đáp án đúng và sai.

Kết quả chính:

Phân loại Dữ liệu then chốt Phát hiện cốt lõi Giải mã ý nghĩa Minh họa bằng ẩn dụ
Tính phổ biến của kiến thức ẩn Cả 3 mô hình × 4 quan hệ đều có sự chênh lệch đáng kể. Cách biệt trung bình đạt 40%. Tất cả các LLM đều tồn tại tình trạng: Kiến thức nội bộ > Diễn đạt bên ngoài. Chứng minh “biết nhưng không nói ra được” là hiện tượng phổ biến ở LLM. Giống như học sinh hiểu bài trong lòng nhưng khi đi thi lại phát huy không tốt.
Sự khác biệt giữa các mô hình Gemma 57% so với Llama 14%. Các kiến trúc/huấn luyện khác nhau dẫn đến khả năng bộc lộ kiến thức khác nhau. Gemma có khả năng diễn đạt kiến thức yếu nhất, Llama mạnh nhất. Giống như sự khác biệt về khả năng diễn đạt giữa những người có tính cách khác nhau.
Năng lực Xác thực vs. Tạo nội dung P(True) > P(a||q) ở tất cả các thử nghiệm. Mô hình giỏi việc xác thực đáp án hơn là tự tạo ra đáp án. Hỏi trực tiếp “đúng hay sai” đáng tin cậy hơn là nhìn vào xác suất tạo đáp án. Giống như việc con người giỏi chấm bài tập hơn là tự viết bản thảo gốc.
Trường hợp ẩn giấu cực đoan 9% số câu hỏi xuất hiện trạng thái K*=1 nhưng tỷ lệ tạo đáp án bằng 0. Mô hình nắm vững hoàn toàn kiến thức nhưng không thể tạo ra đáp án đúng. Tiết lộ cơ chế tạo nội dung (generation) tồn tại những nút thắt cổ chai căn bản. Biểu hiện cực đoan của hiện tượng “đầu lưỡi” (biết nhưng không nhớ ra từ).
Hạn chế từ nút thắt tạo nội dung Việc bổ sung các đáp án chưa được tạo ra giúp tăng 40% độ chính xác. Ngưỡng hiệu suất tối đa bị hạn chế bởi tỷ lệ bao phủ của việc tạo đáp án. Các thuật toán giải mã hiện tại không thể trích xuất hiệu quả toàn bộ kiến thức. Giống như thư viện có sách nhưng hệ thống tra cứu lại không hoàn thiện.

Kết luận

Các LLM phổ biến tồn tại Kiến thức ẩn, nghĩa là kiến thức được mã hóa nội bộ của chúng nhiều hơn so với kiến thức biểu đạt ra bên ngoài. Cơ chế tạo (giải mã) của LLM hiện tại tồn tại những hạn chế, đôi khi thậm chí không thể tạo ra câu trả lời mà nội bộ mô hình đã nắm vững hoàn toàn. Sự hạn chế trong khả năng tạo này là một yếu tố quan trọng kìm hãm việc nâng cao hiệu suất trả lời câu hỏi kín (Closed-book QA) thông qua việc tăng cường lấy mẫu và xếp hạng trong thời gian kiểm tra. Khung định nghĩa và đánh giá kiến thức do các tác giả đề xuất đã cung cấp nền tảng cho các nghiên cứu tương lai về kiến thức ẩn và cải thiện hiệu quả sử dụng kiến thức của mô hình.

7. Đóng góp

  • Đề xuất định nghĩa hình thức về kiến thức LLM dựa trên xếp hạng: Cung cấp một phương thức đo lường kiến thức mạnh mẽ và toàn diện hơn.
  • Định nghĩa rõ ràng và phân biệt giữa kiến thức nội bộ và kiến thức bên ngoài: Tạo cơ sở khái niệm cho việc nghiên cứu “Kiến thức ẩn”.
  • Thiết kế và thực thi một khung thực nghiệm hệ thống: Dùng để định lượng và xác thực sự tồn tại của kiến thức ẩn.
  • Cung cấp bằng chứng thực nghiệm mạnh mẽ: Chứng minh kiến thức ẩn tồn tại phổ biến trong nhiều LLM chủ lưu.
  • Phát hiện hiện tượng “Kiến thức ẩn cực đoan”: Tiết lộ những hạn chế sâu sắc trong khả năng tạo nội dung của LLM.
  • Định lượng hạn chế của nút thắt cổ chai tạo nội dung đối với việc nâng cao hiệu suất thời gian kiểm tra: Có ý nghĩa hướng dẫn cho các ứng dụng thực tế.

8. Hạn chế

Loại hạn chế Biểu hiện cụ thể Tác động tiềm tàng Hướng cải thiện
Hạn chế tài nguyên tính toán Chỉ thử nghiệm mô hình 7B-9B; lấy mẫu 1000 lần/câu hỏi. Chưa thể xác thực quy luật trên các mô hình lớn hơn. Phát triển các phương pháp đánh giá tinh gọn.
Hạn chế định nghĩa kiến thức Đánh giá sự thật đơn lẻ; bỏ qua kiến thức liên quan. Có thể đánh giá thấp mức độ kiến thức tổng thể. Xây dựng đánh giá dạng đồ thị tri thức.
Tính nhạy cảm của nhãn K* phụ thuộc vào việc dán nhãn hoàn hảo; LLM Judge có thể sai. Các phán đoán trong trường hợp cực đoan có thể bị nghi ngờ. Cơ chế bỏ phiếu với nhiều trọng tài.
Hạn chế phương pháp luận Chiều đánh giá đơn nhất: Mỗi sự thật chỉ có 1 cách diễn đạt câu hỏi. Bỏ qua tính nhạy cảm với lời nhắc (prompt). Tăng tính đa dạng của câu hỏi.
Tính đơn giản của bộ thăm dò: Chỉ dùng bộ phân loại tuyến tính. Có thể bỏ sót các đặc trưng phi tuyến tính. Đưa vào các bộ thăm dò phi tuyến tính.
Rủi ro giả định huấn luyện: Giả định “Tham lam đúng = Biết”. Bộ thăm dò có thể tạo ra sai lệch. Xác minh kiến thức đa chiều.
Thách thức tính tổng quát Loại quan hệ hạn chế: Chỉ thử nghiệm 4 loại quan hệ thực thể. Khả năng áp dụng cho các loại kiến thức khác còn bỏ ngỏ. Mở rộng tính đa dạng của các quan hệ.
Hạn chế của mô hình phán quyết: Qwen2.5 làm trọng tài có giới hạn về chất lượng. Chất lượng phán quyết có ngưỡng tối đa. Sử dụng chuyên gia con người để kiểm tra lại.

Các mâu thuẫn sâu sắc

Mâu thuẫn giữa “Biết” và “Nói” (Khả năng lưu trữ vs. Khả năng biểu đạt)

Mô hình có thể lưu trữ kiến thức hoàn hảo trong các trạng thái ẩn nội bộ, nhưng cơ chế giải mã (decoding) hiện tại lại là một “nút thắt cổ chai”. Điều này tạo ra nghịch lý: AI càng thông minh thì khoảng cách giữa những gì nó “biết” và những gì nó “nói ra” có thể càng lớn nếu công nghệ giải mã không bắt kịp.

Mâu thuẫn giữa Hiệu suất và Độ tin cậy

Việc tăng cường lấy mẫu (Sampling) có thể giúp tìm ra đáp án đúng (tăng hiệu suất), nhưng nghiên cứu cho thấy ngay cả khi lấy mẫu 1000 lần, AI vẫn có thể trượt mất đáp án mà nó vốn đã biết. Điều này đặt ra câu hỏi: Liệu chúng ta nên tin vào kết quả văn bản (External) hay tin vào “trực giác” nội bộ (Internal) của mô hình?

Mâu thuẫn giữa Tính khả giải và Tính thực dụng

Để hiểu sâu về AI (Tính khả giải), chúng ta cần các phương pháp phức tạp như thăm dò tuyến tính (Probing). Tuy nhiên, để ứng dụng thực tế (Tính thực dụng), người dùng chỉ cần một câu trả lời nhanh và chính xác. Việc thu hẹp khoảng cách này đòi hỏi sự đánh đổi về tài nguyên tính toán (như hình ảnh bạn đã gửi).

Mâu thuẫn trong An toàn AI

Sự tồn tại của “Kiến thức ẩn” là một con dao hai lưỡi. Một mặt, nó là kho tàng tiềm năng chưa khai phá. Mặt khác, nó tiềm ẩn rủi ro: Mô hình có thể “giấu” những kiến thức nguy hiểm hoặc nhạy cảm mà chúng ta không thể kiểm soát hết chỉ bằng cách quan sát các câu trả lời thông thường.

Q&A

Q1: Hãy cho ví dụ minh họa sự khác biệt giữa “Kiến thức bên ngoài” (External Knowledge) và “Kiến thức bên trong” (Internal Knowledge)?

  • Kiến thức bên ngoài: Giống như lời nói và hành vi công khai của một người. Chúng ta chỉ có thể phán đoán họ biết bao nhiêu thông qua việc quan sát những gì họ nói hoặc viết. Trong LLM, điều này tương ứng với chuỗi token cuối cùng mà mô hình xuất ra cùng xác suất của chúng, hoặc câu trả lời của mô hình khi được yêu cầu “phán đoán đúng sai” một cách rõ ràng. Đây là những tín hiệu mà mô hình thể hiện ra bên ngoài mà chúng ta có thể trực tiếp “nhìn” hoặc “nghe” thấy.
  • Kiến thức bên trong: Giống như quá trình suy nghĩ nội tâm và hoạt động não bộ của một người. Ngay cả khi họ không nói, bộ não vẫn có thể thực hiện các quá trình xử lý thông tin phức tạp. Chúng ta không thể nhìn thấy trực tiếp nhưng có thể thăm dò gián tiếp qua điện não đồ hoặc MRI (tương tự như kỹ thuật “thăm dò” trong luận văn). Trong LLM, điều này tương ứng với các trạng thái ẩn (Hidden States) sinh ra trong quá trình tính toán. Các trạng thái này được cho là mã hóa sự hiểu biết sâu sắc của mô hình về đầu vào, chứa đựng thông tin phong phú hơn nhiều so với kết quả đầu ra cuối cùng.

Kiến thức ẩn xảy ra khi: Suy nghĩ nội tâm của một người (kiến thức bên trong) cho thấy họ thực sự hiểu vấn đề, nhưng lời nói ra (kiến thức bên ngoài) lại không rõ ràng hoặc thậm chí nói sai.


Q2: Hãy giới thiệu về kỹ thuật “Thăm dò” (Probe).

“Thăm dò” (Probe) là một kỹ thuật phổ biến trong lĩnh vực tính khả giải của học máy, có thể tưởng tượng nó như một “thiết bị đọc” hay “cảm biến” siêu nhỏ.

  • Mục tiêu: Thăm dò thường là một mô hình học máy đơn giản (luận văn này dùng bộ phân loại tuyến tính như Logistic Regression) với nhiệm vụ giải mã một thông tin cụ thể từ các biểu diễn nội bộ phức tạp (như trạng thái ẩn).
  • Cách thức hoạt động:
    1. Cần một tập dữ liệu bao gồm: (Đầu vào, Biểu diễn nội bộ, Thông tin mục tiêu). Trong bài này là (Câu hỏi $q$ + Câu trả lời $a$, Trạng thái ẩn tương ứng $h$, đáp án $a$ đúng hay sai).
    2. Huấn luyện mô hình thăm dò để nó học cách dự đoán tính đúng đắn của $a$ chỉ dựa trên trạng thái ẩn $h$.
  • Truy cập “Kiến thức bên trong”: Thăm dò không làm thay đổi LLM. Nó chỉ “đọc” các trạng thái ẩn sinh ra sau khi LLM xử lý đầu vào và cố gắng giải mã thông tin chúng ta quan tâm. Nếu một bộ thăm dò đơn giản có thể dự đoán chính xác, điều đó chứng tỏ trạng thái ẩn thực sự mã hóa thông tin về tính đúng đắn, ngay cả khi thông tin đó không xuất hiện ở kết quả đầu ra cuối cùng.

Ví dụ: Giống như bác sĩ dùng ống nghe (bộ thăm dò) để nghe tiếng tim (trạng thái ẩn) nhằm phán đoán trái tim có khỏe không (đáp án đúng hay sai), ngay cả khi vẻ ngoài của bệnh nhân (đầu ra bên ngoài) trông có vẻ bình thường.


Q3: Tại sao mô hình “biết hoàn toàn” một đáp án (K=1), nhưng lại không thể tạo ra nó trong 1000 lần lấy mẫu?

Điều này tiết lộ hố ngăn sâu hoắm giữa việc mã hóa kiến thức nội bộ và quá trình tạo ra văn bản bên ngoài. Các nguyên nhân bao gồm:

  • Khiếm khuyết của cơ chế giải mã/tạo nội dung: Quá trình tự hồi quy diễn ra từng bước. Ở những bước đầu, mô hình có thể chọn một hướng đi có vẻ hợp lý nhưng lại dẫn đến việc không thể tạo ra đáp án đúng (ví dụ: chọn sai từ bắt đầu). Dù “biết tổng thể” đáp án là gì, nhưng quyết định tối ưu cục bộ đã dẫn nó đi chệch hướng và khó quay lại.
  • Phân phối xác suất cực kỳ sắc nhọn hoặc có “điểm mù”: Đáp án đúng có thể nằm ở vùng xác suất cực thấp hoặc cần một lộ trình token rất đặc thù mới chạm tới được. Các phương pháp lấy mẫu tiêu chuẩn hầu như không thể khám phá tới vùng này.
  • Sự không nhất quán giữa mục tiêu huấn luyện và mục tiêu suy luận: Mục tiêu tiền huấn luyện (dự đoán từ tiếp theo) và mục tiêu trả lời câu hỏi (tìm đáp án thực tế nhất) có thể có sai lệch. Mô hình học cách tạo văn bản trôi chảy nhưng không nhất thiết luôn ưu tiên truy xuất sự thật chính xác nhất.
  • Sự tách rời giữa biểu diễn kiến thức và “ngôn ngữ” tạo ra: Biết “là cái gì” không đồng nghĩa với việc có thể “nói ra” một cách trôi chảy.

Q4: Chiến lược “Thăm dò nhận biết kiến thức” (Knowledge-aware Probing) có làm bộ thăm dò bị thiên kiến không?

Có khả năng đó, đây là sự đánh đổi giữa tính mục tiêu và thiên kiến tiềm tàng.

  • Mục đích và ưu điểm: Tác giả muốn bộ thăm dò tập trung vào việc phân biệt đáp án đúng/sai của các sự thật đã biết, thay vì chỉ học cách nhận diện mô hình có “tự tin” hay không. Việc huấn luyện trên các ví dụ mà mô hình “thể hiện tốt” sẽ buộc bộ thăm dò phải học các tín hiệu tinh vi liên quan trực tiếp đến nội dung đáp án.
  • Rủi ro thiên kiến:
    • Ưu tiên kiến thức “tự tin”: Bộ thăm dò có thể giỏi phát hiện trạng thái nội bộ của những kiến thức mà mô hình nắm chắc, nhưng lại yếu hơn với các kiến thức mô hình biết nhưng không chắc chắn hoặc khó tạo ra (kiến thức ẩn cực đoan).
    • Vấn đề khả năng tổng quát: Khi gặp trạng thái nội bộ lúc mô hình đang “vật lộn” hoặc “bối rối”, phán đoán của bộ thăm dò có thể không còn chính xác.
    • Phụ thuộc vào giả định: Chiến lược này dựa trên giả định “Giải mã tham lam đúng $\approx$ Mô hình biết đáp án”. Dù hợp lý nhưng không tuyệt đối vì mô hình có thể đôi khi “đoán mò” đúng.

Theo tomsheep

Share This Article

Related Post

[Book summary] Inspired: How to Create Tech P

Title: 《Inspired: How to Create Tech Products Custome...

[Book summary] Hacking Growth: How Today̵

Phần 1: Thu hút khách hàng Tiền đề: Xác đ...

Chịu đựng giày vò để trở nên vĩ

NVIDIA ĐÃ TẠO RA CUDA và mở đường cho kỷ n...