# Đố vui cuối chương

Cùng kiểm tra xem bạn đã học được những gì trong chương này!

### 1. Khi nào ta nên huấn luyện 1 tokenizer mới?

### 2. Ưu điểm của việc sử dụng trình tạo danh sách văn bản so với danh sách các danh sách văn bản khi sử dụng `train_new_from_iterator()` là gì?

train_new_from_iterator() chấp nhận.",
			explain: "Danh sách các danh sách văn bản là một loại trình tạo danh sách văn bản cụ thể, vì vậy phương pháp cũng sẽ chấp nhận điều này. Hãy thử lại!"
		},
		{
			text: "Bạn sẽ tránh tải toàn bộ tập dữ liệu vào bộ nhớ cùng một lúc.",
			explain: "Đúng vậy! Mỗi loạt văn bản sẽ được giải phóng khỏi bộ nhớ khi bạn lặp lại và phần thu được sẽ đặc biệt rõ ràng nếu bạn sử dụng 🤗 Datasets để lưu trữ văn bản của mình.",
			correct: true
		},
		{
			text: "Điều này sẽ cho phép thư viện 🤗 Tokenizers sử dụng quá trình xử lý đa luồng.",
			explain: "Không, với cách nào xử lý đa luồng cũng sẽ được sử dụng."
		},
        {
			text: "Tokenizer mà bạn huấn luyện sẽ tạo ra các văn bản tốt hơn.",
			explain: "Tokenize không tạo ra văn bản -- bạn có đang nhầm lẫn với mô hình ngôn ngữ không?"
		}
	]}
/>

### 3. Ưu điểm của tokenize "nhanh" là gì?

### 4. Pipeline `token-classification`  xử lý các thực thể trải dài trên nhiều token như thế nào?

### 5. Pipeline `question-answering` xử lý ngữ cảnh dài như thế nào?

### 6. Chuẩn hoá là gì?

### 7. Pre-tokenization cho một tokenizer từ phụ là sao?

### 8. Chọn các câu áp dụng mô hình BPE để tokenize?

### 9. Chọn các câu áp dụng mô hình WordPiece để tokenize?

### 10. Chọn các câu áp dụng mô hình Unigram để tokenize?