SINH MÃ TÁCH ĐƯỢC (Decypherable Coding)
Mục tiêu:
Phân này đề cập đến bài toán mã hóa (coding) các giá trị của một biến X. Khi mã các giá trị của X người ta phải sử dụng bảng ký tự mã (Coding Character Table) hay bảng chữ cái (Code Alphabet). Như vậy, một giá trị x của X sẽ được mã thành một từ mã (Code Word) w dưới dạng một dãy các ký tự mã với độ dài là n ký tự. Trong truyền tin, một dãy các giá trị của X được phát sinh và được mã thành một dãy liên tục các từ mã hay một dãy các ký tự mã lấy từ bảng ký tự mã. Vấn đề cần giải quyết là:
Khi nhận một dãy ký tự mã liên tục đó thì ta có thể giải mã thành một dãy các giá trị duy nhất của X hay không ? Nói cách khác, dãy ký tự mã này có tách được thành các từ mã một cách duy nhất hay không ?
Chỉ ra phương pháp xây dựng mã tách được tối ưu.
KHÁI NIỆM VỀ MÃ TÁCH ĐƯỢC
Mục tiêu
Sau khi hoàn tất bài học này bạn có thể:
- Biết yêu cầu của bài toán sinh mã,
- Hiểu khái niệm về bảng mã tách được và bảng mã không tách được,
- Hiểu khái niệm về bảng mã tức thời,
- Hiểu giải thuật kiểm tra tính tách được của một bảng mã,
- Vận dụng giải thuật kiểm tra tính tách được của một bảng mã để kiểm tra xem một bảng mã có phải là bảng mã tách được hay không.
Đặt vấn đề bài toán sinh mã
Giả sử nguồn tin X xuất hiện và được ghi lại thông qua một thiết bị đặc biệt. Chẳng hạn như ảnh được ghi lại bằng máy ảnh, âm thanh được ghi lại bằng máy ghi âm, … Qua kênh truyền, những thông tin này cần phải được mã hóa cho phù hợp. Để có thể mã hóa người ta cần một bảng chữ cái gồm các chữ cái quy định trước (chẳng hạn bảng chữ cái la tinh, bảng mã nhị phân, … ). Mỗi giá trị của X sau đó được mã dưới dạng một dãy hữu hạn các chữ cái và ta gọi dãy hữu hạn các chữ cái gán cho một giá trị của x là một từ mã.
Ta xét BNN X={x1, x2, …,xn} có phân phối {p1, p2, …, pn} được quan sát liên tục và độc lập. Dãy các giá trị nhận được gọi là thông báo (Message) có dạng xi1xi2…xin. Tập hợp A={a1, a2, …, an} là tập hợp ký tự mã (Code Characters) hay là bảng chữ cái (Code Alphabet) dùng để sinh mã. Một giá trị xi thuộc X được gán bởi một dãy hữu hạn các ký tự mã được gọi là từ mã (Code word). Tập hợp gồm tất cả các từ mã gán cho tất cả các giá trị của X được gọi là bộ mã hay bảng mã (Code). Các từ mã phải khác nhau từng đôi một.
Bộ mã được gọi là tách được nếu như từ một dãy các ký tự mã nhận được liên tục (được mã hóa từ bộ mã này), ta luôn luôn giải mã được với kết quả duy nhất là dãy các giá trị gố c của X.
Shannon (1948) lần đầu tiên đã đưa ra định lý cơ sở về sinh mã tách được. Mc Millan (1956) đã chứng minh định lý về điều kiện cần và đủ của bảng mã tách được. Nhưng vấn đề sinh mã tách được chỉ được xét một cách chuẩn mực bởi Feinstein (1958), Abramson (1963) và Fano (1961). Sardinas(1960) và Patterson (1963) đã đưa ra định lý về giải thuật kiểm tra tính tách được của một bảng mã. Abramson (1963) đã đưa ra khái niệm bảng mã tức thời.
Trong phạm vi bài giảng này, bài toán sinh mã tối ưu được đặt ra ở đây là tìm ra một phương pháp sinh mã sao cho độ dài trung bình của các từ mã trong bộ mã là nhỏ nhất. Nghĩa là, nếu giá trị xi được gán bởi từ mã có độ dài ni thì bài toán sinh mã phải thỏa:
Huffman (1950) đã đưa ra qui trình xây dựng một bảng mã tối ưu thỏa yêu cầu này.
Khái niệm về bảng mã không tách được
Bảng mã không tách được là bảng mã mà khi mã hóa thông báo Msg ta sẽ nhận được một dãy các từ mã ws, và khi giải mã dãy các từ mã ws thì ta có thể nhận được nhiều thông báo Msg khác nhau.
Ví dụ: Xét biến ngẫu nhiên X={x1, x2,x3, x4} có bảng mã W={w1=0, w2=1, w3=01, w4=10}.
Giả sử thông báo nguồn có nội dung: x1x2x3x4x3x2x1. Khi đó dãy mã tương ứng viết từ W có dạng: 0101100110.
Nếu giải mã tuần tự từ trái qua phải ta nhận kết quả: x1x2x1x2x2x1x1x2x2x1. Nhưng nếu bằng phương pháp khác ta có thể nhận được kết quả: x3x3x4x3x4 và nhiều thông báo khác nữa.
Nhận xét:Bảng mã giải mã không tách được là bảng mã mà trong đó tồn tại ít nhất một từ mã này là mã khóa của một hay nhiều từ mã khác trong bộ mã (ví dụ từ mã w1=0 hay w2=1 là mã khóa của w3).
Bảng mã tách được
Bảng mã tách được là bảng mã mà khi mã hóa thông báo Msg ta sẽ nhận được dãy các từ mã ws, và khi giải mã dãy các từ mã ws thì ta chỉ nhận được một thông báo duy nhất là Msg ban đầu.
Ví dụ: Xét biến ngẫu nhiên X={x1, x2} có bảng mã tương ứng W={w1=0, w2=01}.
Phương pháp giải mã được sử dụng như sau: chỉ giải mã khi nào đã nhận được đoạn mã với độ dài bằng độ dài của từ mã dài nhất.
Giả sử dãy mã nhận được (cần giải mã) là: 0010000101001.
Sử dụng phương pháp giải mã trên ta nhận được duy nhất dãy thông báo gốc:
x1x2x1x1x1x2x2x1x2.
Có thể chi tiết hóa các bước giải mã dãy từ mã trên như sau:
Nhận được đoạn 00 -> Giải ra x1 , còn lại 0.
Nhận tiếp 1 ->01 -> Giải ra x2.
Nhận tiếp 00 -> Giải ra x1, còn lại 0.
Nhận tiếp 0 -> 00 -> Giải ra x1, còn lại 0.
Nhận tiếp 0 -> 00 -> Giải ra x1, còn lại 0.
Nhận tiếp 1 -> 01 -> Giải ra x2.
Nhận tiếp 01 -> Giải ra x2.
Nhận tiếp 00 -> Giải ra x1, còn lại 0.
Nhận tiếp 1 -> 01 -> Giải ra x2.
Kết quả dãy thông báo là: x1x2x1x1x1x2x2x1x2.
Kết luận:Bảng mã tách được là bảng mã mà trong đó không tồn lại từ mã này là mã khóa từ mã khác, tuy nhiên vẫn có thể tồn tại từ mã này là tiền tố (phần đầu) của từ mã kia.
Khái niệm bảng mã tức thời
Bảng mã tức thời là bảng mã mà khi mã hóa thông báo Msg ta sẽ nhận được dãy các từ mã ws, và khi giải mã dãy các từ mã ws thì ta chỉ nhận được một thông báo duy nhất là Msg ban đầu. Abramson đã chứng minh được kết quả sau: Bảng mã tức thời là bảng mã không tồn tại từ mã này là tiền tố của từ mã khác.
Ví dụ 1: Bảng mã W={w1=10; w2=101; w3=100} không phải bảng mã tức thời vì w1 là tiền tố của w2 và w3.
Ví dụ 2: Bảng mã W={w1=0, w2=100, w3=101, w4=11} là bảng mã tức thời vì không tồn tại từ mã này là tiền tố của từ mã khác.
Giải thuật kiểm tra tính tách được của bảng mã
Thủ tục sau đây do Sardinas (1960), Patterson (1963) và Abramson (1963) đưa ra nhằm kiểm tra xem một bảng mã nào đó có phải là bảng mã tách được (bảng mã cho phép giải mã duy nhất) hay không.
Input: Bảng mã W
Output: Kết luận bảng mã tách được hay không tách được.
Giải thuật:
Bước khởi tạo: Gán tập hợp S 0 =W.
xác định tập hợp S1 từ S0:
- Khởi tạo S1={}
- Với ∀ wi, wj thuộc S0, ta xét: nếu wi=wjA (wj là tiền tố của wi) hoặc wj=wi A (wi là tiền tố của wj) thì thêm A (phần hậu tố) vào S1.
Bước k: xác định tập hợp Sk (k≥2) từ tập hợp S0 và Sk-1:
- Khởi tạo: Sk={}
- Với ∀ withuộc S0 và ∀ vj thuộcSk-1, ta xét: nếu wi=vjA (vj là tiền tố của wi) hoặc vj=wi A (wi là tiền tố của vj) thì thêm A (phần hậu tố) vào Sk.
Điều kiện để dừng vòng lặp:
Nếu Sk={} thì dừng và kết luận bảng mã tách được (k≥1).
Nếu tồn tại từ mã wi trong Sk hay Sk giao S0 khác rỗng thì dừng và kết luận bảng mã không tách được.
Nếu Sk=St thì dừng và kết luận bảng mã tách được (k≥1).
Bài toán 1- yêu cầu
Bài toán: Kiểm tra xem bảng mã W={a, c, ad, abb, bad, deb, bbcde} có phải là bảng mã tách được hay không?
Áp dụng Giải thuật kiểm tra tính tách được của một bảng mã:
Bước khởi tạo: S0={a, c, ad, abb, bad, deb, bbcde}
Bước 1: Tính S1
Khởi tạo S1={}
Vì a là tiền tố của ad nên đưa phần hậu tố 8220;d” vào S1 => S1={d}.
Vì a là tiền tố của abb nên đưa phần hậu tố “bb” vào S1 => S1={d, bb}.
Kiểm tra điều kiện dừng: không thỏa -> qua bước 2.
Bước 2: Tính S2 từ S0 và S1.
Khởi tạo S2={}.
Vì d thuộc S1 là tiền tố của deb thuộc S0 nên đưa phần hậu tố “eb” vào S2
=> S2={eb}
Vì bbthuộc S1 là tiền tố của bbcde thuộc S0 nên đưa phần hậu tố “cde” vào S2
=> S2={eb, cde}
Kiểm tra điều kiện dừng: không thỏa -> qua bước 3.
Bài toán 1 - Áp dụng giải thuật
Bước 3: Tính S3 từ S0 và S2.
Khởi tạo S3={}.
Vì cthuộc S0 là tiền tố của cde thuộc S2 nên đưa phần hậu tố “de” vào S3
=> S3={de}
Kiểm tra điều kiện dừng: không thỏa -> qua bước 4.
Bước 4: Tính S4 từ S0 và S3.
Khởi tạo S4={}.
Vì dethuộc S3 là tiền tố của deb thuộc S0 nên đưa phần hậu tố “b” vào S4
=> S4={b}
Kiểm tra điều kiện dừng: không thỏa -> qua bước 5.
Bước 5: Tính S5 từ S0 và S4.
+ khởi tạo S5={}.
+ Vì bthuộc S4 là tiền tố của bad thuộc S0 nên đưa phần hậu tố “ad” vào S5 => S5={ad}
+ Vì bthuộc S4 là tiền tố của bbcde thuộc S0 nên đưa “bcde” vào S5
=> S5={ad, bcde}
Kiểm tra điều kiện dừng: Vì S5 có chứa từ mã ad nên dừng lại và kết luận đây là bảng mã không tách được.
Bài toán 2
Bài toán: Kiểm tra xem bảng mã W={010, 0001, 0110, 1100, 00011, 00110, 11110, 101011} có phải là bảng mã tách được không?
Áp dụng Giải thuật kiểm tra tính tách được của một bảng mã:
Bước khởi tạo và bước 1
- Tập hợp S0 ={010, 0001, 0110, 1100, 00011, 00110, 11110, 101011}
- Tập hợp S1 ={1}
Dành cho sinh viên tự làm các buớc tiếp theo.
Kết quả gợi ý:
Tập hợp S2 ={100, 1110, 01011}
Tập hợp S3={11}
Tập hợp S4={00, 110}
Tập hợp S5={01, 0, 011, 110}
Tập hợp S6={0, 10, 001, 110, 0011, 0110}
Tập hợp S6 chứa từ mã 0110 nên bảng mã này không phải là bảng mã tách được.
Bài tập
Hãy cho biết bảng mã sau có phải là bảng mã tách được hay không?
W={w1=00, w2=01, w3=0010, w4=0111, w5=0110}
Hãy lấy ví dụ một bảng mã tách được, và chứng minh nó là bảng mã tách được.