Sau khi học xong chương này, sinh viên cần phải nắm:
Kiến thức và kĩ năng lập trình căn bản
Sự phát triển của khái niệm kiểu dữ liệu là sự phát triển chủ yếu của ngôn ngữ lập trình trong những năm 70. Trong những ngôn ngữ cũ như FORTRAN và COBOL đã bắt đầu có khái niệm về kiểu.
Ý niệm đầu tiên về sự định nghĩa kiểu là một tập hợp các giá trị mà một biến có thể nhận. Kiểu dữ liệu trong các ngôn ngữ cũ này luôn luôn gắn liền với các biến riêng lẻ, do đó mỗi một phép khai báo biến phải đặt tên cho một biến và định nghĩa kiểu của nó. Do đó nếu một chương trình sử dụng nhiều biến có kiểu giống nhau thì mỗi một biến phải được khai báo riêng.
Bước tiếp theo của sự phát triển khái niệm kiểu được nghiên cứu trong Pascal. Trong đó cho phép đặt tên cho một kiểu, tức là một tập giá trị nào đó. Phép khai báo biến chỉ cần tên biến và tên kiểu đã định nghĩa chứ không cần định nghĩa lại kiểu.
Bước cuối cùng của sự phát triển khái niệm kiểu là: Kiểu không chỉ là một tập hợp các đối tượng dữ liệu mà còn là một tập hợp các phép toán có thể thao tác trên các đối tượng dữ liệu này.
Trừu tượng hóa là một phương pháp giúp người lập trình biết cách tập trung vào những vấn đề, những thuộc tính bản chất của chương trình mà bỏ qua các thuộc tính không cần thiết. Nó là một vũ khí chống lại độ phức tạp của chương trình, mục đích của nó là đơn giản hóa quá trình lập trình.
Có hai loại trừu tượng hóa cơ bản trong ngôn ngữ lập trình là trừu tượng hóa quá trình và trừu tượng hóa dữ liệu.
Trừu tượng hóa quá trình là việc phân chia chương trình thành những chương trình con. Mỗi chương trình con đảm nhiệm một tác vụ nào đó và được đặc trưng bởi một cái tên.
Ở cấp độ chương trình chính chúng ta chỉ gọi thực hiện các chương trình con, thông qua các tên chương trình con, để thực hiện các tác vụ mà chương trình con đó đảm trách. Như vậy, ở chương trình chính, chúng ta chỉ quan tâm đến kết quả của chương trình con mang lại mà không cần biết chi tiết cài đặt bên trong chương trình con đó.
Ví dụ để viết một chương trình quản lý, ta có thể viết theo hai cách, cách thứ nhất không phân chia thành các chương trình con và cách thứ hai có sử dụng chương trình con.
Đối với phương pháp thứ nhất, ta thấy toàn bộ chương trình được viết trong chương trình chính, điều này làm cho chương trình chính rất rườm rà, khó đọc hiểu, khó kiểm soát, khó sửa lỗi,...
Đối với phương pháp thứ hai, trong chương trình chính ta chỉ thấy tên các chương trình con (nhap_du_lieu, xu_ly_du_lieu, xuat_du_lieu) và thông qua các tên này ta biết rõ chương trình chính làm những việc gì còn bản thân các việc ấy được làm như thế nào thì ta không cần biết.
Ưu điểm của trừu tượng hoá quá trình
Việc phân chia chương trình thành các chương trình con có các ưu điểm nổi bật như sau:
Trừu tượng hoá dữ liệu là việc tạo ra kiểu dữ liệu trừu tượng. Kiểu dữ liệu trừu tượng là một tập hợp các ĐTDL và tập hợp các phép toán, thao tác trên các ĐTDL đó.
Ngày nay, khi ta nói kiểu dữ liệu thực chất là kiểu dữ liệu trừu tượng.
Kiểu dữ liệu trừu tượng có thể được định nghĩa bởi ngôn ngữ hoặc do người lập trình định nghĩa.
Ví dụ về kiểu dữ liệu trừu tượng do ngôn ngữ định nghĩa:
Kiểu integer trong Pascal hay kiểu int trong C là một kiểu dữ liệu trừu tượng do ngôn ngữ định nghĩa. Trong đó tập các ĐTDL là tập các số nguyên từ -32768 đến 32767; tập hợp các phép toán bao gồm các phép toán một ngôi (+, -), các phép toán hai ngôi (+, -, *, DIV, MOD), các phép toán quan hệ (<, <=, =, <>, >=, >).
Ví dụ về kiểu dữ liệu trừu tượng do người lập trình định nghĩa:
Trong môn học cấu trúc dữ liệu, chúng ta đã biết một loạt các kiểu dữ liệu trừu tượng do người lập trình định nghĩa như danh sách, ngăn xếp, hàng đợi, cây,...
Chẳng hạn kiểu dữ liệu trừu tượng danh sách là một dãy các phần tử với tập hợp các phép toán như tạo danh sách rỗng, kiểm tra danh sách rỗng, xen một phần tử vào danh sách, xoá một phần tử khỏi danh sách, ...
Sau đây ta sẽ nghiên cứu kỹ hơn về kiểu dữ liệu trừu tượng do người dùng định nghĩa.
Ngoài các kiểu nguyên thuỷ được định nghĩa bởi ngôn ngữ, người lập trình còn có thể định nghĩa các kiểu của riêng mình. Ðịnh nghĩa một kiểu dữ liệu mới bao gồm việc xác định các yếu tố sau:
Ví dụ trong Pascal ta xét định nghĩa kiểu như sau:
TYPE
RealVect = ARRAY[1..10] OF real;
Sau đó ta có thể dùng phép khai báo biến:
VAR
A: RealVect;
B,C:RealVect;
Ưu điểm của định nghĩa kiểu:
Chúng ta thấy rằng kiểu do người dùng định nghĩa chính là một kiểu dữ liệu trừu tượng.
Kiểm tra kiểu dẫn tới sự so sánh giữa kiểu dữ liệu của đối số thực đã được cho của một phép toán và kiểu dữ liệu của đối số mà phép toán đó cần đến. Nếu kiểu giống nhau thì đối số được chấp nhận và phép toán được tiến hành, nếu kiểu khác nhau, thì một lỗi được xem xét hoặc một sự cưỡng bức chuyển đổi kiểu được dùng để đổi kiểu của đối số thực thành kiểu thích hợp.
Vấn đề ở đây là cần phải xác định hai kiểu như thế nào thì được coi là "giống nhau" hay tương đương. Xét ví dụ sau đây:
TYPE Vect1 = ARRAY[1..10] OF REAL;
Vect2 = ARRAY[1..10] OF REAL;
VAR x,z : Vect1;
y : Vect2;
PROCEDURE Sub(a:Vect1);
.....
END; { Sub }
BEGIN { Chương trình chính }
x := y;
Sub(y);
......
END.
Vấn đề ở đây là các biến x, y và a có cùng kiểu do đó lệnh gán x := y và lời gọi chương trình con Sub(y) là đúng hay chúng có khác kiểu.
Có hai cách giải quyết cho vấn đề này: tương đương tên và tương đương cấu trúc.
H ai kiểu dữ liệu được xem là tương đương chỉ khi chúng có tên giống nhau. Như vậy các kiểu Vect1 và Vect2 ở trên là khác kiểu mặc dù đối tượng dữ liệu có chung một cấu trúc. Lệnh gán x := y và lời gọi chuong trình con Sub(y) là không hợp lệ. Tương đương tên là phương pháp được dùng trong Ada và Pascal. Tương đương tên có một điểm yếu là khi một kiểu không có tên như trong khai báo trực tiếp:
VAR w : ARRAY[1..10] OF REAL;
Biến w có kiểu riêng nhưng là kiểu không có tên. Như vậy w không thể được dùng như là một đối số cho một phép toán mà phép toán đó đòi hỏi một đối số của một kiểu có tên.
Hai kiểu dữ liệu được xem là tương đương nếu chúng xác định các đối tượng dữ liệu có cấu trúc bên trong giống nhau. Thông thường thuật ngữ "cấu trúc bên trong giống nhau" có nghĩa là giống nhau về sự biểu diễn bộ nhớ được dùng cho cả hai lớp đối tượng dữ liệu. Ví dụ Vect1 và Vect2 là tương đương cấu trúc bởi vì mỗi một đối tượng dữ liệu của kiểu Vect1 và mỗi một đối tượng dữ liệu của kiểu Vect2 có chung số phần tử có kiểu tương đương.
Quản lý bộ nhớ đối với các đối tượng dữ liệu của cả hai kiểu này là giống nhau, do đó công thức truy nhập giống nhau có thể được sử dụng để lựa chọn các phần tử và nói chung sự cài đặt tại thời gian thực hiện của các kiểu dữ liệu là giống hệt nhau.
Tương đương cấu trúc không có các bất tiện như tương đương tên nhưng nó lại có nhữ ;ng vấn đề khác, chẳng hạn như hai biến có thể tương đương cấu trúc một cách không cố ý mặc dù người lập trình đã khai báo chúng một cách tách biệt như trong ví dụ sau:
TYPE Meters = INTEGER;
Liters = INTEGER;
VAR Len : Meters;
Vol : Liters;
Các biến Len và Vol có kiểu tương đương cấu trúc và do đó một lỗi như phép cộng Len + Vol sẽ không được tìm thấy bởi phép kiểm tra kiểu tĩnh. Khi có nhiều lập trình viên làm việc chung trong một chương trình thì tương đương kiểu không cố ý có thể gây nên các lỗi rất nghiêm trọng như trong ví dụ nói trên.