Có thể nói rằng khối liệu là mô hình nhỏ nhất của ngôn ngữ. Căn cứ vào hoạt động của khối liệu trong các hệ thống của nó có thể thấy các đặc trưng cơ bản sau:
Tính điển hình
Đây là khái niệm quan trọng nhất của Ngôn ngữ học khối liệu. Đặc trưng này xác định tính thực tiễn của khối liệu, có nghĩa là khối liệu phải là tập hợp của nhiều loại văn bản phù hợp cho việc nghiên cứu đối với nhiều ngôn ngữ. Điều đặc biệt quan trọng là khối liệu chung phải hàm chứa được một tỉ lệ xác định các văn bản thuộc nhiều thể loại, tại nhiều thời điểm lịch sử, của nhiều tác giả khác nhau v.v.
Tính điển hình của khối liệu có thể được hiểu là sự thể hiện tỉ lệ cần và đủ trong khối liệu về dung lượng, thể loại, phong cách, số lượng tác giả, vùng địa lí, thời kì lịch sử v.v.
Kích cỡ xác định
Khái niệm "khối liệu" có nghĩa thông thường là tập hợp các văn bản có kích cỡ xác định. Theo thời gian, kích cỡ (dung lượng và thành phần) của khối liệu có thể thay đổi. Tuy nhiên, những thay đổi này hoặc là không được kéo theo sự thay đổi về tính điển hình của toàn khối hoặc là phải thay đổi nền của khối liệu cần thay đổi.
Các khối liệu ban đầu như khối liệu Brown hoặc khối liệu tiếng Nga Upsanski bao gồm một triệu đơn vị từ và cụm từ sử dụng. Ngày nay, các kh 7889;i liệu cần chứa được ít nhất là 100 triệu đơn vị từ và cụm từ sử dụng.
Khi xây dựng khối liệu cần lưu ý đến mục đích sử dụng ngữ liệu khối và người sử dụng khối liệu được tạo lập. Quá trình xây dựng khối liệu cho thấy mỗi nhóm người sử dụng khối liệu đều có nhu cầu riêng của mình. Ví dụ, phần lớn người sử dụng tìm trong khối liệu các từ hoặc cụm từ khi gặp phải các vấn đề chính tả hoặc phong cách của chúng, thường là họ tìm đồng nghĩa của từ hoặc cụm từ. Đối với các trường hợp như vậy thì chỉ cần xây dựng khối liệu ngôn ngữ vừa đủ, có thể chấp nhận một số từ hoặc cụm từ trong khối chưa mang đầy đủ tính điển hình của khối liệu được tạo dựng với nguồn từ điển thông dụng của ngôn ngữ toàn dân. Một ví dụ khác với trường hợp trên có thể được dẫn chứng cho tầm quan trọng trong việc lựa chọn mục đích xây dựng khối liệu và đáp ứng được nhu cầu của người sử dụng khối liệu. Đối với người sử dụng là chuyên gia một chuyên ngành công nghệ chẳng hạn thì người xây dựng khối liệu cần tuân thủ đầy đủ các nguyên tắc về tính điển hình, kích cỡ xác định và phong cách ngôn ngữ của chuyên ngành đó bên cạnh một lượng dự trữ từ và cụm từ của từ điển thông dụng. Hoặc đối với người sử dụng là nhà từ vựng học thì ngoài nguồn từ và cụm từ của từ điển thông dụng ra còn cần một lượng các đơn vị từ theo chuyên ngành cụ thể và các phương tiện ngôn ngữ kèm theo. Đối với người sử dụng là các nhà lí luận ngôn ngữ và chuyên gia trong lĩnh vực soạn thảo ngôn ngữ máy tính thì cần khối liệu đặc trưng về mặt ngôn ngữ, bao gồm các dữ liệu về từ vựng - ngữ nghĩa, cú pháp và hình thái học.
Tính chú giải
Để giải quyết được các vấn đề ngôn ngữ khác nhau trong khối liệu, khi xây dựng khối liệu cần có lượng đáng kể chú giải thông tin ngôn ngữ và ngoại ngôn ngữ thuộc các thể loại khác nhau. Vì vậy, trong Ngôn ngữ học khối liệu hình thành các khối chú giải thông tin. Chú giải (tagging) là phần giải thích các thông tin đặc thù làm rõ nghĩa cho các văn bản trong khối liệu như là chú giải bên ngoài, ngoại ngôn ngữ (ví dụ, chú giải về tác giả: tên, tuổi, giới tính, năm sinh v.v. và về văn bản: tác giả, tên văn bản, năm và nơi xuất bản, thể loại, phong cách ngôn ngữ v.v.); hoặc là chú giải cấu trúc (ví dụ, chương, đoạn, câu, hình thái từ v.v.); hoặc là chú giải cho chính ngôn ngữ văn bản về từ vựng, cú pháp.
Các nghiên cứu về Ngôn ngữ học khối liệu đã cho thấy việc xác định và lựa chọn các loại hình chú giải phải do các nhà ngôn ngữ tiến hành trên cơ sở các văn bản được lựa chọn cho việc xây dựng khối liệu.
Chú giải trong khối liệu có thể được chia thành:
* Chú giải hình thái học (POS-tagging)
Đây là dạng cơ bản trong phân tích và xây dựng khối liệu bởi vì phần lớn các khối liệu lớn chính là các khối liệu nhỏ được chú giải hợp lại về mặt hình thái học. Trong quá trình xây dựng khối liệu, phân tích hình thái học được xem là cơ sở của phân tích cú pháp và phân tích ngữ nghĩa.
Chú giải hình thái học bao gồm chú giải các thành phần lời nói (viết và nói) và phạm trù ngữ pháp của các thành phần đó trong khối liệu. Đơn vị chú giải hình thái học là từ () hoặc cụm từ.
Hiện nay, các thành tựu về hình thái học máy tính đã phát triển ở mức độ cho phép tự động chú giải các khối liệu có kích cỡ lớn. Chú giải hình thái học ngày nay thường được thực hiện một cách tự động nhưng bắt buộc phải có sự tham gia của con người vào việc lựa chọn nghĩa từ xác định trong ngữ cảnh cụ thể cho khối liệu do trong phân tích hình thái học có thể x̐ 3;y ra các hiện tượng đa nghĩa của từ.
Các nghiên cứu về khối liệu cho thấy nếu chú giải hình thái học được lựa chọn càng nhiều bao nhiêu thì phân tích văn bản càng được chi tiết bấy nhiêu. Ngày nay đang có xu hướng giảm số lượng chú giải hình thái học do dung lượng các khối liệu ngày càng tăng. Hệ thống làm đơn giản quá trình mã hóa tạo điều kiện cho việc tránh mắc lỗi không cần thiết, sử dụng một cách lôgíc các dữ liệu, tránh các trường hợp đa nghĩa của từ trong văn bản và tăng tốc độ chú giải của các khối liệu lớn với hàng triệu từ.
* Chú giải cú pháp (parsing)
Chú giải cú pháp là kết quả của phân tích cú pháp được thực hiện trên cơ sở dữ liệu về phân tích hình thái học. Đây là dạng chú giải mô tả các mối quan hệ cú pháp giữa các đơn vị từ vựng và cấu trúc cú pháp khác nhau (ví dụ, mệnh đề phụ thuộc, mệnh đề độc lập, thành ngữ v.v.).
Hiện nay, ở mức độ phân tích cú pháp đang tồn tại xu hướng chi tiết hóa nhỏ nhất việc mã hóa chú giải để tăng tốc độ và trình tự phân tích văn bản. Điều này cũng diễn ra đối với chú giải hình thái học và chú giải ngữ nghĩa.
* Chú giải ngữ nghĩa (semantic tagging)
Trong quá trình xây dựng khối liệu thì phần chú giải ngữ nghĩa là phần phức tạp và khó khăn nhất. Cho đến nay, đối với ngữ nghĩa học dành cho khối liệu vẫn chưa có sự đồng nhất chung về mặt lí luận. Tuy vậy, các phạm trù ngữ nghĩa của các đơn vị từ và cụm từ sử dụng đã được xác định khá rõ ràng cho việc xây dựng các khối liệu cụ thể.
Do tính chất phức tạp trong việc lựa chọn các chú giải ngữ nghĩa cho khối liệu nên hiện nay các nhà nghiên cứu ngôn ngữ học khối liệu đang tập trung rất nhiều công sức vào lĩnh vực phát triển này. Một điều hiển nhiên là chú giải ngữ nghĩa hiện đang được phát triển rất mạnh bởi tính xác thực của nó đối với hoạt động của khối liệu, nghĩa là chú giải ngữ nghĩa đảm bảo cho việc thực hiện chức năng quan trọng nhất trong hệ thống khối liệu là tạo khả năng so sánh các văn bản khác nhau với mục đích tích lũy các ngân hàng kiến thức và phục vụ cho việc nhanh chóng tìm kiếm các thông tin cần thiết.
Kiểu chú giải ngữ nghĩa là các mã (code) gồm các con chữ và chữ số. Các nghiên cứu cho thấy có khoảng 250 - 300 đơn vị mã để phân loại toàn bộ từ vựng.
* Ngoài các loại hình chú giải chủ yếu trên còn tồn tại các chú giải khác như chú giải từ loại, chú giải ngôn điệu, chú giải bình luận hoặc tranh luận v.v.