Tài liệu: Người ta làm thế nào để máy tính có thể nhận ra được chữ?

Tài liệu
Người ta làm thế nào để máy tính có thể nhận ra được chữ?

Nội dung

NGƯỜI TA LÀM THẾ NÀO ĐỂ MÁY TÍNH CÓ THỀ

NHẬN RA ĐƯỢC CHỮ?

 

Bình thường chúng ta phải nhập vào máy tính những chữ Hán hoặc ký hiệu chữ cái, văn kiện chủ yếu, những thao tác này được thực hiện qua chức năng biên soạn của máy tính, chữ cái ký hiệu trên bàn phím, mã nhập chữ Hán. Nếu lượng nhập lớn thì dễ xảy ra ký hiệu nhầm lẫn, khó có thể tra ra được.

Trên thực tế còn có một phương pháp nhập nhanh và đơn giản, chính là thông qua hệ thống phân biệt ký tự quang học (OCR) biến những bản thảo thành các đồ hình nhớ vào máy tính, sau đó phần mềm của hệ thống OCR đảm nhận chức năng phân biệt và nhận dạng, và những ký hiệu mà hệ thống này không phân biệt được thì chúng ta sẽ thực hiện, như thế đã hoàn thành được công việc nhập văn tự của văn bản. Hệ thống OCR ngày nay tỷ lệ nhận biết sai lầm là rất thấp đối với những chữ được in tốt.

Cùng với việc nâng cao trình độ trí năng hoá của hệ thống OCR, tỷ lệ nhận dạng những chữ in không tốt hoặc chữ dạng viết tay cũng tăng cao nhanh chóng.

Vậy thì máy tính sử dụng hệ thống OCR thế nào để nhận dạng ký tự? Hệ thống OCR thông thường thông qua 5 bước sau để hoàn thành cộng việc nhận dạng chữ.

Đầu tiên, thông qua máy quét nhớ những văn kiện vào bộ nhớ.

Bước thứ 2: Tiến hành phân biệt từng hàng, từng đoạn, đề mục và chính văn, ký tự và những đồ hình không có quy tắc với nhau, đây là bước quan trọng để nhận dạng kiểu ký tự.

Bước 3: Nhận dạng ra các ký tự mà đã tách rời nhau, bước này thường gọi là nhận dạng kiểu ký tự hay phối hợp kiểu ký tự. Phần mềm sẽ cách li thành chữ vuông tượng hình, so sánh kiểu chữ tiêu chuẩn trong máy, thông qua phối hợp để phân biệt mỗi ký tự.

Bước 4: Các ký tự đã được phân biệt ở bước 3 thông qua một quá trình xử lý khá lâu và tỉ mỉ hơn để phân biệt rõ hơn, quá trình này gọi là ''sàng lọc đặc trưng''.

Bước 5: Xử lý các ký hiệu khó. Bình thường có 2 phương thức sau: phương thức thứ nhất đánh dấu và đưa ra những ký tự đã được phân biệt, dùng phương pháp thủ công tiến hành sửa hoặc thay thế, phương pháp khác là dùng chương trình soát lỗi đánh phiên âm hoặc chương trình soát lỗi chữ Hán thông dụng để sửa lỗi trong quá trình chuyển tự.

Người ta muốn máy tính phân biệt nhận dạng được nhiều chữ Hán hơn một cách chuẩn xác hơn nên đã tiến hành nghiên cứu phương pháp cơ bản nhận dạng tự động. Phương pháp cơ bản này phân làm hai loại lớn: phương pháp kết cấu câu chữ Hán, và phương pháp quyết sách thống kê được hình thành từ việc rút ra đặc trưng thống kê nhận dạng chữ Hán. Ngoài ra, phương pháp tri năng nhân tạo, toán học tương đối, mạng thần kinh nhân tạo ngày càng đóng vai trò quan trọng trong sự nhận dạng tự động chữ Hán.




Nguồn: bachkhoatrithuc.vn/encyclopedia/211-26-633371153329741023/Cong-nghe-thong-tin/Nguoi-ta-lam-the-nao-d...


Chưa có phản hồi
Bạn vui lòng Đăng nhập để bình luận