Extract Text là phần mềm trích xuất văn bản từ rất nhiều loại tài liệu khác nhau, được thiết kế dựa trên công nghệ trong Microsoft Index Server để tạo chỉ số cho văn bản trong file giúp người dùng dễ dàng tìm kiếm nội dung.
Giao diện dòng lệnh của phần mềm trích xuất văn bản Extract Text
Extract Text thiết kế dựa trên công nghệ mà Microsoft Index Server sử dụng, gọi là iFilters - công nghệ đóng vai trò như 1 plugin để gắn chỉ số cho các thông tin và dữ liệu trong file, từ đó bộ tìm kiếm có thể dễ dàng tìm ra chúng thông qua từ khóa. Extract Text có cách sử dụng đơn giản, giao diện dòng lệnh (command line).
Phần mềm chỉ cần biết tên tập tin mà bạn muốn trích xuất văn bản từ đó cũng như tên của tập tin mới mà bạn sẽ dùng để lưu trữ thông tin sau khi trích xuất. Trước khi tải và cài đặt phần mềm, hãy đảm bảo là máy tính của bạn có cài đặt .NET Framework 4.0. Extract Text chỉ bao gồm các file thực thi và cũng không cần người dùng phải cài đặt mà chỉ cần giải nén tập tin và sao chép chúng vào thư mục mình muốn.
Bộ lọc PDF Filter DLL cần có để trích xuất văn bản từ file PDF đã có sẵn trong Adobe Reader 7.0.5 cho tới 9. Từ sau Adobe Reader 10 (hay Adobe Reader X) thì gói DLL này không bao gồm sẵn trong Adobe Reader nữa. Tuy vậy thì bạn vẫn có thể trích xuất văn bản từ file PDF của Adobe hoặc các sản phẩm trình đọc PDF khác bởi Adobe có phát hành riêng bộ lọc Adobe iFilter.
Để trích xuất văn bản từ tập tin của Microsoft Office thì bạn cũng chỉ cần có các gói Filter Pack mà Microsoft cung cấp, cho phép trích xuất văn bản từ các định dạng file DOCX, DOCM, PPTX, PPTM, XLSX, XLSM, XLSB, ZIP, ONE, VDX, VSD, VSS, VST, VSX và VTX.
Phần mềm được cung cấp hoàn toàn miễn phí cho người dùng. Phiên bản mới nhất của Extract Text có hỗ trợ cả bộ lọc 32-bit và 64-bit, sử dụng .NET Framework 4.0 thay vì 2.0 như trước đó.
Thuy Nguyen