“Xác định trình tự ADN'' nghĩa là gì?
Là mô tả thứ tự trong đó các bazơ A, G, T và C kế tiếp nhau trên một sợi. Như vậy, một trình tự ADN thể hiện như một dãy chữ cái. Bộ gen người có hơn ba tỷ chữ cái này, tức là ADN ở 24 loại nhiễm sắc thể khác nhau của người (22 nhiễm sắc thế thường, 2 nhiễm sắc thể giới tính - XX hoặc XY). Tuy thế, số ''chữ cái'' của người còn ít hơn so với số chữ cái trong bộ gen của lúa mì (16 tỷ). Bộ gen vi khuẩn chỉ có và triệu chữ cái. Đó là số chữ cái có trong bộ gen nhân. Số chữ cái trong bộ gen của các bào quan còn ít hơn nhiều: ty thể người - 16.000, lục lạp ờ thực vật bậc cao – 150.000.
Dự án ''Bộ gen người'', được phát động vào đầu những năm l990, đã nhằm vào 90% bộ gen, tức là 2,9 tỷ nucleotit. Việc thu được trình tự ''hoàn chỉnh'' đã được thông báo tháng 4 năm 2003. Nó chính xác tới 99,99% (một sai sót/10.000 chữ cái), so với chỉ 99% đối với trình tự ''nháp'', được giới thiệu tháng 6 năm 2000. Còn 10% của bộ gen không được xác định trình tự tương ứng vơi các đoạn ADN lặp lại, nằm ở đầu các nhiễm sắc thể hoặc phần giữa của chúng.
Nhưng xác định trình tự chưa phải đã xong. Sau đó phải lấy ra thông tin thích hợp. Vấn đề là chỉ một phần nhỏ của bộ gen, 2-3% tương ứng với những gen mã hóa cho các protein. Làm thế nào tìm ra chúng? Người ta phải dựa vào một số căn cứ riêng trong sự xếp đặt các chữ các: ví dụ, các bộ ba chỉ chỗ bắt đầu và kết thúc việc ''dịch'' gen thành protein. Các chương trình tin học có thể giúp xác định được chúng bằng cách phân tích thống kê nguyên bản. Tuy vậy, các dấu vết sai cũng nhiều. Trong những năm 1980, người ta đã dựa vào 100.000 gen. Năm 2000, số này chỉ còn là 30.000. Hiện nay, người ta ước tính có khoảng 20.000 – 25.000 gen người mã hóa cho các protein, nhưng con số này lại bắt đầu tăng lên.