Thứ Bảy, 31 tháng 1, 2015

Các bài toán về khoa học máy tính (1) Dùng biểu thức chính quy hay tìm kiếm nhị phân

Nguyễn Ái Việt - Từ tuần này sẽ đề ra một số bài toán không khó về mặt kỹ thuật, nhưng có tính gợi mở những ý tưởng ứng dụng mới và đòi hỏi sáng tạo về kỹ thuật.

Tuần này sẽ bắt đầu bằng một bài toán về xử lý ngôn ngữ tự nhiên, nhưng xử lý đặc thù tiếng Việt. Lý do 1: xử lý tiếng Việt là lĩnh vực công nghệ mà người Việt phải quan tâm hàng đầu, vì không thể chờ đợi người nước ngoài làm hộ. Lý do 2: Một kỹ sư lập trình trước tiên phải thành thạo xử lý chuỗi text. Bài toán này vừa là một bài tập xử lý chuỗi, đánh giá tốc độ tính toán có quy mô một dự án nhỏ, nhưng có thể áp dụng cho xử lý tiếng Việt

 Bài toán: So sánh tốc độ tính toán xác định một chuỗi ký tự có phải là âm tiết tiếng Việt hay không theo hai cách:
   i) Sử dụng một danh sách các âm tiết tiếng Việt (gồm khoảng gần 70 nghìn âm tiết, theo cơ sở dữ liệu của công ty VIEGRID JSC) đã được sắp xếp theo trật tự từ điển và sử dụng tìm kiếm nhị phân để xem chuỗi ký tự có nằm trong danh sách hay không.
  ii)  Sử dụng một biểu thức chính quy (REGEX) về một âm tiết tiếng Việt và một thuật toán match biểu thức chính quy.

1 nhận xét:

  1. Bác cho cháu hỏi, thuật toán tính tổng biểu thức chính quy trong lập trình như thế nào ạ.

    hinh anh bia dep | Ket Qua | KQXSBL | KQXSCT

    Trả lờiXóa