Thứ Hai, 6 tháng 10, 2014

Báo cáo về tình hình chính tả trong văn bản tiếng Việt (2010)

Tác giả: Nguyễn Ái Việt và Nguyễn Tấn Tôn Thất Đỗ Vũ

Tạm gửi phần đầu. Bạn nào cần toàn văn xin cho địa chỉ Email, tôi sẽ gửi trực tiếp


  
TÓM TẮT 
Trong giai đoạn phát triển trước mắt, xã hội Việt nam đang phải đối diện với nhiều thách thức mới. Chính tả tiếng Việt đang bị xao lãng so với các thách thức về kinh tế xã hội khác. Bản “Báo cáo về tình hình chính tả trong văn bản tiếng Việt” này là một đánh giá nhỏ về chất lượng chính tả văn bản tiếng Việt và cũng là lời kêu gọi thiết tha “Hãy cùng chúng tôi giữ gìn tiếng Việt”. Nhóm tác giả mong mỏi rằng với một nhận thức mới mẻ, toàn thể cộng đồng người Việt nam sẽ cùng tuyên chiến với vấn nạn xã hội này.

Trước khi đánh giá, chúng tôi đã tiến hành một cuộc điều tra nhỏ trong hai nhóm Chuyên gia ngôn ngữ và Chuyên gia CNTT. Nhóm chuyên gia ngôn ngữ yêu cầu tỷ lệ lỗi chính tả trong văn bản Việt phải là dưới 1%. Nhóm chuyên gia CNTT chấp nhận tỷ lệ này trong khoảng 2.5-5%. Hai nhóm chuyên gia đều nhất trí cho rằng báo chí truyền thông có trách nhiệm nhiều nhất đối với chính tả tiếng Việt. Tuyệt đại đa số các chuyên gia cũng cho rằng tỷ lệ 10% là ngưỡng báo động đối với các lỗi chính tả và tỷ lệ 30% là ngưỡng mà một từ đã không còn là lỗi chính tả.

Đợt xếp hạng tháng 6/2010 đã đánh giá 177 đơn vị và xếp hạng 132 đơn vị trong 7 khu vực: 1) Bộ và Văn phòng Trung ương; 2) Ủy ban nhân dân Tỉnh và Thành phố trực thuộc Trung ương; 3) Cơ quan thuộc Chính phủ và thuộc Bộ; 4) Đại học và Viện nghiên cứu; 5) Báo chí, nhà xuất bản và cơ quan truyền thông; 6) Doanh nghiệp Việt nam; 7) Tổ chức và doanh nghiệp nước ngoài tại Việt nam. Chúng tôi đã chọn phương pháp thống kê, với tập lỗi điển hình, là phương pháp phù hợp với điều kiện hạn chế về nguồn lực. Với 67 nghìn mẫu thống kê, tỷ lệ lỗi chính tả trung bình của văn bản tiếng Việt là 7.79%, cao hơn nhiều so với mức yêu cầu tối thiểu. Nhóm tác giả đã quan sát được tỷ lệ lỗi chính tả cao nhất như sau: “soi mói” 74.33%, “sáng lạn” 41.66%, “cọ sát” 28.38% và “thăm quan” 20.61%. Khu vực báo chí và truyền thông có tỷ lệ lỗi chính tả cao nhất, gần mức báo động 10%. Khu vực Đại học và Viện nghiên cứu có tỷ lệ lỗi xấp xỉ mức trung bình của xã hội, chưa phát huy được tính mẫu mực và tiên phong trong vấn đề dùng chữ nghĩa. Điều đáng nói là trong cả hai khu vực này đều có các đại diện có tỷ lệ lỗi vượt mức 30%. Khu vực các chính quyền địa phương và các cơ quan thuộc chính phủ, thuộc Bộ có tỷ lệ lỗi chính tả khá cao. Đặc biệt, có đơn vị có tỷ lệ lỗi gần 40%. Ngay cả các khu vực khá nhất là doanh nghiệp và các Bộ vẫn còn phải tiếp tục cải thiện chất lượng để có thể đạt được mức 1%. Các kết quả đánh giá chi tiết được công bố trên trang Web www.xephangvanban.com khai trương ngày 26/7/2010.

Các kết quả nói trên là một cố gắng của các tác giả để giúp toàn thể xã hội và các đơn vị đã được xếp hạng bước đầu nhận thức được về vấn đề chính tả tiếng Việt. Các đợt đánh giá tiếp sau sẽ được tiến hành 3 tháng một lần và sẽ liên tục được mở rộng về quy mô để hậu thuẫn cho một chiến dịch cộng đồng về quét lỗi chính tả.

Việc giới thiệu các sản phẩm soát lỗi chính tả tiếng Việt một cách khách quan cũng sẽ là cần thiết cho chiến dịch quét lỗi chính tả. Nhóm tác giả đã phân tích thống kê dựa trên khối liệu chủ yếu là báo chí và đã ước lượng được tỷ lệ giữa lỗi phi từ và lỗi thực từ trong tiếng Việt là 31.70%: 68.30%. Khác với quan niệm của một số chuyên gia CNTT và tình trạng trong tiếng Anh, lỗi thực từ chiếm đa số lỗi chính tả trong tiếng Việt. Điều đó có thể giải thích tại sao các sản phẩm không có khả năng quét lỗi thực từ đã không nhận được hưởng ứng mạnh mẽ từ phía người dùng.

Một kết quả đánh giá khác cho thấy, trái với nhận thức của nhiều người, hiện đã có một số sản phẩm Việt nam đạt được độ nhận biết lỗi thực từ vượt xa mức 33% của Microsoft Word 2007. Đặc biệt có sản phẩm đã đạt tỷ lệ 92.54%. Kết hợp với giải pháp hạ tầng quét lỗi cho cơ quan xí nghiệp, việc đạt tới độ nhận biết lỗi trên 99% đã là hiện thực.

Để có đánh giá khách quan, chúng tôi đề nghị sử dụng các độ đo như độ nhận biết, độ chính xác và khả năng gợi ý để đánh giá hiệu năng cho các phần mềm soát lỗi. Chúng tôi cũng đưa ra độ đo VIE độ đo cân bằng giữa các yếu tố nói trên và tỷ lệ với tần số xuất hiện các lỗi phi từ và lỗi thực từ.

Trong tương lai, các doanh nghiệp, chuyên gia và người sử dụng có thể tiếp tục giới thiệu các sản phẩm mới của mình với cộng đồng trên trang Web www.xephangvanban.com.

Nỗ lực đơn độc dù cố gắng đến đâu cũng không thể mang lại kết quả như mong muốn. Với công trình này, chúng tôi hy vọng sẽ có các nhà quản lý, chuyên gia ngôn ngữ và nhà văn hóa sẽ cùng vào cuộc để dẫn dắt cho chương trình cộng đồng này. Đồng thời, hy vọng rằng sẽ có nhiều bạn đồng nghiệp trong lĩnh vực CNTT cho ra các sản phẩm cùng giúp ích cho cộng đồng. HÃY CÙNG CHÚNG TÔI GIỮ GÌN TIẾNG VIỆT.
MỞ ĐẦU

Ngôn ngữ hình thành từ nhu cầu chia sẻ thông tin là động lực giúp con người suy nghĩ, đứng thẳng dậy trên đôi chân của mình và làm chủ thế giới. Loài người tìm ra chữ viết và dùng các văn bản để chuyển tải tri thức tới cho các thế hệ tương lai. Nhờ đó, ngày nay loài người đã có được cuộc sống tốt đẹp hơn và có thể ngẩng cao đầu để nhìn về những khoảng không cách xa hàng triệu năm ánh sáng.
Văn bản là tinh hoa tư duy của nhiều thế hệ, là nguyên khí dân tộc, quyết định sự tồn vong của quốc gia. Trong đêm đen nô lệ ngoại bang dài thăm thẳm, biết bao thế hệ người Việt đã không ngừng trút tim óc của mình lên giấy mực với niềm hy vọng bi thiết “tiếng ta còn thì nước ta còn”. Kho thư tịch tiếng Việt đã bị mai một nhiều do binh hỏa và thời gian, nhưng tiếng Việt, gia tài của cha ông để lại vẫn còn đây, để cho chúng ta được làm người Việt và có một nước Việt nam toàn vẹn. Trong những năm chiến tranh, các nhà lãnh đạo ở cả hai miền vẫn đau đáu kêu gọi “giữ gìn sự trong sáng trong tiếng Việt” và “chỉnh đốn Việt ngữ” vì một tương lai tươi sáng của dân tộc.
Ngày nay, chúng ta như quá mải miết trong những thăng trầm của cuộc sống và quên rằng bao nhiêu đế chế hùng mạnh đã lụi tàn, bao nhiêu nền văn hóa rực rỡ đã chìm vào quên lãng, bao nhiêu sinh ngữ đã trở thành tử ngữ trong những cuộc va đập khốc liệt giữa các nền văn minh. Để có nước non và tiếng nói Việt này, các thế hệ tiền nhân đã phải quên thân đền nợ nước và “dưới trăng bao thu bạc đầu mài kiếm”.

Hội nhập kinh tế văn hóa là một hành trình gian nan, đòi hỏi ngôn ngữ phải đủ chính xác để thu nhận được tri thức của nhân loại vừa đủ sức phổ cập để biến tri thức đó thành sức mạnh của cộng đồng người Việt. Tiếng Việt đáng lẽ phải được quan tâm chăm sóc, chỉnh đốn và phát triển hơn nữa. Tiếc thay, hiện nay tiếng Việt đang bị xuống cấp, lỗi chính tả tràn lan trên phương tiện thông tin đại chúng, hoành hành trong học đường, len lỏi cả vào các văn bản pháp quy và gieo mầm bệnh trong sách vở như một đại dịch. Việc sử dụng các phương tiện soạn thảo cắt dán, thư điện tử và Internet lại càng tạo điều kiện cho các loại vi rút này nảy nở sinh ra nhiều chủng loại kỳ dị khó chữa và truyền nhiễm nhanh hơn.

Một số chuyên gia ngôn ngữ cho rằng đây không còn là nguy cơ tiềm ẩn chỉ cần cảnh báo mà đã một đại nạn như cháy hay vỡ đê phải huy động sức mạnh của cả cộng đồng mới giải cứu được. Một vấn nạn xã hội lớn như vậy chỉ có thể đối phó nếu có một chiến dịch truyền thông lớn với mọi người Việt cùng vào cuộc.

Nhóm tác giả của “Báo cáo về tình hình chính tả Tiếng Việt: Đợt đánh giá Tháng 6/2010” là các chuyên gia về công nghệ xử lý tiếng Việt tâm huyết với tương lai của tiếng Việt. Chúng tôi hy vọng đây sẽ là lời tuyên chiến đầu tiên của tất cả chúng ta với vấn nạn chính tả tiếng Việt. Chúng tôi rất mong sẽ có các nhà quản lý, các chuyên gia ngôn ngữ, các nhà báo, trí thức, các doanh nghiệp và các bạn đồng nghiệp sẽ cùng tham gia để chủ trương và chỉ dẫn thêm cho đại cục. Cũng mong các đơn vị đã được xếp hạng sẽ thấy được thiện chí đó, không hiềm hơn kém để cùng chỉnh đốn lại tiếng Việt của chúng ta.

CHƯƠNG 1: VẤN NẠN CHÍNH TẢ TIẾNG VIỆT

Đầu thế kỷ XX, chữ Quốc ngữ đã trở nên phổ biến để ghi tiếng Việt bằng các ký tự La tinh. Đây là một điều may mắn lớn giúp tiếng Việt phát triển, trở thành một ngôn ngữ có khả năng chuyển tải các tư tưởng mới, có sức phổ cập, có thể đánh vần theo ký âm, dễ học và dễ đọc. Tiếng Việt thừa hưởng được các cách dùng chữ viết hoa để phân biệt danh từ riêng, dấu ngắt câu và các dấu biểu lộ tình thái do ký âm La tinh đem lại.

Là một ngôn ngữ đơn âm vị, tiếng Việt đòi hỏi xử lý phức tạp hơn so với tiếng Anh hoặc các ngôn ngữ đa âm vị khác. Để quyết định một âm vị hay một từ sai chính tả, phải xét chúng trong tương quan văn cảnh. Chẳng hạn, “trưa” và “phải” đều là các âm vị có trong từ điển, nhưng tổ hợp “trưa phải” lại là một lỗi chính tả tiềm năng. Tuy nhiên, câu “Anh làm đến trưa phải không?” lại không có lỗi chính tả. Nói một cách khác, trong tiếng Việt, giữa lỗi chính tả và lỗi ngữ pháp không có một ranh giới rõ ràng được đánh dấu bằng dấu cách (ký tự trắng) như trong tiếng Anh.

Phần lớn lỗi chính tả tiếng Việt bắt nguồn từ việc thiếu hệ thống chuẩn hóa cách ký âm và phát âm. Đến nay, các cách hài dấu, sử dụng “i” hay “y”, “d” hay “gi”, phiên âm địa danh, tên người vẫn là đề tài tranh cãi và chưa đạt được sự đồng thuận. Có lẽ không có quốc gia nào trên thế giới có nhiều cách phát âm vùng miền nhiều như Việt nam. Mỗi vùng miền đều mang vào tiếng Việt những lỗi chính tả đặc trưng của mình như “l-n”, “ch-tr”, “s-x” ở miền Bắc, “t-c”, “n-ng” ở miền Nam, nhầm lẫn về các dấu “sắc” và “huyền” ở miền Trung. Từ đó mà có những chuyện tiếu lâm về “lờ thấp lờ cao”, “xờ bướm sờ chim” hay “cá có cuống cà có đuôi”. Các lỗi chính tả khó sửa nhất xuất hiện còn do thói suy luận mò trên cơ sở một âm vị sai ngẫu nhiên trùng nghĩa như “soi mói”, “cọ sát”, “thăm quan”… Trong văn bản được soạn thảo trên máy tính, lỗi chính tả còn xuất hiện do việc gõ sai chệch sang ký tự bên cạnh, đảo lộn thứ tự ký tự, dính từ do bỏ quên ký tự trắng hoặc sự xuất hiện các ký tự “w”, “s”, “j” không đúng chỗ.
Vào những năm 60-70 của thế kỷ trước, mục Dọn vườn của Báo Văn nghệ là chuyên mục giúp ích nhiều cho chính tả tiếng Việt. Cũng trong thời gian đó, các ấn phẩm ít lỗi chính tả và sử dụng chữ nghĩa của công chức cũng có trách nhiệm hơn nhiều so với ngày nay. Rồi bẵng đi một dạo, vườn văn Việt không có ai chăm lo, lỗi chính tả đã nảy sinh nhiều như sâu bệnh mùa lụt trên sách vở, phương tiện thông tin đại chúng và nơi công cộng. Biểu ngữ “bánh trưng” ở lễ hội vua Hùng, hay “đất nớc” bên cạnh Ủy ban nhân dân thành phố Hà nội chỉ làm được dư luận xôn xao vài ngày đã trở thành chuyện “biết rồi khổ lắm nói mãi”. Lỗi chính tả nhiều đến mức chữa không xuể, trám được chỗ này lại bục ở chỗ kia, làm nản chí ngay cả các thức giả.
Sẽ sai lầm vô cùng nếu nghĩ rằng chính tả là chuyện nhỏ hay quá cao xa. Chính tả có tầm quan trọng đặc biệt trong đời sống văn hóa xã hội. Văn bản pháp luật sai chính tả sẽ ảnh hưởng tới lòng tin của công dân đối với các cơ quan công quyền. Báo chí sách vở sai chính tả sẽ làm méo mó thông tin, để lại mầm độc vào ngôn ngữ và tư duy của thế hệ trẻ. Có lẽ vì lỗi chính tả quá nhiều, chúng ta đã trở nên chai lì với chúng đến mức thờ ơ. Hãy nhớ rằng quan tâm tới chính tả cũng còn là quan tâm đến quyền lợi thiết thực của mỗi người. Đơn thư sai chính tả có thể ảnh hưởng tới con đường tiến thân và chế độ lương bổng của người lao động. Chào hàng, giới thiệu sản phẩm sai chính tả sẽ làm tổn hại tới hình ảnh và doanh thu của doanh nghiệp.
Nhiều tờ báo lớn trên thế giới yêu cầu tỷ lệ lỗi chính tả tiêu chuẩn là dưới mức 0.1%. Với tình trạng lỗi chính tả trầm trọng như ở nước ta hiện nay, nhiều chuyên gia cho rằng lỗi chính tả cũng phải ở mức dưới 1%. Tuy vậy, kết quả khảo sát của chúng tôi cho thấy có rất ít tổ chức đạt được mức này. Thậm chí còn có những tổ chức có tỷ lệ sai lỗi chính tả tới mức 30-40% là ranh giới giữa sai và đúng đã bị xóa nhòa và mọi từ điển đều trở nên vô dụng.
Khi việc đảo lộn sai đúng và thiếu trách nhiệm với chất lượng công việc trở thành một thái độ sống, chúng ta sẽ phải đối mặt với một vấn nạn xã hội còn lớn hơn nhiều. Sửa lỗi chính tả cũng là bước đầu để chấn chỉnh kỷ cương quốc gia, nâng cao chất lượng công việc và tinh thần trách nhiệm của công dân.
Công nghệ thông tin có thể đem lại những sản phẩm xử lý văn bản, hỗ trợ biên dịch và máy tìm kiếm. Trong số đó, soát lỗi chính tả là nhu cầu thiết thực hàng đầu. Người dùng đòi hỏi phải có những sản phẩm đúng quy trình chất lượng và dễ mất lòng tin với các sản phẩm sơ sài. Họ thường không biết rằng trên thị trường đã có những sản phẩm có thể đáp ứng nhu cầu soát lỗi chính tả. Nhiều nhà sản xuất cho rằng thị trường cho sản phẩm soát lỗi tiếng Việt quá nhỏ hẹp, do đó đã ngừng phát triển hoặc không đầu tư hơn nữa vào nghiên cứu phát triển. Thực ra, thị trường các phần mềm nâng cao chất lượng văn bản tiếng Việt là vô tận với hơn 5 triệu máy tính dùng được để soạn thảo văn bản hàng ngày.
Công nghệ thông tin chỉ có thể đem lại các công cụ trợ giúp, việc quét sạch lỗi chính tả trong văn bản tiếng Việt phải nhờ đến một chiến dịch cộng đồng rộng lớn, trong đó báo chí, truyền thông và các trường đại học phải đi đầu. Trong chiến dịch này, trước hết các nhà ngôn ngữ, các nhà văn hóa phải lên tiếng tạo thành dư luận xã hội và thuyết phục các cơ quan nhà nước ủng hộ để sớm có được một chương trình tái thiết tiếng Việt thậm chí một đạo luật về sử dụng tiếng Việt. Các chuyên gia công nghệ thông tin sẽ phải cố gắng để có những sản phẩm thiết thực phục vụ cho công cuộc tái thiết này.
Việc xếp hạng văn bản sẽ nâng cao nhận thức xã hội về lỗi chính tả này bằng những con số, để giúp mỗi người chúng ta cảm nhận được vấn nạn này một cách cụ thể hơn để cùng nhau giữ gìn tiếng Việt

3 nhận xét:

  1. Gửi cho tao toàn văn nhé. Cảm ơn lắm.

    Trả lờiXóa
  2. Em đang làm nghiên cứu về lĩnh vực này nên rất quan tâm. Anh cho em xin toàn văn với ạ ^^ email của em là: nngocthanh.20196@gmail.com. Em cảm ơn anh.

    Trả lờiXóa
  3. Chào anh, em đang nghiên cứu làm bài luận nên cần thông tin về vấn đề này, anh cho em xin toàn văn với ạ.
    Email của em: lethanhhuyen103@gmail.com
    Em cảm ơn anh!

    Trả lờiXóa