Langven.com Forum

Full Version: Unicode: Tổ hợp hay dựng sẵn
Quán nước đầu làng Ven > Thư viện làng Ven > Thư viện bài viết
Pages: [1], 2, [>], [>>]
root
Tôi xin bắt đầu một chủ đề tin học. Nếu đưa ra một vấn đề về server hay network hoặc communication thì sẽ quá chuyên ngành và ít thu hút được mọi người tham gia. Bởi vậy, tôi xin được thảo luận về vấn đề Unicode, một vấn đề liên quan tới tất cả những người sử dụng máy vi tính. Các bạn có thể tham khảo thông tin tại đây và nêu ra ý kiến riêng trên quan điểm người sử dụng lẫn kĩ thuật.

http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...PIC_ID=HOCTHUAT

Tôi sẽ đưa ra một số nhận xét riêng trong bài viết lần sau
Phó Thường Nhân
Unicode quả thực là tiện lợi, chí ít cũng cho người sử dụng tiếng Việt,còn không biết các bác TQ, Đại Hàn, Nhật Bản thấy sao. có thể là do Trước đó Người Việt không thống nhất được cách mă tiếng Việt. Ai hay vào Web xem tiếng Việt thật tức anh ách. Mỗi site dùng một kiểu, loạn ngầu xị.Không kể máy tôi phải tải thêm cả anh tiếng pháp, mỗi lần cứ phải chuyển qua chuyển lại đến khổ. ;D
Phó Thường Nhân
Chập, Chập... vấn đề Bác root đưa ra khó nhằn nhẩy. Vì nó có 2 vấn đề lớn
1- Thông nhất mă hoá cho toàn bộ dữ liệu có động chạm đến tiếng việt. Người ta thường chỉ để ý đến phần nổi của vấn đề, đạp ngay vào mắt như: Web, soạn thảo văn bản. Nhưng người ta sử trí dấu tiếng Việt thế nào trong việc trữ tư liệu. Ví dụ, Bác có một lập trình quản lý việc trả tiền điện nước dùng oracle trên Unix chẳng hạn, thế thì tên khách hàng, địa chỉ , trong các table về thông tin khách hàng hiện nay ở VN làm thế nào?, mà những phần trữ tư liệu này mới là lớn chứ mấy trò E-Mail, Web chỉ là nhỏ
2- Thống nhất mã hoá, không chỉ đụng chạm Window,mà còn có cả các hệ khác, như UNIX, các hệ trữ tư liệu (database), ngôn ngữ lập trình (Java, ..), các hàm API. liệu Ta có đủ sức bao tất cả không, nếu dùng unicode dựng lấy. Vì thế giới, cụ thể là những hãng lớn sẽ chẳng bao giờ tham khảo ý kiến của ta khi họ muốn thay đổi cả.
Nói chung là nan giải lắm.
PS. Ngay bây giờ nếu muốn dùng YM với chữ việt để khỏi phải luận chữ, đoán chữ đã không làm được rồi.
root
Hiện nay, ngay cả các chuyên gia hàng đầu về IT của nước ta vẫn còn đang tranh cãi rất nhiều về việc sử dụng bộ phông nào trong hai loại tổ hợp hoặc dựng sẵn. Vấn đề này ảnh hưởng rất lớn đến bất cứ người dùng máy tính nào, chứ không chỉ là các chuyên gia.

Trước đây, tôi đã từng phải khổ sở rất nhiều về việc chuyển phông giữa hai bộ chữ TTVN3 và VNI. Nếu chỉ chuyển file text hay html thì đã quá đơn giản, nhưng lại còn phải chuyển cả tài liệu Word, bảng tính Excel, tức là những file mà có phần chữ Việt nằm lộn xộn giữa đống mã hình ảnh, kẻ bảng hay text box. Có không nhiều chương trình có thể đảm nhận tốt được các việc này.

Vấn đề chuyển đổi vẫn chưa dừng ở đó. Dưới quan điểm của một kĩ thuật viên thì phần dữ liệu nằm ngay trong những cơ sở dữ liệu đĩa như Oracle, Infomix, SQL server... thì lại là một khó khăn cực kì nan giải. Rất khó có thể làm như những ứng dụng văn phòng bằng cách ra hàng đĩa CD lậu mua lấy một công cụ chuyển đổi đã được crack về dùng. Mỗi cơ quan có lẽ phải tốn đến bạc tỉ để thuê người viết các bộ chuyển đổi chuyên dụng như vậy.

Chính vì lí do trên, tại thời điểm không nên đưa ra một giải pháp dĩ hoà vi quý tức là công nhận cả hai loại mã unicode mà chỉ cần đưa vào TCVN là “dùng unicode” mà thôi. Một quan điểm trung gian như vậy là hết sức sai lầm, có thể dẫn đến tình trạng phân quyền cát cứ như trước đây ( http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...sp?NEWS_ID=4905 )

Những người ủng hộ mã tổ hợp đưa ra 3 quan điểm chính:

-   Mã tổ hợp đã được hỗ trợ sẵn trong bộ hàm xử lí của Windows
-   Mã tổ hợp được hỗ trợ sẵn trong các cơ sở dữ liệu Oracle, IBM DB2 ...
-   Không nên để phụ thuộc vào bộ thư viện xử lí Tiếng Việt độc quyền của anh Đặng Minh Tuấn ( http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...sp?NEWS_ID=4901 )

Còn những người ủng hộ mã dựng sẵn lại có những quan điểm khác:

-   Tiếng Việt là hệ chữ Latinh chứ không phải tượng hình nên xử lí theo kiểu Latinh rất tiện
-   Hầu hết các Website Unicode đã nhận ra ưu điểm của loại mã này nên đều sử dụng nó. Bạn chỉ cần cài IE5 trở lên trong bất kể loại Windows nào đều có thể đọc được. Trong khi đó mã tổ hợp chỉ được hỗ trợ tốt từ Win2k/XP trở lên, mà máy tính không phải lúc nào cũng đủ mạnh để cài các OS này.
-   Không nên dựa vào những công cụ do người nước ngoài làm để xử lí Tiếng Việt. Sự thất bại của Win 95 Tiếng Việt đã là một minh chứng rõ ràng cho điều này.

Các bạn có thể tham khảo tại đây:

-   Quan điểm của anh Đặng Minh Tuấn về ưu điểm mã dựng sẵn:

http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...sp?NEWS_ID=4899

http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...sp?NEWS_ID=4900

-   Quan điểm của anh Phạm Kim Long về việc tại sao nhập liệu bằng mã tổ hợp lại dễ hơn: http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...sp?NEWS_ID=4904

Còn bác Phó Thường Dân nếu muốn tán gẫu bằng YIM qua Unicode thì không đươc vì bản thân chương trình YIM không hỗ trợ Unicode. Bác nếu muốn nói chuyện Tiếng Việt Unicode thì tốt nhất là đăng kí hotmail rồi dùng Windows Messenger (đã có sẵn trong Windows)
Phó Thường Nhân
Có một thời tôi dùng font VNI-Times để viết trong Windword. Mà bây giờ không biết làm thế nào để "lấy lại" bằng unicode. Cứ mở file ra là nó tự động chuyển về VNI-Times, không làm sao tránh được. Bác có phép nào chỉ cho tôi biết laugh.gif
Hiện tại ở VN người ta trữ tư liệu tiếng việt như thế nào trong database
như Oracle, Informix ? laugh.gif
root
Về vấn đề bộ gõ Unicode thì có VietKey 2000 là khá phổ biến, song theo ý kiến của tôi bộ Unikey của anh Phạm Kim Long chạy chuẩn hơn nhiều. Việc chuyển đổi mã trong html và text thì khá đơn giản, có thể dùng Unicoverter cũng của tác giả này.

Việc chuyển đổi Tiếng Việt trong Winword nói chung là khá phức tạp vì có liên quan đến nhiều cấu trúc. Bộ VietKey Office 2K làm khá tốt nhiệm vụ này, song không phải ai cũng có đủ tiền mua nó. Tốt nhất bác nên dùng bộ VietSpell để chuyển vì đã có bản crack rồi. Nói chung thì chạy cũng tạm ổn, tuy có đôi chỗ chưa được như ý lắm.

Vấn đề lưu trữ Tiếng Việt trong Oracle từ trước đến nay nếu dùng bộ mã TTVN3 thì không quá phức tạp. Theo kinh nghiệm của tôi, nếu đặt character set là US-7 thì nói chung là lưu trữ tốt. Chỉ có một số bảng mã khác khi lưu vào CSDL đến lúc đọc ra thì lại bị biến đổi thành những mã khó hiểu khác. Một số nơi người ta đặt bảng mã trong CSDL là Vietnamese, song xem ra hoạt động còn kì quặc hơn cả dùng US-7. Có lẽ vì vậy nên mới gây ra vấn đề tranh luận về dùng Unicode tổ hợp để được Oracle hỗ trợ sẵn hay dùng mã dựng sẵn để chúng ta tự hỗ trợ lẫn nhau. Anh Đặng Minh Tuấn đã công bố bộ thư viện lập trình của anh cho phần CSDL rất tốt. Nhưng có lẽ vì anh này được Uỷ ban chỉ đạo CNTT ủng hộ nhiều quá nên có lắm người sinh ra khó chịu: http://www.is-edu.hcmuns.edu.vn/WebNews/Sh...sp?NEWS_ID=4905

Không hiểu tại sao cái chủ đề này của tôi lại chạy ra đây nhỉ?
Phó Thường Nhân
Bác về kỹ thuật cũng ...phê phê nhỉ. Làm cốc Bia nhé sp_ike.gif sp_ike.gif
Tôi chuyển cái chủ đề này sang bên thời sự, vì trong phần tiểu luận dù là tự nhiên hay xã hội thường là phần tư liệu (Kiểu thư viện online) không mấy ai vào đó tranh luận cả. Unikey khác gì ViệtKey2000 hả bác ?
root
VietKey cũng như các chương trình gõ Tiếng Việt khác đều dùng các hàm thao tác clipboard của Windows để cut and paste khi xử lí thêm dấu. Điều này gây nhiều bất tiện như lỗi phổ biến khi gõ Unicode trong Winword với chức năng “Smart cut and paste” được thiết lập “Enabled” trong phần “Option”. Nếu thử copy một đoạn văn bản trong khi vẫn tiếp tục gõ Tiếng Việt thì đến lúc paste sẽ chẳng thấy gì bởi vì clipboard đã bị bộ gõ xoá hết để sử dụng.

Unikey từ phiên bản 3.5 trở lên không chiếm clipboard của Windows nên không bị những hạn chế này. Theo kinh nghiệm của tôi Unikey chưa bao giờ xung đột với các chương trình khác trong tất cả các phiên bản của Windows 9x/NT/2K/XP. Và điều quan trọng nhất là Unikey có mã nguồn mở và hoàn toàn miễn phí, trong khi VietKey thỉnh thoảng lại bắt đăng kí rất khó chịu.
root
Có lẽ người ta sẽ dùng UNICODE tổ hợp vì phải theo Microsoft. Tôi lại càng ghét cái thằng Bill Gate hơn.

Bài báo này trích từ báo Lao Động số ra ngày hôm nay 19/11/2002:

Unicode:
Cuộc chiến đã ngã ngũ?

Quảng Hà
Với sự tuyên bố ủng hộ của Microsoft, "phe" unicode tổ hợp có thêm một tiếng nói đầy trọng lượng, và có lẽ sẽ có kết thúc cho cuộc tranh cãi đã kéo dài về unicode tổ hợp (UTH) - unicode dựng sẵn (UDS).

"Phán quyết" của Microsoft
Cuộc hội thảo với tiêu đề "Dùng unicode để phục vụ tiếng Việt" được Microsoft, Lạc Việt và VASC đồng tổ chức diễn ra tại Hà Nội ngày 15.11. Mặc dù các diễn giả đều tuyên bố không tranh cãi về vấn đề UDS đối đầu với UTH, và có lẽ cũng hơi cố gắng để làm điều đó, nhưng thực tế là họ đã không thể tránh khỏi việc so sánh chúng với nhau. Tuy nhiên, không có tranh cãi, vì các diễn giả dường như đều đứng về một phía, đằng sau tuyên bố chắc chắn của Microsoft: Microsoft sẽ chỉ hỗ trợ tiếng Việt UTH kiểu 2! Theo ông Vũ Châu - GĐ phát triển của Microsoft, UDS hay UTH đều thuộc chuẩn unicode, không có cái nào thực sự tốt hơn cái nào. Tuy nhiên, Liên đoàn unicode khuyến cáo sử dụng UTH - và hiện các sản phẩm của Microsoft mặc dù vẫn hỗ trợ tất cả các kiểu unicode, nhưng chỉ có UTH kiểu 2 là được hỗ trợ trên tất cả các khía cạnh (như sắp xếp, kiểu chữ hoa chữ thường...). Hiện tại Microsoft chưa có một dự án cụ thể nào cho việc hỗ trợ bản địa hoá đối với định dạng dựng sẵn tiếng Việt, và theo ông Châu, mọi người nên tập trung bàn về các vấn đề, các hạn chế có thể có khi sử dụng phương pháp tổ hợp.

Điều này có nghĩa VN chọn unicode nào, dựng sẵn hay tổ hợp, cũng được. Nhưng Microsoft, với lợi thế có hệ điều hành Windows hiện diện gần như 100% số máy tính ở VN, sẽ không biết đến UDS. Windows và nhiều ứng dụng của Microsoft sẽ không hiểu UDS. Không áp đặt, nhưng có thể hiểu là không còn sự lựa chọn. Những người ở "phe" UDS có thể chất vấn Microsoft về lý do chọn UTH, nhưng Microsoft không tranh cãi, mà đã quyết định.

Chỉ cần 1 unicode
Vấn đề unicode hiện không phải là tranh cãi về cái hay cái dở của UDS và UTH nữa. Cần quyết định chọn lấy một kiểu, bất kể là kiểu nào. Như vậy sự "áp đặt" chưa chắc đã là không thể chấp nhận được. Cuộc tranh cãi về unicode đã kéo quá dài, và hậu quả là lẽ ra chỉ cần 1 unicode như tên gọi của nó (unicode nghĩa là mã thống nhất) thì VN lại có tới 3: UDS, UTH kiểu 1 và UTH kiểu 2. Mặc dù như vậy đã là tiến bộ nhiều so với thời cả nước có tới hơn 40 bộ mã chữ Việt (mà theo như mô tả của ông Bùi Quang Ngọc - Phó TGĐ Cty FPT - là một sự "đau khổ vô bến bờ cho cộng đồng người Việt"), nhưng cái đích bộ mã thống nhất thì vẫn ở xa như trước. Trong khi các cơ quan chức năng có lẽ chưa có đủ cơ sở để đưa ra một quyết định nhanh chóng và đúng đắn, thì một áp lực chắc sẽ giúp họ làm điều này (mặc dù như vậy trông không được đẹp mắt lắm).

UTH cũng không phải là không đáng cho những người ủng hộ UDS dùng. Theo ý của một số chuyên gia, nếu UDS tiện dụng cho ngày hôm nay thì UTH mang lại sự chắc chắn hơn cho ngày mai mặc dù có thể chi phí về tiền ngay lúc này sẽ lớn hơn (có thể là 130 triệu USD theo ước tính). Còn theo ông Hà Thân - GĐ Cty Lạc Việt - một người nhiệt thành với UTH thì chỉ có UTH mới bảo đảm cho tiếng Việt thực sự là một ngôn ngữ trên máy tính, chứ không phải chỉ là mã hoá. Các phép so sánh mà ông Thân đưa ra cho thấy UTH chỉ có hơn mà không có kém UDS. Cái duy nhất còn thiếu và cần phải có ngay là: Một quyết định.
Phó Thường Nhân
Cũng hơi buồn là người Việt không thống nhất được với nhau trước khi nói chuyện với các Đại gia quốc tế như Microsoft. Chỉ có thoả thuận trước với nhau, thì mới đấu được với nó, chứ còn chia rẽ, cãi nhau, rồi lại nhờ nó làm trọng tài thì làm sao lại không phải nghe nó đây. :( :(
Nhưng unicode này chỉ có tác dụng trên PC, còn Linux thì sao. Hiện nay số lượng người dùng Linux ngày càng nhiều. Nếu không phông chữ Việt trên hệ này thì Vn sẽ bị buộc chặt vào Microsoft. Còn nữa là những máy tính lớn cũng như các hệ trữ dữ liệu nữa cũng đáng quan tâm.
Pages: [1], 2, [>], [>>]
Quán nước đầu làng Ven > Thư viện làng Ven > Thư viện bài viết
Invision Power Board © 2001-2024 Invision Power Services, Inc.