Thứ Tư, 13 tháng 5, 2009

Sử dụng Google Translate để phát hiện một ngôn ngữ bất kỳ

Một tiểu xảo nhỏ rất hay của Google Dịch thuật (hay Google Translate) mà ít người sử dụng để ý tới là công cụ tự động Phát hiện ngôn ngữ của nó. Chỉ cần bạn sao chép và dán đoạn văn mình muốn biết ngôn ngữ của chúng vào ô Dịch văn bản hoặc trang web, chọn Phát hiện ngôn ngữ cho tùy chọn từ ngôn ngữ nguồn, sau đó chọn ngôn ngữ cần dịch sang rồi bấm vào nút Dịch, Google sẽ tự động dịch đoạn văn bản sang ngôn ngữ bạn mong muốn cùng tên của ngôn ngữ nguồn của đoạn văn bản mà bạn muốn biết.


Theo Wikipedia, Google Dịch thuật (hay Google Translate) là một dịch vụ dịch thuật trực tuyến được Google cung cấp. Nó dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang một ngôn ngữ khác, có giới hạn một số đoạn, hoặc một số khái niệm kỹ thuật. Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch khác khi thấy máy dịch không được tốt. Hiện tại Google Dịch thuật đã bắt đầu hỗ trợ dịch tiếng Việt.

Chức năng
Tính đến tháng 10 năm 2008, Google Dịch thuật đã hỗ trợ 34 ngôn ngữ. Số cặp ngôn ngữ dịch qua lại lên tới 561 (34*33/2) nhưng rất nhiều trong số chúng không phải là dịch trực tiếp mà thường là dịch tự động hai lần thông qua một ngôn ngữ trung gian, thường là tiếng Anh, nguyên nhân là vì số lượng ngữ liệu song ngữ của chúng chưa đủ lớn. Chẳng hạn dịch tự động từ Anh sang Việt là trực tiếp trong khi đó từ tiếng Hà Lan sang tiếng Việt phải thông qua hai bước là từ tiếng Hà Lan sang tiếng Anh và tiếng Anh sang tiếng Việt.
Có chức năng phát hiện ngôn ngữ, điều này có nghĩa là không cần lựa chọn ngôn ngữ nguồn (ngôn ngữ cần dịch) mà chỉ cần lựa chọn ngôn ngữ đích (ngôn ngữ mà người dùng muốn đọc).

Chức năng hỗ trợ từ phía người dịch, người dùng có thể sửa bản dịch của Google đưa ra nếu muốn, chức năng này có tác dụng gia tăng chất lượng theo thời gian và có hầu hết trong các dịch vụ dịch tự động trực tuyến. Đây là hoạt động tương tác rất quan trọng, là một hình thức huy động trí tuệ của cả cộng đồng.

Google Dịch thuật được tích hợp vào dịch vụ tìm kiếm của Google. Trong tìm kiếm nếu phát hiện trong kết quả tìm kiếm có đường dẫn là một ngoại ngữ, ngay bên cạnh có liên kết trong dấu ngoặc vuông là [dịch trang này] màu xanh.

Tìm kiếm được dịch (Translated Search) là chức năng tìm kiếm bằng tiếng mẹ đẻ trên các trang web bằng tiếng nước ngoài, chẳng hạn muốn tìm về máy tính trên các tư liệu bằng tiếng Pháp nhưng lại không biết nghĩa tương đương của từ này. Khi đó người dùng vẫn có thể tìm kiếm bằng cách gõ cụm từ "máy tính" vào ô "ngôn ngữ của tôi" và chọn ngôn ngữ tiếng Pháp của website mà họ cần tìm kiếm, Google sẽ tự động phiên dịch từ khóa thành ordinateur (nghĩa tiếng Pháp của máy tính) và tìm kiếm trong kho lưu trữ sau đó cho ra kết quả phù hợp với từ khóa đã được dịch đó. Kết quả được chia làm hai cột, cột bên trái là các liên kết đã được dịch ra tiếng Việt, cột bên phải là các liên kết của ngôn ngữ gốc mà trong ví dụ này là tiếng Pháp.

Nếu có một lượng lớn tài liệu song ngữ người dùng có thể trợ giúp cho Google Dịch thuật bằng cách cung cấp các tài liệu song ngữ này, điều này làm tăng chất lượng các bản dịch với điều kiện các tài liệu đó phải có chất lượng cao.

Phương pháp
Google Dịch thuật dựa trên nền tảng gọi là dịch máy theo nguyên tắc thống kê. Người đứng đầu chương trình dịch máy của Google là Franz-Josef Och - từng đoạt giải nhất cuộc thi DARPA (viết tắt của từ Defense Advanced Research Projects Agency, một cơ quan của chính phủ Mỹ có trách nhiệm phát triển công nghệ mới phục vụ cho quân đội) về tốc độ dịch tự động vào năm 2003.

Không giống như các công cụ khác như Babel Fish, AOL và Yahoo sử dụng SYSTRAN, Google Dịch thuật sử dụng phần mềm của riêng họ, chương trình này không đi quá sâu vào các quy luật phức tạp về ngữ pháp mà sử dụng phương pháp được họ gọi là thống kê kiến thức, có nghĩa là chương trình sẽ được nạp vào hàng tỉ văn bản đã được dịch sẵn của con người sau đó thực hiện các thao tác phân tích nhằm tìm ra sự tương đồng với các yêu cầu của người dùng rồi trả về kết quả. Chất lượng dịch được tăng lên theo thời gian khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ cảnh ngày càng đa dạng.
Theo Blog Đầu Cọ

0 Comments:

Đăng nhận xét

» VnTim™ cảm ơn bạn đã đọc bài viết.
» Nếu có thắc mắc hay góp ý, bạn hãy để lại một nhận xét.
» Nếu thấy bài viết hay hãy chia sẻ với những người quanh bạn.
» Bạn có thể sử dụng một số thẻ HTML như <b>, <i>,<a>.
» Vui lòng đăng những nhận xét lịch sự và gõ tiếng Việt có dấu nếu có thể.
» Rất cảm ơn những comment thiện ý.

 

VnTim™ Trái Tim Việt Nam Copyright © 2010 VnTim™ Trái Tim Việt Nam