沖電気工業は9月29日、ユーザーが辞書データを登録することで翻訳精度を向上できるウェブサイト型機械翻訳システム「訳してねっと」を発表した。同システムには、文書中の専門用語を自動的に抽出して辞書登録時間を半減できるという専門用語抽出機能が搭載されている。同社は、同日インターネット上で機械翻訳サイト「訳してねっと」を開設し、無料公開する。
同サイトでは、辞書の作成/管理を分野(コミュニティ)ごとに行い、その分野に精通したユーザーが辞書データを登録することで、高精度の辞書作成を可能にしたという。また、統計的な手法を用いて辞書登録する単語や熟語などを文書中から自動検出する技術を開発し、専門用語抽出機能として搭載した。「指定されたウェブページから辞書登録すべき単語や熟語などが自動抽出されるので、ユーザーは訳語を入力するだけで簡単に登録でき、効率的に辞書データの登録が行える」(同社)
登録された辞書データは、該当分野の辞書管理者(コミュニティリーダ)などが承認してから翻訳に反映させるので、「間違ったデータの登録により翻訳品質が悪くなることはない」(同社)。また、未承認状態の辞書を使って翻訳するモードも用意されているので、登録した語が正しく訳に反映されているかをその場で確認できる。
なお、同サイトの翻訳エンジンは100%Javaで記述されており、部品として再利用可能である。
今後、同社は同サイトを翻訳ポータルサイトとして多くのユーザーに利用してもらうことで使い勝手の向上を図り、言語知識獲得のノウハウを蓄積し、機械翻訳や情報抽出などの自然言語処理技術を使った商品開発を目指す。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」