移動: トップ > ラボ > ソフトのアイディア > Web検索を使った です-である変換
履歴:
統計:
目次:
このページの最終更新日: 2010/04/24
提案日: 2008/07/13

※本記事ではソフトに関するアイディアを紹介しています。これらは特に記載がない限り、まだ実現されていないものです。これらのアイディアをぜひ実現していただける方をお待ちしております。

Web検索を使った です-である変換

概要

説明用に書いたですます調の文章を論文に取り入れるため、だである調へ直さなくてはならず、これらを自動変換できれば便利です。しかし、10~20%は、文字だけを使って機械的に変換できない文があることが分かりました。そこで、これを正しく変換するためにインターネットを活用して、Webにある日本語を検索し、ヒット数の多いものほど正しい変換と判断する、といったアイディアです。

Web検索の機能を、検索以外の用途に、もっといろいろ使えると、面白いと思います。

背景

インターネットにある日本語データを活用

ですます調とだである調があります。ですます調は、紹介文やホームページなどに多く見られ、だである調は、新聞や論文などに見られます。あるとき、説明用に書いたですます調の文章を論文に取り入れるため、だである調へ直さなくてはならず、長い文章だったので、ですます調とだである調を自動変換するソフトが必要でした。

そこで、Web上を検索し、公開されている自動変換ソフトを使用すると、80~90%うまく変換されました。一方、残りの10~20%は、文字だけを使って機械的に変換できない文でした。辞書がないとどちらか分からない文です。例えば次のようなものです。

1. 見ています 見ている
  います
 
2. 冷たいです 冷たい
  ものです もの
3. 追究します 追究する
  目指します 目指
   

これらの違いを正しく変換するソフトを、自前だけで構成するのはかなり難しいと思います。そこで、インターネットに既にある膨大な日本語データをうまく活用して、これらの違いを正しく変換する、といったアイディアに至りました。Webにある日本語を検索して、ヒット数の多いものほど正しい変換と判断するものです。

どんなもの?

ヒット数の多いものほど正しい変換

ですます調とだである調を自動変換します。その際に、文字だけを使って機械的に変換できない部分は、Webにある日本語を検索して、ヒット数の多いものほど正しい変換と判断する、といったアイディアです。

自動変換の方法

例えば、自動変換は次のようなイメージです。

1.   機械的に変換できない部分が文末にある。
例:「この商品は1985年から発売されています。」
2.   文末から10~15字とる。
例:「5年から発売されています」
3.   この12文字をそのままキーワードにしてGoogleで検索する。
4.   検索結果の一番目のページのキャッシュへアクセスする。
5.  
キャッシュページには、キーワードがスペースで単語分割されて表示されるので、この単語分割情報を得る。
例:「5/年/から/発売/され/てい/ます」
6.   単語分割情報を基に、文をちょうどよい長さで切り落とす
例:「発売されています」
7.   機械的に変換した場合の、変換候補を作成する。「います」の変換は、「見ています」→「見ている」のように、「ます」を「る」に変換するときと、「思います」→「思う」のように、「います」を「う」に変換するときがあるので、これら2つを候補にする。
例:「発売されている」と「発売されてう」
8.  
候補の両方に""をつけてGoogleでフレーズ検索する。
例:「"発売されている"」と「"発売されてう"」
9.  
ヒット数を比較して、多い方、「発売されている」の方が正しい変換と判断する。
例:「"発売されている"」は3,770,000件、「"発売されてう"」は15件

「6.」の、文をちょうどよい長さで切り落とす方法は、分割された単語のうち、末尾から6~8単語程度とるか、または、末尾から初めて漢字が出る単語までをとるか、などを組み合わせて、「8.」にあるフレーズ検索に適した長さとなるようにします。

「9.」のヒット数が、両方の候補で極端に少ない場合は、一番前にある単語1つを減らして長さを縮め、「7.」から再試行することで、ヒット数を増やします。例えば、「発売/され/てい/ます」の一番前の単語、「発売」を減らして「され/てい/ます」とし、「"されている"」でフレーズ検索すると、ヒット数は137,000,000件になり、3,770,000件から30倍増加しました。

文脈の意味が必要なとき

以下のように、文脈の意味までとらないと、どちらか分からないときもあります。言語の上ではどちらも可能です。

目指していきます 目指していきる : 目指して生きる (上一段活用)
目指していきます 目指していく : 目指して行く (五段活用)

変換後の候補、「目指していきる」と「目指していく」をGoogleで検索すると、「目指していきる」はヒット数17件、「目指していく」は1,070,000件となりました。このため、自動変換は「目指していく」と変換する方が正しいと判断します。

世の中の似た機能

既に、ですます調とだである調を変換するソフトが、いくつか公開されています。そのうちの1つは、文字だけを見て機械的に変換する方法で、試したところ80~90%正しく変換できました。一方、翻訳ソフトにある、ですます調とだである調の指定は、変換ではありませんが、ソフトの中に独自の辞書を持ち、文を要素で解析する方法で、正しく文を作ります。

 

更新履歴
2008/09/18 v1
  • 初版作成

※ご意見、ご感想、改善点、その他の情報などがありましたら、メールにてお知らせ願います。

Copyright (C) 2002 - 2019 Simon.P.G. All Rights Reserved. Top | Simon.P.G. とは | 使用条件 | ご意見
inserted by FC2 system