My account

login

registration

   Advertising R▼


 » 
Arabic Bulgarian Chinese Croatian Czech Danish Dutch English Estonian Finnish French German Greek Hebrew Hindi Hungarian Icelandic Indonesian Italian Japanese Korean Latvian Lithuanian Malagasy Norwegian Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swedish Thai Turkish Vietnamese
Arabic Bulgarian Chinese Croatian Czech Danish Dutch English Estonian Finnish French German Greek Hebrew Hindi Hungarian Icelandic Indonesian Italian Japanese Korean Latvian Lithuanian Malagasy Norwegian Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swedish Thai Turkish Vietnamese

Definition and meaning of 自然言語処理

Definition

definition of Wikipedia

   Advertizing ▼

Analogical dictionary

Wikipedia

自然言語処理

出典: フリー百科事典『ウィキペディア(Wikipedia)』

言語学
理論言語学
分野
音韻論
形態論
統語論
意味論
語用論
理論
生成文法
認知言語学
音声学
記号学
社会言語学
言語獲得
第二言語習得
心理言語学
神経言語学
計算言語学
研究の手法
対照言語学
コーパス言語学
歴史言語学
比較言語学
内的再構
語源学
応用言語学
文体論
談話分析
語学教授法
言語政策言語計画
通訳翻訳
自然言語処理機械翻訳
個別言語学
日本語学
英語学
ロマンス語学
フランス語学
言語学者の一覧
自然言語処理(しぜんげんごしょり、: Natural language processing, NLP)は、人間が日常的に使っている自然言語コンピュータに処理させる一連の技術であり、人工知能言語学の一分野である。「計算言語学 Computational Linguistics」も同じ意味であるが、前者は工学的な視点からの言語処理をさすのに対して、後者は言語学的視点を重視する手法をさす事が多い[1]データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。

自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。

目次

基礎技術

自然言語処理の基礎技術にはさまざまなものがある。自然言語処理はその性格上、扱う言語によって大きく処理の異なる部分がある。現在のところ、日本語を処理する基礎技術としては以下のものが主に研究されている。

処理内容とその限界

理論上、自然言語処理はマンマシンインタフェースの手法として非常に魅力的である。SHRDLUなどの初期のシステムは世界を限定することで非常にうまくいったため、自然言語処理は簡単だという行き過ぎた楽観主義に陥ったが、より現実的な世界では曖昧さや複雑さが増大し、楽観的な見方はなくなっていった。

自然言語理解は、AI完全問題と言われることがある。なぜなら、自然言語理解には世界全体についての知識とそれを操作する能力が必要と思われるためである。「理解; understanding」の定義は、自然言語処理の大きな課題のひとつでもある。

具体的な課題

自然言語処理(理解)における課題をいくつかの例を用いて示す。

  • 次の2つの文、
We gave the monkeys the bananas because they were hungry.(猿が腹を空かせていたので、バナナを与えた。)
We gave the monkeys the bananas because they were over-ripe.(バナナは熟れ過ぎていたので、猿に与えた。)
は表面的な文法構造は同じである。しかし、they が指すものは異なっていて、前者では猿、後者ではバナナとなっている。この例文の場合、theyの指す内容は英語の文型の性質によって決定することができる。すなわち、「they(主語)= hungry(補語)」の関係が成り立ち、補語には主語の性質を示すものがくるので、hungryなのはthe monkeys、したがって、「they = the monkeys」と決まる。後者も同様に、over-ripeというのはthe bananasの性質だから、「they = the bananas」となる。つまり、これらの文章を区別し正しく理解するためには、猿の性質(猿は動物で空腹になる)とバナナの性質(バナナは果物で成熟する)を知っていなければならない。
  • 単語の文字列を解釈する方法は様々である。例えば、

Time flies like an arrow.(光陰矢の如し)

という文字列は以下のように様々に解釈できる。
  1. 典型的には、比喩として、「時間が矢のように素早く過ぎる」と解釈する。
  2. 「空を飛ぶ昆虫の速度を矢の速度を測るように測定せよ」つまり (You should) time flies as you would (time) an arrow. と解釈する。
  3. 「矢が空を飛ぶ昆虫の速度を測るように、あなたが空を飛ぶ昆虫の速度を測定せよ」つまり Time flies in the same way that an arrow would (time them). と解釈する。
  4. 「矢のように空を飛ぶ昆虫の速度を測定せよ」つまり Time those flies that are like arrows と解釈する。
  5. 「"time-flies"(時バエ)という種類の昆虫は1つの矢を好む」この解釈には集合的な解釈と個別的解釈がありうる。
  6. TIMEという雑誌は、投げると直線的な軌跡を描く」

英語では特に語形変化による語彙の区別をする機能が弱いため、このような問題が大きくなる。

また、英語も含めて、形容詞と名詞の修飾関係の曖昧さもある。例えば、"pretty little girls' school"(かわいい小さな少女の学校)という文字列があるとする。

  • その学校は小さいだろうか?
  • 少女たちが小さいのだろうか?
  • 少女たちがかわいいのだろうか?
  • 学校がかわいいのだろうか?

他にも次のような課題がある。

形態素解析
中国語日本語タイ語といった言語は単語のわかち書きをしない。そのため、単語の区切りを特定するのにテキストの解析が必要となり、それは非常に複雑な作業となる。
音声における形態素解析
音声言語において、文字を表す音は前後の音と混じっているのが普通である。従って音声から文字を切り出すのは、非常に難しい作業となる。さらに、音声言語では単語と単語の区切りも(音としてのみ見れば)定かではなく、文脈や文法や意味といった情報を考慮しないと単語を切り出せない。
語義の曖昧性
多くの単語は複数の意味を持つ。従って、特定の文脈においてもっともふさわしい意味を選択する必要がある。
構文の曖昧性
自然言語文法曖昧である。1つの文に対応する複数の構文木が存在することも多い。もっとも適切な解釈(構文木)を選択するには、意味的情報や文脈情報を必要とする。
不完全な入力や間違った入力
主語の省略や代名詞の対応などの問題(照応解析)。音声におけるアクセントのばらつき。文法上の誤りのある文の解析。光学文字認識における誤りの認識など。
言語行為
文章は文字通りに解釈できない場合がある。例えば "Can you pass the salt?"(塩をとってもらえますか?)という問いに対する答えは、塩を相手に渡すことである。これに "Yes" とだけ答えて何もしないのはよい答えとは言えないが、"No" はむしろありうる答えで、"I'm afraid that I can't see it" はさらによい(塩がどこにあるかわからないとき)。

統計的自然言語処理

統計的自然言語処理は、確率論的あるいは統計学的手法を使って、上述の困難さに何らかの解決策を与えようとするものである。長い文になればなるほど、従来型の自然言語処理では解釈の可能性の組合せが指数関数的に増大していき、処理が困難となる。そのような場合に統計的自然言語処理が効果を発揮する。コーパス言語学マルコフ連鎖といった手法が使われる。統計的自然言語処理の起源は、人工知能の中でもデータからの学習を研究する分野である機械学習データマイニングといった分野である。

自然言語処理の主な応用

自然言語処理の応用技術として、以下のような技術が研究・実用化されている。また、言語学への応用も考えられている。

関連項目

脚注

  1. ^ Mitkov, R. (ed). 2003. The Oxford Handbook of Computational Linguisticsより

外部リンク

資料

研究者の団体

オープン実装

   Advertizing ▼

 

All translations of 自然言語処理


sensagent's content

  • definitions
  • synonyms
  • antonyms
  • encyclopedia

Webmaster Solution

Alexandria

A windows (pop-into) of information (full-content of Sensagent) triggered by double-clicking any word on your webpage. Give contextual explanation and translation from your sites !

Try here  or   get the code

SensagentBox

With a SensagentBox, visitors to your site can access reliable information on over 5 million pages provided by Sensagent.com. Choose the design that fits your site.

Business solution

Improve your site content

Add new content to your site from Sensagent by XML.

Crawl products or adds

Get XML access to reach the best products.

Index images and define metadata

Get XML access to fix the meaning of your metadata.


Please, email us to describe your idea.

WordGame

The English word games are:
○   Anagrams
○   Wildcard, crossword
○   Lettris
○   Boggle.

Lettris

Lettris is a curious tetris-clone game where all the bricks have the same square shape but different content. Each square carries a letter. To make squares disappear and save space for other squares you have to assemble English words (left, right, up, down) from the falling squares.

boggle

Boggle gives you 3 minutes to find as many words (3 letters or more) as you can in a grid of 16 letters. You can also try the grid of 16 letters. Letters must be adjacent and longer words score better. See if you can get into the grid Hall of Fame !

English dictionary
Main references

Most English definitions are provided by WordNet .
English thesaurus is mainly derived from The Integral Dictionary (TID).
English Encyclopedia is licensed by Wikipedia (GNU).

Copyrights

The wordgames anagrams, crossword, Lettris and Boggle are provided by Memodata.
The web service Alexandria is granted from Memodata for the Ebay search.
The SensagentBox are offered by sensAgent.

Translation

Change the target language to find translations.
Tips: browse the semantic fields (see From ideas to words) in two languages to learn more.

 

5333 online visitors

computed in 0.016s

I would like to report:
section :
a spelling or a grammatical mistake
an offensive content(racist, pornographic, injurious, etc.)
a copyright violation
an error
a missing statement
other
please precise: