Presentation is loading. Please wait.

Presentation is loading. Please wait.

Foundations of Statistical NLP Chapter 4. Corpus-Based Work 홍 정 아홍 정 아.

Similar presentations


Presentation on theme: "Foundations of Statistical NLP Chapter 4. Corpus-Based Work 홍 정 아홍 정 아."— Presentation transcript:

1 Foundations of Statistical NLP Chapter 4. Corpus-Based Work 홍 정 아홍 정 아

2 2 개 요  Getting Set Up –Computers, Corpora, Software  Looking at Text –Low-level formatting issues –Tokenization : What is a word? –Morphology –Sentences  Mark-up Data –Markup schemes –Grammatical tagging

3 3 Getting Set up(1/2)  Text corpora are usually big. –Corpora 사용의 중요한 한계점으로 작용 – 대용량 Computer 의 발전으로 극복  Corpora –Corpus 는 main organization 에서 제공하는 웹에 공개 된 것을 사용하면 된다. –corpus : 언어자료들을 모아놓은 사전 –general issue is representative sample of the population of interest.

4 4 Getting Set up(2/2)  Software –Text editors : 글자 그대로를 보여준다. –Regular expressions : 정확한 pattern 을 찾게 한다. –Programming languages : C, C++, Perl –Programming techniques

5 5 Looking at Text  Text come a row format or marked up.  Markup –a term is used for putting code of some sort into a computer file. –commercial word processing : WYSIWYG  Features of text in human languages – 자연언어처리의 어려운 점

6 6 Low-level formatting issues  Junk formatting/content –junk : document header, separator, table, diagram, etc. –OCR : If your program is meant to deal with only connected Englisg text ▷ junk : 다른 나라 언어, table, 숫자  Uppercase and lowercase –The original Brown corpus : * was used to capital letter –Should we treat brown in Richard Brown and brown paint as the same? –proper name detection : difficult problem

7 7 Tokenization : What is a word?(1)  Tokenization –To divide the input text into unit called token –what is a word? graphic word (Kucera and Francis. 1967) “a string of contiguous alphanumeric characters with space on either side;may include hyphens and apo- strophes, but no other punctuation marks” -> 정의되는 경우 : $22.50, Micro$oft, C|net, :-)

8 8 Tokenization : What is a word?(2)  Period – 문자의 끝을 나타내는 의미가 있다. – 약어를 나타낸다. : as in etc. or Wash.  Single apostrophes – 영어의 축약 : I’ll or isn’t –dog’s : dog is or dog has or 소유격  Hyphenation – 일반적으로 인쇄상 다음 줄로 넘어가는 한 단어를 표시. –e-mail, 26-year-old, co-operate

9 9 Tokenization : What is a word?(3)  The same form representing multiple “words” – 동형이의어 : seal 「 바다표범」과 seal 「인장」등 (chap 7)  Word segmentation in other languages – Word 와 Word 사이에 space 를 넣지 않는 경우가 많다  White space not indicating a word break –the New York - New Haven railroad : 한 단어 안에 space 가 들어간다.  명확한 의미의 정보가 다양한 형태로 존재한다 – 다양한 punctuation 이 사용된 전화번호

10 10 Phone number Country 0171 378 0647 UK +45 43 60 60 Denmark (44.171) 830 1007 UK 95-51-279648 Pakistan +44 (0) 1225 753678 UK +411/284 3797 Switzerland 01256 468551 UK (94-1) 866854 Sri Lanka (202) 522-2330 USA +49 69 136-2 98 05 Germany 1-925-225-3000 USA 33 1 34 43 32 26 France 212.995.5402 USA ++31-20-5200161 The Nerherlands Table 4.2 Different formats for telephone numbers appearing in an issue of the Economist

11 11 Morphology  Stemming processing – 접두사, 접미사 등을 제거하여 어간을 얻어낸다  lemmatization – 변형된 form 에서 lemma( 표제어 ) 와 lexeme( 어휘소 ) 등을 찾아내는 방법  IR community has shown that doing stemming does not help the performance  Morphological analysis 를 구현하기 위한 추가비용 에 비해 효능이 안 좋다

12 12 Sentences  What is a sentence? –something ending with a ‘.’, ‘?’ or ‘!.’ –colon, semicolon, dash 도 문장으로 여겨질 수 있다.  recent research sentence boundary detection –Riley(1989) : statistical classification tree –Palmer and Hearst (1994; 1997) : a neural network to predict sentence boundaries –Mikheev(1998) : Maximum Entropy approaches to the problem

13 13 Mark-up Schemes  초기의 markup schemes – 단순히 내용정보만을 위해 header 에 삽입 (giving author, date, title, etc.)  SGML – 문서의 구조와 문법을 표준화하는 grammer language  XML –SGML 을 web 에 응용하기 위해 만든 SGML 의 축소 판

14 14 Grammatical tagging  first step of analysis – 일반적인 문법적 category 로 구별하는 것 – 최상급, 비교급, 명사의 단수, 복수 등의 구별  Tag sets (Table 4.5) –morphological distinction 을 통합한다.  The design of a tag set – 분류의 관점 Word 의 문법정보가 얼마나 유용한 요소인가 하는 관점 – 예상의 관점 문맥에서 다른 word 에 어떠한 영향을 미치는지 예상하는 관점

15 15


Download ppt "Foundations of Statistical NLP Chapter 4. Corpus-Based Work 홍 정 아홍 정 아."

Similar presentations


Ads by Google