접근



1. 룰 기반(Rule-Based) NER 접근법

  • 식별된 룰은 특정 dataset에서만 유효함
  • 룰 템플릿을 수동으로 구성해야 함

2. 사전 기반(Dictionary-Based) NER 접근법

  • 정확한 검색에 적합하나, 사전에 정의되지 않은 엔터티를 놓치기 쉬움
    • fuzzy dictionary matching
    • postprocessing
  • 사전을 수동으로 구성해야 함
  • ID 정보 제공 가능 (사전에서 가장 유사하거나 동일한 용어를 대상 용어로 검색하여 용어를 인식하기 때문) => 의학 문헌의 실제 정보 추출을 위한 첫 번째 단계로 특히 유용함

3. 기계학습(Machine Learning) NER 접근법

  • 알고리즘과 feature가 성능에 큰 영향을 미침
  • dataset을 트레이닝하는 표준 주석 필요
  • HMM (Hidden Markov Model), SVM (Support Vector Machine), CRF (Conditional Random Field), ME (Maximum Entropy)
  • CRF
    • 시퀀스 라벨링의 처리에 유리할 수 있는 다양한 feature를 통합할 수 있어 널리 사용됨




기술 비교



1. 기계학습

  • CRF
  • S-SVM

2. 딥러닝

  • Bi-LSTM-CRF

3. 비교


 방법Dev  Test
 CRF 84.70% 84.82% 
 LSTM-CRF (베이스라인) 85.57% 82.98%
 LSTM-CRF (morph, 문자기반 LSTM) 86.72% 84.49%
 LSTM-CRF (morph, 제안 문자기반) 87.01% 85.87%
 LSTM-CRF (morphtag, 문자기반 LSTM) 87.32% 85.80%
 LSTM-CRF (morphtag, 제안 문자기반) 88.60% 86.53%

  • 딥러닝 모델은 개체명 인식의 성능을 비약적으로 향상시킨 - 영어권 개체명 인식도 유사​

​​

4. 개선해야 할 점

  • Task들에 대한 dataset 부족




참고 참조