개체명 인식 (Named-Entity Recognition, NER)
접근법
1. 룰 기반(Rule-Based) NER 접근법
- 식별된 룰은 특정 dataset에서만 유효함
- 룰 템플릿을 수동으로 구성해야 함
2. 사전 기반(Dictionary-Based) NER 접근법
- 정확한 검색에 적합하나, 사전에 정의되지 않은 엔터티를 놓치기 쉬움
- fuzzy dictionary matching
- postprocessing
- 사전을 수동으로 구성해야 함
- ID 정보 제공 가능 (사전에서 가장 유사하거나 동일한 용어를 대상 용어로 검색하여 용어를 인식하기 때문) => 의학 문헌의 실제 정보 추출을 위한 첫 번째 단계로 특히 유용함
3. 기계학습(Machine Learning) NER 접근법
- 알고리즘과 feature가 성능에 큰 영향을 미침
- dataset을 트레이닝하는 표준 주석 필요
- HMM (Hidden Markov Model), SVM (Support Vector Machine), CRF (Conditional Random Field), ME (Maximum Entropy)
- CRF
- 시퀀스 라벨링의 처리에 유리할 수 있는 다양한 feature를 통합할 수 있어 널리 사용됨
기술 비교
1. 기계학습
- CRF
- S-SVM
2. 딥러닝
- Bi-LSTM-CRF
3. 비교
방법 | Dev | Test |
CRF | 84.70% | 84.82% |
LSTM-CRF (베이스라인) | 85.57% | 82.98% |
LSTM-CRF (morph, 문자기반 LSTM) | 86.72% | 84.49% |
LSTM-CRF (morph, 제안 문자기반) | 87.01% | 85.87% |
LSTM-CRF (morphtag, 문자기반 LSTM) | 87.32% | 85.80% |
LSTM-CRF (morphtag, 제안 문자기반) | 88.60% | 86.53% |
- 딥러닝 모델은 개체명 인식의 성능을 비약적으로 향상시킨 - 영어권 개체명 인식도 유사
4. 개선해야 할 점
- Task들에 대한 dataset 부족
참고 및 참조
- https://www.hindawi.com/journals/jhe/2018/4302425/
- http://www.korean.go.kr/common/download.do;front=D319F53C2EECA993A6EC491AF7F1DA47?file_path=reportData&c_file_name=5ba40bf7-d68f-4b18-85aa-6886af988e68_0.pdf&o_file_name=2017%20%EA%B5%AD%EC%96%B4%20%EC%A0%95%EC%B1%85%20%ED%95%99%EC%88%A0%20%EB%8C%80%ED%9A%8C%20%EB%B0%9C%ED%91%9C%EC%A7%91(%EC%B5%9C%EC%A2%85).pdf&downGubun=reportDataViewForm&report_seq=914
'컴퓨터 과학' 카테고리의 다른 글
트러스트 알고리즘 (Trust Algorithm, TA) (1) | 2023.12.13 |
---|---|
RPC, CORBA, RMI, SOAP, REST 쉬운 설명 (작성 중) (0) | 2017.07.28 |
[데이터 통신] (제1부 개요) 제1장 데이터통신, 데이터 네트워크, 인터넷 (0) | 2016.08.19 |
댓글
이 글 공유하기
다른 글
-
트러스트 알고리즘 (Trust Algorithm, TA)
트러스트 알고리즘 (Trust Algorithm, TA)
2023.12.13 -
RPC, CORBA, RMI, SOAP, REST 쉬운 설명 (작성 중)
RPC, CORBA, RMI, SOAP, REST 쉬운 설명 (작성 중)
2017.07.28 -
[데이터 통신] (제1부 개요) 제1장 데이터통신, 데이터 네트워크, 인터넷
[데이터 통신] (제1부 개요) 제1장 데이터통신, 데이터 네트워크, 인터넷
2016.08.19