본문 바로가기

전체 글133

정보검색론 제 13장. 한글 색인어 추출 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 13장. 한글 색인어 추출 색인어의 단위에 따라 어절 단위 색인법형태소 단위 색인법n-Gram 기반 색인법으로 분류될 수 있다. 각각의 장단점에 대해서 알아 보겠다. 13.1 어절 단위 색인법문서나 질의로부터 어절들을 인식하고, 각 어절로부터 색인어의 부분으로서 무의미한 비색인 분절을 제거한 나머지 색인 분절을 색인어 후보로 선정한 후, 이들로부터 불용어를 제거하는 방법이다.한글에서 문서나 질의를 표현할 수 있는 체언이나 용언의 명사형 뒤에 조사나 접미사 등이 붙는다는 특성에 근거하여 어절로부터 조사나 접미사 등을 제거하는데 중점을 둔다.비색인 분적이란 체언의 뒤에 붙여 쓰이지만 색인어에 포함시키기에는 무.. 2018. 4. 26.
정보검색론 제 12장. 유사도 계산 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 12장. 유사도 계산 정보 검색 시스템의 중요한 기능들 중 하나는 문서와 질의 사의의 관련 정도를 나타내는 유사도를 계산하고계산된 유사도에 따라 문서에 순위를 부여하는 것이다. 각각의 문서 벡터와 질의 벡터의 내적으로 유사도를 계산하고, 이러한 유사도에 따라 문서에 우선순위를 부여한다면 질의 처리 시간은 정보 검색 시스템에 입력된 문서들의 수와 비례한다. 문서의 수가 증가할 수록 느려진다는 문제점이 발생하는 것이다.이러한 문제점을 개선하기 위하여 렉시콘 파일과 포스팅 파일로 구성되는 역파일을 이용하여 질의와 문서 사이의 유사도를 계산하는 방법들이 개발되었으며 이러한 방법들에 대해서 알아 보겠다. 12.1 .. 2018. 4. 18.
정보검색론 제 11장. 정합성 피드백 숭실대학교 정보검색연구실 - 정보검색론(2003) 이준호 교수님 교제를 메모하기 위한 글입니다. 제 11장. 적합성 피드백 적합성 피드백이란 보다 많은 적합 문서 그리고 보다 적은 비적합 문서를 검색할 수 있도록 불완전한 초기 질의를 보완하여 질의를 자동으로 재성성하는 기법이다. 사용자들이 검색 할 때 그들이 지니고 있는 문제점조차도 정확하게 표현할 줄 모른다. 이러한 상태를 "비정상적인 지식의 상태"라고 불렀다. 이러한 불확실성은 정보 검색 과정의 본질인 것. 따라서 불완전한 초기 질의는 보완되어야 한다. 적합성 피드백에 대부분의 연구들은 질의를 가중치가 부여된 검색어들의 벡터로서 표현하는 벡터 질의 환경에서 수행되었다. 이러한 연구들은 새로운 질의의 재구성과정에서 적합 문서들에 출현한 검색어들의 가중.. 2018. 4. 18.
docker compose 사용법 간단 정리. docker compose 사용법 간단 정리. docker 설치 후 mysql 을 다운 받는다. docker-compose.yml version: '2'services: mysql: image: mysql:5.7# container_name: test-mysql ports: - 3306:3306 environment: MYSQL_ALLOW_EMPTY_PASSWORD: "true" volumes: - ~/work/docker_data/mysql:/var/lib/mysql 동일한 path에서 시작$> docker-compose up [-d](데몬으로 실행)멈춤$> docker-compose stop mysql 접속 : $> mysql -h127.0.0.1 -uroot 돌아가는 docker 확인$> docke.. 2018. 2. 23.