태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

사용자 삽입 이미지

제가 연구실에 있으면서 공식적으로 처음 만들었던 시스템입니다.

상품평이라는게 보는 관점에 따라서 좋은 말로, 또는 안 좋은 말로 판단 될 수 있습니다.

그래서 정확도 측정하는데 상당히 애를 많이 먹었습니다.

결국에는 카파테스트라는 검증을 사용해서 이 시스템이 실제 사람과 얼마나 유사한 판단을 하는지

테스트 하였는데, 그래도 봐줄만 한 정도로 나왔었습니다.

이 시스템은 단순히 구현을 넘어서..제 생애 첫 논문이 되었지요.

지금도 자연어처리를 열심히 공부하고 있는 학생이지만..지금 제 스스로 벌여놓은 일이 너무나 많네요.

그래도 매번 이런 "연구"를 하고 공부를 할 때 마다 기분은 좋네요^^;

실제로 사용해 볼 수도 있게 데모 사이트를 만들어 놨지만

한동안은 비공개로 해놔서, 저희 연구실 사람들만 데모 시스템을 사용할 수 있게 해놨었습니다.

하지만 오늘!.. 이 초라한 상품평 분류 시스템을 공개해보려고 합니다.

많이 사용해 주시고..코멘트도 달아주세요 ㅜ_ㅜ

업데이트 따위는 없습니다........(게으름뱅이..)

http://nlp.kangwon.ac.kr/~shin285/index.php

덧, 이 시스템을 공개하는 이유는 이보다 더 나은 성능의 시스템을 구현하려고 하는데 이에 대한 사용자들의 의견이 종합되어야 할 것 같다는 제 스스로의 판단 때문입니다.

ACL2009에서 나온 논문으로

여러가지 term weight 방법들을 비교하고 감정 분류 시스템에서 각 방법들을 평가하였다.

이 논문은 새로운 feature를 선택하는 방법이나, term weight를 주는 방법의 새로운 방법은 없었다.

이 중에서 눈여겨 봐야할 점은 각 term wieght model들을 조합하였는데,

좋은 성능을 낸 model 조합도 있었지만 오히려 성능이 저하되는 model 조합도 있었다.

그리고 여기에 대한 결론으로 corpus가 다르고 추정 파라미터의 값이 다르기 때문이라고

논문에서는 이야기하고 있다.

이 논문을 읽으면 실제로 감정 분류에 대해서 중요한 아이디어들을 얻을 수 있을 것이라 예상했지만,

단순히 모델들에 대한 소개와 실험, 그리고 각종 corpus 소개 등이 주를 이루고 있어서 조금 아쉬웠다.

자연어처리에 대한 공부를 하다보면 가장 많이 듣는 단어 중 하나는 feature이다.

그리고 항상 실험 부분에서 많이 나오는 단어는 위 제목과 같이 accuracy, precision, recall 이다.

특히 문서 분류나 검색에서 많이 사용되는 실험 척도인데,

주로 precision과 recall을 구한 뒤에 F-measure로 최종 결과를 내는 논문들이 많았다.

그리고 accuracy로 최종 결과를 내는 논문들 역시 많이 있었는데.

정확률? 재현률? 정밀도?

나 역시 많은 논문을 접하면서 쉽게 단어가 노출되어서 익히 들어왔지만 항상 그때그때 마다 헷갈리는 부분이다.

마치, 일란성 쌍둥이를 한참 들여다보고 나서야 누가 형이고, 동생인지 알 수 있는 것처럼 말이다.

이제 accuracy, precision, recall을 확실하게 기억하기 위해서 집중하도록 하자!!

먼저 표를 살펴보자.


사용자 삽입 이미지

위의 표는 실제 정답(검색, 분류, 띄어쓰기 등..)과 실험 결과를 한 눈에 파악 가능하도록 나타낸 것이다.

먼저 precision에 대해서 알아보도록 하자.

사용자 삽입 이미지

위의 표에서 하늘색 부분을 살펴보자. 실험 결과 true라고 판단 한 것 들이다.

precision은 이렇게 시스템이 true라고 판단 한 것 중에서 실제 true인 것의 percent이다.

즉, 식으로 쓰자면 a/(a+c)가 된다.

이제 recall에 대해서 알아보자.

사용자 삽입 이미지

recall은 흔히 재현율이라고 번역된다. 실제 정답의 true 중 얼마나 많은 true를 찾아냈느냐 하는 percent이다.

위의 표에서 하늘색 부분이 실제 정답에서의 true이다.

이 중 시스템이 true라고 판단한 것의 비율이 바로 recall(재현율)이 된다.

즉, 식으로 쓰자면 a/(a+b)가 된다.

마지막으로 accuracy에 대해서 알아보도록 하자.


사용자 삽입 이미지

일반적인 상식(?) 봤을 때 이 시스템의 결과 중 얼마나 맞았는가를 시스템의 성능으로 판단하는 경우가 많다.

이 경우가 바로 accuracy이다.

쉽게 말해서 시스템이 출력해놓은 전체 결과 a, b, c, d 중에서 실제 정답과 같은 판단을 한 비율이 된다.

즉, (a+d)/(a+b+c+d)가 된다.

================================================================================================

이렇게 까지 직접 정리를 해놨으니..다시 까먹는 일이 없었으면 좋겠다..ㅜ_ㅜ

[참조]
http://en.wikipedia.org/wiki/Precision_and_recall
http://www.slideshare.net/nicbet/computing-accuracy-precision-and-recall-presentation


  • Favicon of http://blog.naver.com/ytkim4558 BlogIcon 김용탁 2010.08.12 15:12

    ytkim4558@naver.com이 제 이메일입니다.. 영문 위키피디아에선 precision이 검색된 문서중 관련있고&검색된 문서 라고 설명되있습니다. 순서가 뒤바뀐거 아닌지 확인해주시기 바랍니다.

    • Favicon of https://shine-ing.tistory.com BlogIcon Shine_ing 2010.08.14 09:31 신고

      네 맞습니다~
      즉, 검색된 문서 중 관련있는 문서이죠~
      그렇기 때문에..시스템이 뽑은 문서 중에서 관련이 있는 문서가 바로 Precision이 됩니다~

      위의 예에서는 검색이 실험 결과 true가 검색된 문서의 수이고 그중 A가 검색된 문서 중 실제 관련이 있는 데이터가 되겠네요. 그렇기 때문에 위에서 설명한 Precision은 맞는 내용인 것 같습니다 ^^

      검색과 같지만..서로 말이 달라서 어려운 부분이 있을 수 있겠네요 ^^;;

      저희 쪽(검색, 자연어처리, 인공지능) 분야의 논문을 참고하시면 더 쉽게 이해하실 수 있으실 겁니다 ^^

    • Favicon of http://blog.naver.com/ytkim4558 BlogIcon 김용탁 2010.08.14 15:12

      말씀 들어보니 제가 표를 잘못 이해했군요. 실험결과가 true인것만이 검색된 거였군요 흠흠.. =_=;; 잘 배워갑니다.

  • Favicon of http://www.2013mbtshoesonline.com BlogIcon mbt shoe 2013.05.17 17:15

    누구나 자신의 진정으로 사랑하는 사람을 만나기 전에는 하늘이 안배해주신 다른 한 사랑을 하게 도리거예요.그러나 진정으로 당신이 원하는 사랑을 만났을때애는 반드시 맘 속으로 항상 감하해야해겠죠.
    Topics related articles:


    http://hewooso.tistory.com/m/post/view/id/109 新建文章 9

    http://swingsoda.tistory.com/m/post/view/id/137 新建文章 6

    http://shine-ing.tistory.com/m/post/trackbacks/id/195 新建文章 3

    http://thehermes.kr/431 新建文章 12

  • Favicon of http://2970.acelgxc.com/lib.php BlogIcon ugg boots 2013.07.11 17:24

    귀를 기울여봐 가슴이 뛰는 소리가 들리면 네가 사랑하는 그 사람 널 사랑하고 있는거야.

이번에 Python을 사용할 일이 있고 게다가 NLP(제 전공 분야)에서는 자주 쓰이는 언어라고 하기에

본격적으로 사용을 해보려고 합니다!

그러기 위해 필요한 준비물은


자바( 당연히 이클립스를 구동하기 위해서 필수겠죠? )

이클립스 (최신버전이라면 OK)

Python (파이썬으로 개발하는 건데..이것 역시 당연한거겠죠?)


그리고 다른 블로그에서 보게 되면 pydev..사이트에가서 뭘 어떻게 하고 그렇게 하라고 하는데..

솔직히 전 해봐도 잘 안되더군요 -_-;;

그러다가..이클립스의 업데이트를 사용하여 python을 사용할 수 있다길래!!

Help -> Software update -> Available Software -> Add site -> "http://pydev.sourceforge.net/updates/" 주소 입력 -> 플러그인 설치는 끝!

그리고 이제 이클립스 설정 단계..

이 단계는 다른 블로거 분께서 자세히 설명해 주셨기 때문에 링크로 대체하겠습니다!

http://whiteship.tistory.com/488

자 이제 할일은..

"Hello Python!!"

4학년 졸업을 앞두고 운이 좋았는지 나빴는지는 모르겠지만....

논문을 "한글 및 한국어 정보처리 학회"에 냈더니 구두발표라고 메일이 날라오더군요......

아무튼..학회에 갔던 방문기를 올리도록 하겠습니다.

10월 10일 부터 11일까지 서울대학교 엔지니어하우스와 신공학관에서 열렸던 학회였습니다.

연구실 사람들과 함께 다녀왔습니다.

사용자 삽입 이미지
숙소를 정하고 아주머니께 서울대가 얼마나 머냐고 묻자.."남자 걸음이면 10분 정도예요".....

난 분명히 서울대까지 상당히 멀다는 것을 알고 있었지만..어릴때 가봤기 때문에 그냥 그 당시의 느낌이 멀

뿐이고..실제로는 가깝구나...라고 생각하고 걷기 시작하였습니다...(위사진)

사용자 삽입 이미지
역시...헛된 느낌이 아니였나봅니다......서울 사는 사람이지만 어찌도 이렇게 서울 길에 어두운지 -_-;;;

위 사진은 언덕을 넘고나서 말수가 급격히 줄어든 저희 연구실 사람들입니다 ㅋ



사용자 삽입 이미지
학회에 참여하고 이런 저런 얘기들을 듣다보니 어느덧 저녁식사 세팅을 해주시더군요...

얼마나 많이 줄련지 스푼을 2개나 주더군요(?)


사용자 삽입 이미지




사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지

본격적으로 학회가 시작되기에 앞서서 책들을 읽고 계시는 연구실 선배님들 ㅎ


사용자 삽입 이미지
밥 먹는데 서울대 동아리에서 참여해주셨습니다~

솔직히 저 같이 일반 학생의 입장에서는...체할 뻔 했습니다..

그냥 뷔페나 순대국밥..이런 저녁은 왜 없을까요 =ㅅ-;;



사용자 삽입 이미지

먼저 양장피(?) 팔보채(?) 뭐드라...아무튼 해파리를 먹었습니다..

맛은 그닥..이더군요..



사용자 삽입 이미지
쟈스민 차는 무한 리필이였습니다 ㅎㅎ 개인적으로 쟈스민 차를 좋아하는데..이거 하나는 정말

괜찮았습니다~




사용자 삽입 이미지
그나마 고기라고 나왔던 칠리새우?? 맞는진 모르겠으나..

이걸 보니 제가 전에 먹었던 새우크림이 생각나더군요.........

맛도 크림새우가 훨씬 좋았습니다..........


사용자 삽입 이미지
그래도 나름 메인이라고 생각을 했기 때문에.. 찝찝한 접사(?)를 찍었습니다.


사용자 삽입 이미지
사용자 삽입 이미지
사용자 삽입 이미지
저녁을 먹고 숙소에 도착하고나서 쉬고 있는 연구실 사람들의 모습입니다~


사용자 삽입 이미지
사용자 삽입 이미지
다음 날 덤덤하게(?) 발표를 마치고 나와서 홀가분한 기분으로 사진을 찍었습니다~ 기둥 뒤에 1인이 숨어있습니다 ㅎㅎ

사용자 삽입 이미지
현수막에는 가을 운동회(?)........

제가 갔던 얘기와는 별개의 얘기인거 같더군요 ㅎㅎ

학회가 끝나고 나서 다들 사진을 찍더군요...

저 역시 놓칠수 없었기에..ㅋ


사용자 삽입 이미지
이건 학회 첫날에 저녁식사도 하고 등록도 하였던 엔지니어 하우스입니다.

사용자 삽입 이미지

그리고 마지막으로 제가 발표했다는 사실이 저도 안 믿기기 때문에.... 인증샷(?)입니다 ㅋㅋ

저 옷에 대한 비화가 있는데.........

가슴 아파서 차마 말을 꺼낼수가 없군요 ㅠ_ㅠ........

사진은 정말 많지만......사생활 보호차원에서 여기까지!!! 하겠습니다~

처음 낸 논문이 구두발표라서 좀 떨리긴 했지만...나중에는 그냥 무덤덤해지더군요..

역시 전 감정이 메마른 인간인건가요 ㅋ =ㅅ=;;;