• 인터넷 전문업체 DB
  • 어워드 수상기업
  • 뉴스/트랜드
    • 웹트랜드리포트
    • 앱트랜드리포트
    • 인터넷업계소식
    • KIPFA뉴스레터
  • 공지사항
  • 문의하기

공지사항

국내 대학 및 연구기관 78.5%가 검색 접근 제한... 정보 불통 심각

국내 대학 및 연구기관 78.5%가 검색 접근 제한... 정보 불통 심각

- 대학/연구기관 200개 웹 사이트에 대한  ‘웹개방성현황조사

- 200개 중 157개 사이트가 가 다양한 형태로 검색엔진 접근 제한

- 국내대학 3곳중 1곳은완전차단’ vs ,, 중 해외대학은완전차단율제로

- 글로벌을 지향하는 사이트들이 정작 해외에선 검색 안돼

 

 

(2013 3 11 - 서울) 사단법인 한국인터넷전문가협회(회장: 김진수, www.kipfa.or.kr, 이하인전협’)와 구글코리아(대표: 염동훈, www.google.co.kr) 11일 국내 대학교 100곳과 학술/연구기관 100곳 등 총 200개 웹사이트에 대해검색 접근성현황 조사 결과를 발표했다. 이번 조사는 지식 재창출의 핵심인 대학 및 학술/연구 기관의 검색 접근성 현황을 파악하여, 실질적으로 이들 웹사이트들의 검색 접근성을 개선하고 나아가 공공 정보 개방에 대한 인식을 제고하고자 실시되었다. 인전협은 해당 조사 결과 전문을 오는 4 2일 진행될 [웹마스터 컨퍼런스 2013] 에서 발표할 예정이다.

 

국내 대학 3곳 중 1곳은 정보접근완전차단

200개의 대학 및 학술/연구기관을 대상으로 한 이번 조사에서 78.5%에 달하는 157(대학 89, 연구기관 68)에서 5가지의 웹사이트 접근 차단 조사 항목 (아래 참고) 1가지 이상의 방법을 이용해 검색엔진의 접근을 제한하고 있는 것으로 나타났다. 이번 조사에서는 대학기관의 검색접근 차단율이 학술/연구기관보다 더 높게 나타났다.

 

특히 조사 대상 중 대학교 32( 100)와 학술/연구기관 22( 100)가 구글, 네이버 등과 같은 국내외 검색엔진의 접근을 완전 차단하여 정보 불통 상태가 심각한 것으로 드러났다 (아래 완전차단 대학과 학술/연구기관 리스트 참고). , 대학 3곳 중 1곳이, 학술/연구기관 4곳 중 1곳이 정보 공유를 완전 차단하고 있었다.

 

검색 접근성을 완전 차단한다는 의미는 사용자들이 일일이 해당 사이트를 찾아서 들어가지 않는 한, 국내 주요 포털과 구글을 통해서 정보 검색이 불가능하다는 것을 의미한다. 특히 외국인을 포함하여 웹사이트 주소를 모르는 사용자들이 검색엔진의 도움 없이 사이트를 직접 방문하여 정보를 찾는 것은 기대하기 어렵기 때문에 이런 차단은 심각한 접근성 문제를 일으킨다

 

완전 차단 기관들은 robots.txt 파일을 사용해 검색 로봇 접근을 완전 차단하고 있는 것으로 나타났다. robots.txt 파일이란 인터넷 검색엔진의 접근을 막는 표준 규약으로, 웹사이트 정보를 수집하는 검색 로봇은 웹페이지의 특정 정보를 수집하기 전에 우선 robots.txt 파일을 기준으로 해당 정보 수집 여부를 결정한다.

 

robots.txt를 잘못 사용하면, 해당 사이트에 있는 정보는 수집하지 못하기 때문에 검색 결과에 보여지지 않는 경우가 많다. 이 규약의 본래 목적은 사이트 내 정보의 종류에 따라 공개 여부를 정하고 방문 트래픽 양을 조절하는데 있지만, 유독 국내에서는 검색 로봇의 유입을 완전 차단하는 용도로 무분별하게 사용되고 있어 콘텐츠 접근성을 심각하게 제한하고 있다. 또한 이럴 경우 양질의 연구, 교육 자료가 웹사이트 내에 있더라도, 거의 대부분 검색을 통해 정보를 수집하는 현재 사용자 특성 상 해당 자료의 존재 유무조차 파악할 수 없다.

 

미국, 일본, 중국 대학들의 완전 차단률제로와는 대조

한편, 미국, 일본, 중국 주요 100개 대학 중 검색엔진의 접근을 완전 차단한 대학은 단 한 곳도 없어 국내 상황과는 대조적인 모습을 보였다 (아래 표 및 그래프 참조). 일부 대학은 글로벌 대학을 지향하는 전략과는 반대로 구글과 같은 해외 검색엔진의 접근만 차단하, 우리나라 유학을 계획하는 사람들이 해외에서 관련 정보를 검색으로 찾기 어렵게 만들어 두었다.

robots.txt 차단 대학 수

(국가별 총 100개 대학 기준)

한국

미국

중국

일본

완전차단

32

0

0

0

부분 차단/허용

18

77

17

32

허용

50

23

87

68

 

 

이미지로 구성된 웹사이트, 아무리 좋은 정보라도 검색 앞에선 무용지물

또한 전체 조사대상의 절반인 101개 웹사이트(대학교 58, 연구기관 43)는 이미지, 플래시, 액티브X 등과 같은 검색 비친화적 요소를 포함하고 있는 것으로 나타났다. 특히 이미지로 검색 접근차단이 가장 보편적 문제였다. , 101개 웹사이트 중 97개 사이트(95%)에서 본문 텍스트를 이미지로 처리하여 접근 문제를 야기했다(대학교 56, 연구기관 41).

 

이미지나 플래시를 활용해 본문 텍스트를 표현하는 경우 검색 로봇이 텍스트를 인식할 수 없어 색인이 불가능하며, 액티브X를 사용하는 경우 해당 액티브X 설치 후에만 정보 확인이 가능해 검색 로봇의 접근이 불가능하다.

 

이 같은 검색 비친화적 요소들은 단순히 검색 로봇의 정보 수집을 방해하는 데 그치지 않고 더 큰 접근성 문제를 야기한다. , 웹사이트를 이미지와 플래시 파일로 구성할 경우, 검색이 되지 않을 뿐더러 텍스트를 인식해 음성으로 읽어주는 기능을 사용할 수 없어 시각장애인들에게 무용지물 정보가 된다.

 

오픈넷(opennet.or.kr)을 이끌고 있는 고려대학교 법학전문대학원 김기창 교수는  “검색엔진이 그 내용을 파악할 수 없는 웹사이트는 존재하지 않는 것과 마찬가지다. 훌륭한 교육, 연구 콘텐츠를 보유하고 게시까지 해두면서도 정작 검색되지는 못하게 하는 처사는 도무지 납득이 안간다. 이런 현상은 국내에 떠돌아 다니는 그릇된 보안 지식 때문이 아닌가 생각한다. 흔히 robots.txt로 검색엔진이 검색할 수 없게 하면 사이트가 안전해진다고 오해하는 인력이 아직도 있는데, 사이트가 안전해 지는 것이 아니라 쓸모 없어 질 뿐이다. 공공에게 유익한 정보를 담고 있는 사이트들이 이러한 정보 불통 현상 자초하고 있다는 것은 막대한 사회적, 국가적 손실이 아닐 수 없다면서단순히 정보를 웹사이트에 게재하는 것에서 그치는 것이 아니라 어떻게 하면 더 많은 사람들이 정보에 접근할 수 있을 지를 우선적으로 고민해야 한다고 말했다.

 

###

 

 

[조사 세부 사항]

 

조사기간: 2013 1 21 ~ 2013 2 20( 1개월)
조사대상: 200개 사이트 (전국 100개 대학교 및 100개 학술/연구기관, 전체 리스트는 요청 시 제공)

검색접근성 현황 조사 5항목

   1) robots.txt 차단 여부

   2) noindex 태그사용으로 차단 여부

   3) 이미지/플래시/액티브X 사용으로 주요 콘텐츠 차단 여부

   4) User-agent 기반으로 접근 차단 여부

   5) URL 비공개  여부

 

조사 항목 및 결과 요약

조사항목

대학교

연구기관

합계

비율

1) robots.txt 차단

50

(완전차단 32)

35

(완전차단 22)

85

42.5%

2) noindex 태그 사용

4

6

10

5%

3)이미지/플래시/액티브X 사용

58

(이미지 56)

43

(이미지 41)

101

50.5%

(이미지 48%)

4) User-agent 기반으로 접근 차단

12

(완전차단 2)

4

(완전차단 0)

16

8%

5) URL 비공개

36

21

57

28.5%

 

※ robots.txt 완전차단 기관

 

 1) 대학 32

구분

학교명

주소URL

사립

경기대학교

kyonggi.ac.kr/

국립

경남과학기술대학교

gntech.ac.kr/

국립

경인교대

inue.ac.kr/

국립

공군사관학교

afa.ac.kr/

사립

광운대학교

kw.ac.kr/

사립

단국대학교

dankook.ac.kr/

국립

대구교대

dnue.ac.kr/

사립

대진대학교

daejin.ac.kr/

사립

덕성여자대학교

duksung.ac.kr/

사립

동국대학교

dongguk.edu/

사립

명지대학교

mju.ac.kr/

사립

배재대학교

pcu.ac.kr/

사립

백석대학교

bu.ac.kr/

국립

부경대학교

pknu.ac.kr/

국립

부산대학교

pusan.ac.kr/

사립

상지대학교

sangji.ac.kr/

국립

서울과학기술대학교

seoultech.ac.kr/

사립

서울여자대학교

swu.ac.kr/

사립

수원대학교

suwon.ac.kr/

사립

신라대학교

silla.ac.kr/

사립

을지대학교

eu.ac.kr/

사립

이화여자대학교

ewha.ac.kr/

국립

제주대학교

jejunu.ac.kr/

국립

창원대학교

changwon.ac.kr/

국립

청주교대

cje.ac.kr/

국립

충남대학교

cnu.ac.kr/

사립

카톨릭대학교

catholic.ac.kr/

국립

한국기술교육대학교

koreatech.ac.kr/

국립

한국예술종합학교

karts.ac.kr/

사립

한국외국어대학교

hufs.ac.kr/

국립

한국전통문화학교

nuch.ac.kr/

사립

한림대학교

hallym.ac.kr/

 

 

 

2) 학술/연구기관 22

기관명

주소URL

감사연구원

bai-eri.go.kr/

국립민속박물관

nfm.go.kr/

국립방재연구원

ndmi.go.kr/

국립중앙의료원

nmc.or.kr/

국립해양문화제연구소

seamuse.go.kr/

국립해양조사원

khoa.go.kr/

국방과학연구소

add.re.kr/

국토지리정보원

ngi.go.kr/

기초기술연구회

krcf.re.kr/

동학농민혁명 종합지식정보시스템

e-donghak.go.kr/

민족문제연구소

banmin.or.kr/

산학협력종합지원센터

uicc.re.kr/

정보통신정책연구원

kisdi.re.kr/

조선왕조실록

sillok.history.go.kr/

한국고고학회

kras.or.kr/

한국기초과학지원연구원

kbsi.re.kr/

한국생산기술연구원

kitech.re.kr/

한국역사정보통합시스템

koreanhistory.or.kr/

한국지역정보개발원

klid.or.kr/

한국학중앙연구원

aks.ac.kr/

한국행정연구원

kipa.re.kr/

한국행정학회

kapa21.or.kr/

 

 

 

 

검색접근성 조사 5 항목별 설명, 문제점 및 실제 평가 방법

항목

차단기능

적용 시 현상/문제점

평가방법

robots.txt 차단 여부

사이트 내 검색 로봇을 차단하여 외부 검색 사이트에 정보를 노출하지 못하도록 함

외부 검색 사이트에 문서의 내용을 검색하였을 경우 사이트의 상세 정보 접근에 어려움이 생김

www 포함과 제외 두 가지 방식으로 평가

noindex 태그 사용 차단 여부

매타 태그에 noindex를 설정하여 페이지의 정보를 공유하지 못하도록 함

검색 로봇이 해당 웹 페이지를 수집은 하되 색인이 불가능하여 정보 접근에 어려움이 생김

비슷한 성격의 대메뉴 5개를 선정하여 페이지마다 noindex 존재 여부 확인

이미지/플래시/액티브X로 주요 콘텐츠 차단 여부

액티브X를 설치해야만 내용을 파악할 수 있어 웹 접근성에도 문제가 발생

정보성 콘텐츠가 이미지/플래시/액티브X  포함할 경우 내용을 읽을 수 없는 검색 로봇은 정보를 수집할 수 없음

웹브라우저에서플러그인 실행기능을 끄고 해당 웹사이트 방문

User-agent 기반으로 접근 차단 여부

HTTP 요청의 User-agent를 바탕으로 검색 로봇을 차단하도록 함

검색 로봇은 HTTP 요청의 User-agent 항목에 식별 가능한 문자열을 붙여서 웹 서버에 전달 접근의 어려움이 생김

구글봇, 네이버봇(Yeti, NaverBot)의 문자열을 메인, 소개 페이지에서

user-agent 문자열을 바꾼 다음 출력 화면 확인

URL 비공개 여부

게시판 등의 데이터베이스 기반의 웹페이지를 POST 메소드만 지원하여 URL로 접근할 수 없음

URL로 접근할 수 없는 페이지는 검색 로봇이 접근할 수 없어 검색에서 제외됨. 또한 인터넷 사용자들도 해당 페이지에 링크를 걸 수 없음

공지사항과 게시판에서 게시물 목록과 게시물 보기 페이지가 URL로 접근 가능한지 확인

 

 

검색 로봇(검색 엔진) 접근 차단이란

 

검색엔진에 따라 차이는 있지만 기본적인 검색엔진 작동 원리는 다음과 같다. 우선 검색로봇이 정해진 규칙에 따라 수많은 웹페이지를 수집(crawling)하여 해당 정보를 복사해 와 데이터베이스에 저장한다. 이를 일정한 논리에 따라 색인(indexing)하여 정리해두었다가 사용자가 검색엔진에서 검색어를 입력하면 컴퓨터 연산 과정을 거쳐 매칭되는 검색결과를 산출해준다. 따라서, 검색로봇이 웹사이트에 접근하지 못하도록 제한하거나 검색 비친화적인 이미지/플래시/액티브X로 웹페이지를 구성하게 되면 해당 웹페이지의 정보는 검색 결과에서 찾아 볼 수 없게 된다.

 

 

검색 접근성과 보안에 대한  5가지 오해와 진실

 

      검색 서비스는 웹사이트를 강제적으로 수집한다.
구글을 포함한 정상적인 검색 로봇은 robots.txt, noindex 메타 태그 등, 웹사이트들이 검색엔진의 접근을 차단할 경우 이를 준수한다.

      검색 로봇 접근을 제한하는 robots.txt는 보안 도구이다.
robots.txt는 검색 로봇이 수집하지 말아야 할 문서의 목록을 알려주는 것으로, 보안 도구와는 관계가 없다. robots.txt를 잘못 이용할 경우 오히려 악성 로봇의 목표물이 될 수 있다.

      검색 서비스는 비공개 콘텐츠도 대상으로 한다.
 
검색 로봇이 로그인을 해야만 볼 수 있는 콘텐츠를 해킹으로 수집한다는 이야기는 사실이 아니다. 검색 로봇은 로그인을 할 수 없으므로 로그인을 해야만 볼 수 있는 콘텐츠는 수집할 수 없다.

      검색이 잘되는 웹사이트는 보안에 더 취약하다.
보안 취약점은 웹사이트의 검색 접근성과 전혀 별개다. 오히려 검색이 잘 되는 웹사이트의 경우 검색 서비스에서 제공하는 악성 코드 알림 등을 통해 더 신속하게 문제점을 발견하고 대처할 수 있다.

      검색 서비스의 검색 결과는 수작업에 의해서 수정되거나 삭제된다.
검색 결과의 웹페이지는 개인정보 등 예외적인 경우를 제외하고는 모두 자동화된 소프트웨어 프로세스가 수집하여 게시한다. 또한, 웹사이트에서 수정된 콘텐츠도 자동으로 검색 결과에 적용된다. 검색 로봇은 웹페이지에서 바뀐 내용이나 삭제된 내용을 점검하여 검색 결과에 적용하기 위하여 주기적으로 웹페이지를 정보를 수집한다. 이 때, 모든 웹페이지를 같은 주기로 방문하지 않고 자주 바뀌는 페이지는 더 자주 방문하고 바뀌지 않는 페이지는 덜 방문한다.

 

보도자료 문의:          한국인터넷전문가협회

대외협력사업본부 이정선 과장        070-8672-5904 / 010-4323-8511

 

 

 

첨부파일 :
확인


hosting.kr