기술동향
2024년 기술영향평가
- 등록일2025-04-10
- 조회수456
- 분류기술동향 > 기타 > 기타
-
자료발간일
2025-03-24
-
출처
한국과학기술기획평가원
- 원문링크
2024년 기술영향평가
◈본문
1. 연구 개요
(연구 목표) ’2024년 기술영향평가’의 일환으로 빅데이터 분석을 통해 대상기술('휴머노이드', 'BCI', '헬스케어') 관련 국내 이슈 분석
- 전문가 회의를 통해 도출된 인공지능의 위험 요소('기술적 위험', '사회적 위험', '인간에 위험')에 대한 대중의 인식 및 주요 사건 발굴
- 대상기술의 위험 요소별 주요 사건 발굴 및 대중의 인식과 감정 분석
- 기타 AI 서비스별 잠재 이슈 발굴
(주요 방법론) 토픽 모델링 기법을 통해 안전・신뢰 AI 및 대상기술 관련 뉴스 빅데이터 내 주요 이슈 도출 후 이벤트 분석, 키워드 분석, 웹 반응 분석 등 심층 분석 진행
1. 안전・신뢰 AI 관련 선행연구를 통한 키워드 사전 구축 및 검색 쿼리 설정
2. 빅카인즈 활용 데이터 수집 및 데이터베이스 구축
- 분석대상 기간(2014년 7월 1일 ~ 2024년 9월 1일)
- 분석대상 데이터 : 총 수집 데이터(53,294건) 중 전처리 후 27,420 건
3. 토픽 모델링 활용 안전・신뢰 AI 관련 주요 이슈 도출 및 주제별 키워드 분석
[그림 Ⅰ-1] 토픽 모델링 기반 주요 이슈 도출 개요도
- 중분류별 뉴스 데이터를 BERT 기반 언어모델로 임베딩(embedding) 후 차원축소 (UMAP 알고리즘 활용 및 군집화(HDBSCAN) 진행
- 임베딩 시 사용한 BERT기반 언어모델은 HuggingFace에서 제공하는 다국적 오픈소스인 "all-MiniLM-L6-v2"를 사용
- UMAP(Uniform Manifold Approximation and Projection forDimension Reduction) : 고차원의 데이터를 저차원으로 변환하여 데이터의 구조를 시각적으로 이해하거나 분석할 수 있게 해주는 차원 축소 기법. 데이터의 지역적(topological) 구조를 보존하면서 차원을 축소하는 특징을 가지고 있음. 고차원 공간에서의 데이터 포인트 간의거리 확률분포( )와 저차원 공간에서의 데이터 포인트간 유사성의 확률분포( )간 차이를 최소화 하는 비용함수를 통해 최적화 과정을 거치며 비용 함수는 다음과 같은 형태의 교차 엔트로피 비용 함수로 정의됨17)
(식-1) * 군집화 진행 시 이슈 당 문서(뉴스) 수 최소 80개 이상으로 설정
- HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)은 밀도 기반 군집화방법 중 하나로 위계적 클러스터링과 밀도 기반 접근을 결합하여 다양한 밀도 조건에서도 안정적인 클러스터를 찾을 수 있음. 데이터 포인트 간의 연결 가중치를 계산한 후, 최소 가중치 연결 트리를 생성하는데 이 과정에서 각 데이터 포인트 간의 연결 거리는 다음과 같은 서로 도달 가능한 거리(mutual reachability distance)로 계산됨18)
(식-2) d(a, b) : a와 b사이의 거리
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.