본문으로 바로가기

기술동향

2024년 기술영향평가

  • 등록일2025-04-10
  • 조회수456
  • 분류기술동향 > 기타 > 기타

 

 

2024년 기술영향평가

 

◈본문

1. 연구 개요

(연구 목표) ’2024년 기술영향평가’의 일환으로 빅데이터 분석을 통해 대상기술('휴머노이드', 'BCI', '헬스케어') 관련 국내 이슈 분석

- 전문가 회의를 통해 도출된 인공지능의 위험 요소('기술적 위험', '사회적 위험', '인간에 위험')에 대한 대중의 인식 및 주요 사건 발굴

- 대상기술의 위험 요소별 주요 사건 발굴 및 대중의 인식과 감정 분석

- 기타 AI 서비스별 잠재 이슈 발굴

(주요 방법론) 토픽 모델링 기법을 통해 안전・신뢰 AI 및 대상기술 관련 뉴스 빅데이터 내 주요 이슈 도출 후 이벤트 분석, 키워드 분석, 웹 반응 분석 등 심층 분석 진행

1. 안전・신뢰 AI 관련 선행연구를 통한 키워드 사전 구축 및 검색 쿼리 설정

2. 빅카인즈 활용 데이터 수집 및 데이터베이스 구축

- 분석대상 기간(2014년 7월 1일 ~ 2024년 9월 1일)

- 분석대상 데이터 : 총 수집 데이터(53,294건) 중 전처리 후 27,420 건

3. 토픽 모델링 활용 안전・신뢰 AI 관련 주요 이슈 도출 및 주제별 키워드 분석



[그림 Ⅰ-1] 토픽 모델링 기반 주요 이슈 도출 개요도


- 중분류별 뉴스 데이터를 BERT 기반 언어모델로 임베딩(embedding) 후 차원축소 (UMAP 알고리즘 활용 및 군집화(HDBSCAN) 진행

- 임베딩 시 사용한 BERT기반 언어모델은 HuggingFace에서 제공하는 다국적 오픈소스인 "all-MiniLM-L6-v2"를 사용

- UMAP(Uniform Manifold Approximation and Projection forDimension Reduction) : 고차원의 데이터를 저차원으로 변환하여 데이터의 구조를 시각적으로 이해하거나 분석할 수 있게 해주는 차원 축소 기법. 데이터의 지역적(topological) 구조를 보존하면서 차원을 축소하는 특징을 가지고 있음. 고차원 공간에서의 데이터 포인트 간의거리 확률분포( )와 저차원 공간에서의 데이터 포인트간 유사성의 확률분포( )간 차이를 최소화 하는 비용함수를 통해 최적화 과정을 거치며 비용 함수는 다음과 같은 형태의 교차 엔트로피 비용 함수로 정의됨17)


(식-1) * 군집화 진행 시 이슈 당 문서(뉴스) 수 최소 80개 이상으로 설정


- HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)은 밀도 기반 군집화방법 중 하나로 위계적 클러스터링과 밀도 기반 접근을 결합하여 다양한 밀도 조건에서도 안정적인 클러스터를 찾을 수 있음. 데이터 포인트 간의 연결 가중치를 계산한 후, 최소 가중치 연결 트리를 생성하는데 이 과정에서 각 데이터 포인트 간의 연결 거리는 다음과 같은 서로 도달 가능한 거리(mutual reachability distance)로 계산됨18)


(식-2) d(a, b) : a와 b사이의 거리



...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

자료 추천하기

받는 사람 이메일
@
메일 내용