기계학습을 통한 안드로이드 악성코드 분석 배경 #1

티스토리 뷰

IT이야기

기계학습을 통한 안드로이드 악성코드 분석 배경 #1

사랑을하세요 2020. 6. 4. 16:59

우리는 모바일 기기가 보급하는 시대에 살고 있습니다. 세계 77억 명 중 25억 명 이상이 스마트폰 사용자이며, 현재 51억 명이 세계 모바일 장치를 이용하고 있습니다. 따라서 65% 이상이 모바일 앱을 사용하는 동안 취약한 상황에 놓여있습니다. 모든 모바일 장치에는 많은 모바일 응용프로그램이 있습니다. 사람들은 은행의 VoIP 통화 및 로그인 시 비밀번호를 요구하는 중요한 Web 사이트에 접근하는 스마트폰과 태블릿을 사용하고 있습니다. 악성 앱은 스마트폰과 태블릿 사용자의 사이버 보안과 프라이버시를 위협할 수 있기 때문에 사용자에게 위험할 수 있습니다. 악성 앱을 탐지하면 사용자는 스마트폰이나 태블릿을 보다 안전하게 사용할 수 있으며, 데이터와 개인정보를 보호할 수 있습니다. 최근 기계학습 기반의 악성코드 탐지 기법이 등장하고 있고 이러한 접근 방식은 종래 악성 앱 탐지 기능과 차별화를 가질 수 있다. 우리는 특히 Android는 가장 인기 있는 모바일 운영 체제이며, 다수의 악성 코드 공격을 하고 있기 때문에, 이 문서에서 Android 애플리케이션에 관심을 두고 사용하고 있다. Android는 세계 모바일 운영체제 시장의 70% 이상을 차지하고 있다. 악성 Android 애플리케이션을 감지하면 사이버 보안에 대한 전반적인 개선에 크게 도움이 됩니다. 그러나 다른 모바일 운영체제는 악성 앱을 발견하기 위해 우리의 접근 방식을 사용할 수 있습니다. Android 애플리케이션은 많은 API를 호출합니다. API 호출 기능으로 처리합니다. 특정 인수와 반환 값의 형태를 보이는 각 API 호출은 별도의 기능으로 간주합니다. 각 기능은 Android 애플리케이션에서 호출하는 삼중으로 표시됩니다. 인수와 반환 값의 형태가 다른 경우 같은 API 호출은 다른 기능으로 간주합니다. 따라서 데이터 세트의 각 응용 프로그램에 많은 기능이 데이터 세트는 고차원 됩니다. 구체적으로는, 데이터 세트에는 수많은 변수가 있습니다. 우리의 실험에서는 각 응용 프로그램이 수많은 기능 중 비교적 적은 것을 사용하는 특정 응용 프로그램의 데이터는 부족합니다. Android 애플리케이션의 데이터는 후원 벡터 기계 (VSM)을 사용하여 분류합니다. VSM은 커널 기법을 사용하는 통계 학습 알고리즘입니다. VSM 텍스트 분류, 이미지 식별 및 생물 정보학 등의 많은 응용 프로그램에서 널리 사용되고 있습니다. 그러나 악성 코드 탐지는 VSM의 사용은 다소 적습니다. 악성 데이터 세트는 고차원이며, 데이터는 부족합니다. 이러한 특성은 데이터의 분류에서 많은 과제를 제시합니다. 우리의 임무는 그런 희박한 높은 차원의 데이터가 VSM을 사용하여 충분히 분류할 수 있음을 보여주고 있으며, 우리의 접근 방식은 99% 이상의 분류 정확도를 달성하고 있습니다. 우리가 사용한 데이터 세트는 연구에서 입니다. 악성 코드 감지 데이터 세트는 2개의 그룹이 있습니다. 하나는 해가 없는 응용 프로그램을 위한 것이고 다른 하나는 악성 앱 용입니다. 우리의 실험에서 사용된 양성의 데이터 세트는 2016년 12월에 Google Play, Amazon App Store 및 APKPure에서 수집된 28,489개의 Android 애플리케이션이 포함 있습니다 빅 데이터와 스마트 컴퓨팅에 대한 우리의 작업에 사용된 악성 데이터 세트는 AMD 및 Dre bin 데이터 세트의 것으로, 악성 앱 총수는 30,113입니다. 데이터는 133,227의 특성이 있고, 각각의 속성은 호출된 API 호출 및 인수 및 반환 값의 형태를 나타냅니다. 우리의 작업은 각 API 호출은 그 API 방법 이름, 인수 및 반환 값의 타입으로 식별됩니다. 속성 간의 관계는 무시하고 각 특성을 개별적으로 취급합니다. 각 응용 프로그램은 우리의 작업에서는 인스턴스로 처리됩니다. 악성 코드를 탐지하기 위해 다른 연구자는 API 호출 순서 API 호출 간의 API 의미 관계 및 API 구성 요소 간의 통신을 사용합니다. 우리의 임무는 오로지 Android 응용 프로그램이 접근하는 자원의 정적 분석에 초점을 맞추고 있지만, Android 애플리케이션의 악성 코드 탐지에서 매우 경쟁력 있는 정확도를 만들어 내고 있습니다. API 호출에 관련되지 않은 데이터 인스턴스는 잡신호로 간주합니다. 이 데이터 세트는 악의적인 인스턴스 30,113중 5.0% 또는 1,503 인스턴스가 노이즈이었지만, 양성 인스턴스에는 소음이 없습니다. 원칙적으로 진실 정보에서 모델을 구축하기 위해 훈련 세트에서 잡신호를 제거해야 합니다. 우리의 일의 주요 공헌은 다음과 같이 요약됩니다. 매우 경쟁력 있는 정확도를 느슨하기에서 고차원 데이터 세트에서 메트릭을 재현하고 잡신호를 제거하고 간극을 줄입니다. 논문은 다음과 같이 구성되어 있습니다. 섹션 II는 관련 연구를 검토하고 섹션 III는 우리의 접근 방식을 소개 및 설명합니다. 섹션 IV에서는 모델의 성능과 결과를 보여줍니다. 악성 코드는 정적 또는 동적 방법으로 분석할 수 있습니다. 일반적으로 정적 분석은 기존의 실행 기반의 동적 분석보다 계산 효율이 높아집니다. 코드 난동 화와 래커 기반 암호화 등의 접근 방식은 정적 분석 기법을 피하고자 사용됩니다. Peiravian와 Shu 의한 악성 코드 탐지 방범은 기능 기반 학습 뼈대를 채택하고 있으며, API 호출과 권한이 기능으로 사용됩니다. 이 작업에서는 VSM 의사 결정 트리, 바 긴 접근 등의 기계 학습 방법을 이용하여 최대 96.88%의 정확도를 달성했습니다. 작업은 정적 분석 기법을 사용하여 API 호출과 권한의 조합이 악성 Android 애플리케이션을 감지하는 뛰어난 기능을 제공하는지 확인했습니다. 정적 분석 기법을 사용하여 악의적인 Android 애플리케이션을 검출하기 위한 API 호출 세트를 선택하는 방법을 보여주었습니다. 선택된 API 호출 세트는 분류 기능으로 사용됩니다. workselectstwosetofAPIcalls : 양성 API 목록과 악성 API 목록입니다. 각각 해가 없는 응용 프로그램과 악성 앱에서 가장 일반적으로 호출되는 API가 포함되어 있습니다. 새로운 앱이 무해인지 악성인지를 판단하기 위해 Jung들. 응용 프로그램이 사용하는 각 API의 반대 순위의 합을 계산했습니다. 이것은 양성 API 목록과 악성 API 목록 모두에 대해 계산됩니다. 다음 두 값을 비교했습니다. 하나는 역수의 합에서 양성 API 목록 및 악성 API 목록의 기타리스트로 평가합니다. 값이 클수록 특정 응용 프로그램의 속성, 즉 무해 또는 악성 여부를 결정합니다. 이것은 매우 간단한 방법이지만, 90%의 고정밀도를 실현합니다. Android 악성 코드 탐지는 통계적으로 희한 특징을 추출하여 악성 코드 서명을 생성하는 강력한 방법이다. 생성된 서명은 악성 코드를 탐지하는 데에만 사용됩니다. 이 방법은 유사성 다이제스트 해시 메커니즘을 사용하여 기능을 선택하고 난처하거나 재포장된 Android 악성 코드의 검출에 효과적입니다. 제안된 방법에서 생성된 서명은 잘 알려진 맬웨어 방지 제품에서는 검출되지 않는 다양한 난동 화 기술에 의해 변환된 미지의 본보기를 감지하는 강력함입니다. AndroSimilar 알려진 악성 코드와 통계적으로 유사한 영역을 검출하고 미지의 본보기를 감지하는 구문 발자국 메커니즘입니다. 알려진 퍼지 해시 접근법과 비교하여 더 빠른 검색을 위해 중간 코드뿐만 아니라 전체 파일 구문의 유사성을 고려합니다. Androsimilar 악성 코드 시그니처 데이터베이스는 공식 시장 애플리케이션과 40%의 유사성을 보여줍니다. 이것은 상용 맬웨어 방지 설루션과 비교하여 악성 프로그램 서명이 훨씬 적은 것으로 구성되어 있습니다. 난동 화 된 Android 악성 코드를 탐지하기 위해 SuarezAngil 등. DroidSieve 정적 분석에 따라 Android 악성 코드를 분류하는 시스템을 개발했습니다. 이것은 코드 난동 화에 대해 빠르고 정확하며 회복력이 있습니다. DroidSieve API 호출 권한 코드 구조 호출된 구성 요소 세트 등 Android 악성 코드의 특징으로 알려진 몇 가지 기능에 의존하고 있습니다. 또한, Android 애플리케이션을 상세하게 검사하여 기존의 악성 코드 분석 기술은 간과해온 기본 구성 요소 포함된 자산 인증서 등 난처 불변의 기능을 활용합니다. Suarez-Angil et al. 그 기능의 상대적인 중요성을 분석하고 첨단 난처 메커니즘에 의해 도입된 유물이 안정적인 감지 및 제품군 분류를 위한 고품질의 기능을 제공할 수 나타냈다. 이러한 기능을 사용하여 DroidSieve 먼저 특정 앱이 악성인지 아닌지를 판단하고 악의적인 경우 관련 악성 코드의 가족에 속하는 것으로 분류합니다. DroidSieve는 악성 코드 탐지 및 제품군의 식별은 Extra Trees를 사용하여 구현되었습니다. DroidSieve의 견고성은 10만 이상의 무해 악성 Android 애플리케이션 세트로 평가되었습니다. 가량 제로에서 최대 99.82%의 정확도를 달성했습니다. 같은 기능을 통해 악성 제품군을 99.26%의 정확도로 식별할 수 있었습니다. 한편, Demontis et al. [18]은 기계 학습, 테스트 시에 탐지를 피하고자 악용될 수 있는 고유의 취약점을 보여 주었다는 것을 지적했습니다. 즉, 기계 학습 기술 학습 알고리즘의 지식을 이용하여 교묘하게 만들어진 공격의 영향을 크게 받을 수 있습니다. 그들은 이전에 제안된 공격 뼈대에 따라 다양한 기술과 기능을 가진 공격자를 모형화 함으로써 학습 기반의 악성 코드 탐지 도구에 대한 잠재적인 공격 시나리오를 분류했습니다. 그 후, 대응하는 일련의 회피 공격을 정의하고 구현하고 효율적인 정적 분석에 의존하는 기계 학습 방법이다 Dre bin의 보안을 철저하게 평가했습니다. 이 작업에서는 Android 애플리케이션의 API 호출의 정적 분석에 초점을 맞추고 있었습니다. 58,602의 Android 응용 프노그램과 후원 벡터 기계 (VSM)을 사용하여 133,227의 Android 앱 악성 코드 감지 기능을 집중적으로 실험하고 기존의 접근 방식과 비교하여 경쟁력 있는 결과를 보여주었습니다. 우리의 접근 방식은 99.75%의 전반적인 정확도와 99.97%의 매우 설득력 있는 재현율을 제공했습니다. 앞으로의 작업에서는 Android 애플리케이션 API 호출의 동적 분석에 초점을 맞추고 있습니다. 이러한 분석은 데이터는 본질적으로 시계열 데이터로 간주합니다.

저작자표시

'IT이야기' 카테고리의 다른 글

2023년 계묘년 새해인사 쉽게 작성하기 (feat. 뤼튼테크놀로지스) (0)	2022.12.31
기계학습을 통한 안드로이드 악성코드 분석 배경 #2 (0)	2020.06.04
hwp pdf 변환 방법 프로그램 같은 거 필요 없음 (0)	2020.06.02
윈도우10 파일 찾기 검색 탐색기 프로그램 한번에 해결 everything (0)	2020.05.31
안드로이드 앱의 종류에 대해 알아보자 (0)	2020.05.29

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

모든 정보를 잡아내는 투망인간

티스토리 뷰

기계학습을 통한 안드로이드 악성코드 분석 배경 #1

'IT이야기' 카테고리의 다른 글

티스토리툴바