기계학습을 통한 안드로이드 악성코드 분석 배경 #2

티스토리 뷰

IT이야기

기계학습을 통한 안드로이드 악성코드 분석 배경 #2

사랑을하세요 2020. 6. 4. 20:46

인터넷에 접근할 수 있는 모바일 장치 및 응용 프로그램의 침투로 온라인과 같은 일상 업무가 쉬워집니다. 뱅킹, 전자 상점에서의 쇼핑, 전자 메일 교환 안전 및 책임 중요 정보를 공유할 위험. 전 세계 총 3억 3,360만 개의 스마트 폰 2017년 일사분기가 제작되었으며 Android는 세계 시장의 85%를 기록했습니다. 안드로이드는 잠재력을 끌어내는 오픈 소스 운영 체제 구매자뿐만 아니라 악성 프로그램 작성자도 악의적인 의도를 실행합니다. Android 애플리케이션 (앱)은 자체 서명할 수 있습니다. 개발자 추적이 어려워지고, 앱을 간단하게 리 패키징 할 수 있습니다.
숫자를 증가시키는 급료 로드 추가 또는 수정 변종 (Li et al. 2017; Tina et al. 2017). 보안 위협과 관련하여 1,860만 개의 모바일 맬웨어 변종 2016년에 105% 증가하여 전년도의 증가와 크게 다릅니다 61개의 새로운 모바일 위협으로 이루어진 4개의 새로운 모바일 제품군과 클러스터 2015년에는 18개의 새로운 가족과 75개의 클러스터를 식별하는 것과 비교하여 2016년에 발견되었습니다. 본보기 대 성장률 변화 및 더 적은 수 악성 코드 작성자가 탐지 및 실행을 완화하기 위해 기존 맬웨어 제품군을 수정하고 수정하는 데 중점을 두었습니다. 새롭고 고유한 맬웨어 위협을 배포하는 대신 악의적인 의도. 결과적으로 Android 악성 코드는 많은 앱을 사용하는 동안 및 훈련, 탐지 시스템은 최적의 파라미터 값으로 구성되어야 합니다. 확장할 수 있고 자동화된 탐지 시스템이 필요합니다 인간 전문가 분석 및 작업량을 제거하는 동안 수많은 맬웨어 변종과 싸우고 있습니다. 기계학습 알고리즘이 Android 감지에 적용되었습니다. 주어진에서 추출된 기능을 사용하여 악성 앱 데이터 세트 (Tam et al. 2017). 기능은 다음 중 하나에 의해 추출됩니다. 정적 또는 동적 분석. API (응용 프로그래밍 인터페이스) 호출, 운영 코드와 같은 정적 기능 (op code) 절차, 권한 요청, 제어 흐르거나 정적 소스 코드에서 데이터 흐름이 추출됩니다 (Pektas and Acarman 2017). API 호출 간의 관계는 API 호출 그래프를 적용하여 발했습니다. 이러한 기능은 데이터 배포에 크게 의존하며 대규모 데이터 세트는 신뢰할 수 있는 탐지를 약속하면서 포괄적인 학습 공연. 동적 기능은 실행으로 추출됩니다. 특정 Android 앱 및 네트워크, 파일 관련 활동 시스템 접근 및 Android와의 상호 작용은 로그 파일 명령 호출 그래프 활동을 설명하고 행동을 구축하는 데 사용되었습니다 Android 앱 모델 민감한 그래프 생성 에서 캡처된 기능들 사이의 호출 관계를 제시하기 위해 안드로이드 앱 파일, 명령 추적의 동적 분석은 그래프 작성에 사용됩니다 전이 확률이 마르코프 체인을 나타내는 주어진 데이터 세트에서 추출됩니다. 깊은 신경망 (DNA)은 새로운 학습 모델로, 입력과 입력 간 대략적인 비선형 함수 연구 결과, 악성 코드 또는 양성 식별 앱. 구성에서 뉴런 수, 활성화 기능 및 다른 목표에 따라 매개 변수를 조정할 수 있습니다 통계적 메트릭 값을 최대화할 수 있습니다.

제안된 악성코드 탐지 방법은 Android 앱의 의사 역학 분석을 사용하고 API 호출을 구성합니다. 각 실행 경로에 대한 그래프. 그런 다음 그래프 임 베데은 요청 그래프를 그래프의 구조 정보를 캡처하는 저 차원 피처 벡터로 변환하는 데 적용됩니다. 숨겨진 구조를 감지하고 추출하기 위해 DNA가 도입되었습니다. 컨벌로션 계층을 통한 그래프 임 베데 매트릭스와의 유사성. 추출하는 데 많은 Android 앱 데이터 세트가 사용됩니다. API 호출 그래프 및 이진 코드 유사성 탐지가 보장됩니다. 네트워크에서 밀도가 높은 계층에 의해 모든 복잡한 로컬 기능을 결합하여 악성 코드 또는 양성 효과적이고 효율적인 방식으로 커볼 로션 계층에 의해 발견됩니다. GPU 기술이 지원하는 병렬 처리 학습 모델을 교육하고 테스트하기 위해 구현되었습니다. 특별히, DNA는 유망한 솔로션으로 평가 및 테스트되었습니다. 다양한 앱을 통해 숨겨진 지식을 공개 추출된 호출 그래프. 이 연구의 기여는 다음과 같이 요약될 수 있습니다. 호출된 API와 관련된 모든 실행 경로는 다음과 같습니다. 각 실행 경로에 대한 캡처 및 API 호출 그래프 건설됩니다. 의사 역학 분석이 적용됩니다. 대신 앱이 실행되지는 않지만 모든 실행 경로는 API 호출 절차를 통해 분석됩니다. 콜 그래프는 특정의 Android 앱 명령 추적과 시스템 콜 호출을 추적하여 수집 된 데이터에서 파생됩니다. 이러한 데이터는 구조의 유사성을 발견하기 위해 그래프 커널에 표시됩니다. 그래프 기반의 표현은 시스템 호출 추적에 의해 추출된 특징 벡터 기반 표현에 그래프의 정점을 추가하여 Android 애플리케이션의 프로세스를 모델링하여 조사됩니다 (Xu et al.2016). 히스토그램 n-gram 및 마르코프 체인 시스템을 사용하여 통화 그래프 표현이 도입되었습니다. 최단 경로 그래프 커널 알고리즘 (Borgwardt 및 Kriegel 2005)을 적용하여 그래프의 각 쌍 사이의 유사성을 발견합니다. 앤더슨 등으로. (2011), 동적 추적 데이터는 정점 세트가 160의 명령으로 구성된 가중 유향 그래프로 표현 마르코프 체인으로 변환됩니다. 그래프의 각 쌍 사이의 유사성을 발견하기 위해 가우스 커널과 스펙트럼 커널을 사용하여 비선형 동적 추적 데이터를 고차원 공간에 투영 원래 데이터 공간의 비선형 분류와 동등 선형 분류를 적용합니다. 두 커널의 조합으로 16.15의 악성 앱과 615 무해한 응용 프로그램의 데이터 세트의 대상이 되는 96.41 %가 보장됩니다. Android 애플리케이션의 동작은 4 가지 구성 요소 (활동, 서비스, 브로드 캐스트 리시버 콘텐츠 옵서버) 사이의 상호 작용으로 간주됩니다. 하나의 구성 요소가 다른 구성 요소의 라이프 사이클을 시작하면 가장자리가 만들어집니다 (Yang et al.2014). 작성된 위협 양상의 패턴 시퀀스는 악성인지 양성인지를 판단하기 위해 다른 미지의 응용 프로그램에서 구할 수 있습니다. Kinable 및 Kostakis (2011)에서는 콜 그래프는 실행 파일의 정적 분석에 의해 추출된 정점은 주소 가져오기 테이블에서 외부 함수를 가져와서 구성된 정적으로 링크된 라이브러리 함수는 역 어셈블러 IDA Pro에서 승인됩니다. 다음 정점 사이의 가장자리가 추가됩니다. 두 그래프를 일치시키기 위해 최소 그래프 편집 거리의 검색이 적용되어 악성 앱을 탐지하기 위해 k 평균 클러스터링이 적용됩니다. 1050 샘플의 대규모 세트에서 클러스터의 총수가 50으로 계산되는 253 샘플 분류할 수 없습니다. Wüchneret al. (2015), 프로세스, 소켓, 파일 시스템 레지스터 간의 데이터 통신 흐름은 데이터 흐름 그래프로 표시됩니다. 다음 양적 데이터 흐름과 그 속성을 사용하여 악성 코드의 동작 데이터베이스를 기반으로 악성 코드 탐지 휴리스틱을 정의했습니다. Hashemi et al. (2017), 역 어셈블 된 실행 파일에서 작동 코드의 추출 및 확률 적 에지 가중치를 통해 각 개별 작동 코드와 다른 가능한 작동 코드 노드의 연결 다음, 주어진 그래프를 벡터 삽입 Power Iteration이 제안된 비선형 데이터 공간을 고유 벡터의 선형 결합으로 변환합니다. 이것은 기계 학습 알고리즘의 교육에 적합합니다. 22,000 개의 응용 프로그램 샘플과 2000 개의 샘플의 부분 집합의 균형 잡힌 데이터 세트가 평가됩니다. Adaboost 분류자는 정확도가 96.09 %, F-Measure이 95.98 %에 달하고 있습니다. Gascon et al. (2013) API 호출 그래프는 샘플 사이의 유사성을 찾기 위해 추출되지만 유사성을 특정하기 위한 그래프 비교는 중요한 NP 문제이며 (Zeng et al.2009) 그래프 노드는 Dalvik 15 가지 카테고리의 명령에 따라 분류됩니다. 그런 다음 각 노드에 대해 모든 유향 그래프에 걸친 근방 해시를 계산 동일한 해시 레이블 된 노드 f 교차로가 식별됩니다. 18의 Android 악성 패밀리는 90 % 이상의 정확도 수준으로 분류된 세 가족은 더 낮은 정확도로 식별됩니다. Xu et al. (2017) 신경망을 사용하여 그래프를 포함로 변환하여 네트워크의 결합을 교육하여 2 개의 유사한 함수가 서로 가까이 있는지 확인합니다. 교육 신기원 수 포함의 깊이 포함된 크기 제어 흐름 그래프의 특성 및 반복 수는 유사도 검색 성능을 향상하기 위해 조정됩니다. 심층 학습 알고리즘을 고려하여 Nix 및 Zhang (2017) 회선 신경망 (CNN)에서 API 호출 기반의 Android 앱 분류를 위해 구축 및 평가됩니다. Long Short-Term Memory (LSTM)는 시퀀스에서 지식을 추출하기 위해 통합되어 있습니다. CNN의 결과는 n-gram SVM 및 단순 베이지안 알고리즘과 비교됩니다. 마쿠라 후린들. (2017), 딥 CNN은 원시 작동 코드 시퀀스로 구축됩니다. 최근 Yuan et al. 는 네트워크 파라미터의 조정에 특정 연구가 집중되고 있습니다. (2016), 붕소 등. (2016); 검출 정밀 도면에서 높은 수준에 도달하도록 매개 변수를 조정하면서 다양한 네트워크 아키텍처가 테스트됩니다. Nauman et al. (2017) CNN의 하이퍼 매개 변수는 각 회선 레이어에서 0.2 드롭아웃을 사용하여 조정된 오버 피팅을 줄일 수 있습니다. 따라서 최대의 네트워크가 최고의 통계 메트릭 값을 제공한다는 결론에 이르게 한다. 마르티 넬리 다른 (2017), 심층 학습 분류기는 실험적으로 평가된 하이퍼 매개 변수가 제공됩니다.

저작자표시

'IT이야기' 카테고리의 다른 글

노아ai 재능 없이 유튜브 구독자 10만 달성하기 (0)	2023.01.11
2023년 계묘년 새해인사 쉽게 작성하기 (feat. 뤼튼테크놀로지스) (0)	2022.12.31
기계학습을 통한 안드로이드 악성코드 분석 배경 #1 (0)	2020.06.04
hwp pdf 변환 방법 프로그램 같은 거 필요 없음 (0)	2020.06.02
윈도우10 파일 찾기 검색 탐색기 프로그램 한번에 해결 everything (0)	2020.05.31

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

모든 정보를 잡아내는 투망인간

티스토리 뷰

기계학습을 통한 안드로이드 악성코드 분석 배경 #2

'IT이야기' 카테고리의 다른 글

티스토리툴바