[데일리시큐]링크드인, 100만 가짜 계정으로 데이터 긁은 프로API 고소…AI 시대 ‘데이터 주권’ 공방 본격화

내용 요약

링크드인이 ProAPIs Inc., CTO 레흐맛 알람, 그리고 파키스위프트를 상대로 100만 개가 넘는 가짜 계정 생성·데이터 스크래핑 혐의로 소송을 제기했다. 소송은 캘리포니아 북부지방법원에 접수됐으며, 링크드인은 데이터 삭제·손해배상·영구 금지를 요구하고 있다.

핵심 포인트

가짜 계정 생성: 자동화된 스크립트가 1M+ 프로필을 만들어 링크드인에 익명성을 부여
데이터 스크래핑: 대규모 회원 정보를 수집·저장·활용하려는 목적
법적 제재: 링크드인의 서비스 약관 위반, 개인정보 보호법(CPA, GDPR) 및 저작권 침해에 대한 소송 요구

기술 세부 내용

1️⃣ 가짜 계정 생성 (Account Creation Automation)

단계	상세 설명
① 인증 우회	LinkedIn은 OAuth 2.0과 세션 쿠키를 사용해 로그인 검증을 수행한다. 가짜 계정 자동화는 `requests`/`Selenium`과 같은 HTTP 클라이언트에서 User‑Agent를 변조하고, Cookie를 재활용하거나 새로 발급받아 로그인 시도를 반복한다.
② 캡차 우회	캡차는 이미지/텍스트 인식으로 방어한다. 흔히 사용되는 해결법은 `2Captcha`, `Anti‑Captcha` API와 같은 외부 서비스에 요청해 AI 기반 솔루션을 받아오거나, Tesseract OCR을 직접 구현해 인식한다.
③ 프로필 완성	생성 후 `first_name`, `last_name`, `email`, `password` 외에 `headline`, `summary`, `experience`, `education` 필드를 채워야 한다. 이는 JSON API 또는 GraphQL 엔드포인트에 POST 요청을 통해 자동화된다.
④ IP/프로시 지연	트래픽이 한 IP에서 집중될 경우 LinkedIn은 IP 차단. 따라서 프로시 라인(프록시 풀)을 사용해 IP를 순환시킨다. `RotatingProxyMiddleware`(Scrapy) 혹은 `ProxyRotation`(Puppeteer) 설정이 필수이다.
⑤ 계정 검증	링크드인은 2단계 인증(2FA) 및 이메일/휴대폰 인증을 요구한다. 자동화는 SMS 가상 번호 서비스(예: Twilio, SMSGate)와 결합해 OTP를 받아 처리한다.

주의: 가짜 계정은 서비스 약관에 명백히 금지되어 있으며, 데이터 스크래핑 전 단계에서 이미 불법 행위가 발생한다.

2️⃣ 대규모 데이터 스크래핑 (Mass Data Scraping)

단계	상세 설명
① 타깃 URL 수집	LinkedIn 검색 페이지(예: `https://www.linkedin.com/search/results/people/?keywords=developer`)를 파싱해 프로필 링크를 수집한다. `BeautifulSoup`, `lxml`, 혹은 Puppeteer의 `page.$$eval`를 사용해 동적으로 로딩되는 `infinite scroll`를 처리한다.
② 동적 콘텐츠 로딩	대부분의 데이터는 React 기반 SPA에서 렌더링된다. 따라서 Headless Chrome(`puppeteer`) 혹은 Playwright를 사용해 JavaScript 실행 후 DOM을 수집한다.
③ 요청 헤더 조작	`Accept-Language`, `Referer`, `X-Requested-With` 같은 헤더를 LinkedIn이 기대하는 형태로 설정해 스크래핑이 탐지되지 않도록 한다.
④ 페이징/스크롤	LinkedIn은 `next` 페이지가 없을 때까지 스크롤을 지속한다. Selenium의 `execute_script("window.scrollTo(0, document.body.scrollHeight)")`와 `WebDriverWait`을 활용해 콘텐츠가 완전히 로딩될 때까지 대기한다.
⑤ 쿠키와 세션 관리	`Session` 객체를 재사용해 인증 토큰(`csrf-token`, `JSESSIONID`)을 유지한다. 각 요청마다 X-CSRFTOKEN 헤더를 포함해야 한다.
⑥ 데이터 추출	프로필 페이지에서 `title`, `current position`, `connections`, `profile picture`, `contact info` 등을 정규표현식 혹은 `XPath`를 통해 추출한다. JSON 형태로 정리하면 데이터베이스 저장이 용이하다.
⑦ 속도 제어 & 백오프	LinkedIn은 요청 속도를 모니터링한다. `time.sleep(random.uniform(3, 7))`와 같은 랜덤 지연, `exponential backoff` 전략을 적용해 차단을 방지한다.
⑧ IP 회전	앞서 언급한 RotatingProxyMiddleware를 다시 사용해 IP를 주기적으로 변경한다. 일부 프록시 서비스는 Country Code를 지정해 지역별 차단을 우회한다.
⑨ 데이터 저장	수집된 데이터는 Elasticsearch 혹은 MongoDB에 저장해 색인(Index) 후 검색을 용이하게 한다. 또한 GDPR에 따라 pseudonymization(익명화)과 암호화가 필수이다.
⑩ 모니터링	스크래핑 과정에서 CAPTCHA 발생 여부, 403/429 상태 코드, IP 차단 등을 로그에 기록하고 알림(예: Slack, PagerDuty)을 설정한다.

3️⃣ 스크래핑 방어 메커니즘 (Defensive Measures)

방어	구현 포인트
Rate Limiting	`X-RateLimit-Remaining`, `X-RateLimit-Reset` 헤더를 모니터링해 한계에 도달하면 요청을 일시 중지한다.
IP 블랙리스트	LinkedIn은 `403`을 반환하면 IP를 차단. 정기적으로 Tor 네트워크나 Residential Proxies를 이용해 IP를 재생성한다.
User‑Agent & 헤더 변조	흔한 브라우저 UA를 사용하고, 헤더를 동적으로 변형한다.
Browser Fingerprinting	브라우저 정보를 모방하기 위해 `puppeteer-extra-plugin-stealth`를 사용해 Canvas Fingerprint, WebGL Fingerprint 등을 감춥니다.
CAPTCHA Detection	CAPTCHAs가 나타나면 OCR를 시도하고, 인식 실패 시 `proxy`를 교체한다.
JavaScript 난독화	LinkedIn은 스크립트 난독화를 통해 스크래핑을 탐지한다. Headless 브라우저에서 `eval`을 방지하도록 `page.evaluateOnNewDocument`를 이용해 스크립트를 삽입한다.

4️⃣ 법적 및 윤리적 고려사항

영역	세부 내용
서비스 약관 위반	LinkedIn의 TOS는 “자동화된 데이터 수집”을 금지. 가짜 계정 생성과 스크래핑은 명백한 위반이다.
개인정보 보호	GDPR(유럽), CCPA(캘리포니아) 등은 개인정보 수집·처리에 동의와 명확한 목적을 요구한다. 대량 수집은 “미등록” 데이터의 위험을 증가시킨다.
저작권	LinkedIn은 사용자 프로필을 “저작물”로 보호하며, 스크래핑은 저작권 침해가 될 수 있다.
법원 판단	미국에서는 DMCA “테크니컬 매듭” (technical protection measures) 위반으로 소송이 제기될 수 있다.
윤리적 책임	기업은 데이터 사용에 대해 투명성을 확보하고, “공정한 사용”(fair use) 범위 내에서 행동해야 한다.

5️⃣ 스크래핑 및 가짜 계정 방지 도구 (Defense Tools)

도구	기능
DataSift	실시간 소셜 데이터 추적·모니터링, 이상 행위 탐지
Scraper API	IP 회전, CAPTCHA 해결, 브라우저 헤드리스 환경 제공
Probot	봇 감지, 스크래핑 시도 감지 로그 분석
ElasticSearch IDS	비정상 트래픽 패턴 분석 및 알림
Selenium Stealth	브라우저 지문 회피

6️⃣ 사례 연구: LinkedIn vs. ProAPIs

ProAPIs는 “프로페셔널 네트워크 API”라는 명칭으로 불법 스크래핑을 도구화해 제공하였다.
링크드인은 ProAPIs의 API 엔드포인트를 통해 100만 계정이 생성되고, 스크래핑이 자동화된 파이프라인을 통해 이루어졌다고 주장.
소송은 California Superior Court에 제출되었으며, LinkedIn은 “Data Deletion, Damages, and Permanent Injunction”를 요구.

7️⃣ 실무 적용: 안전한 데이터 수집 전략

전략	실행 방법
공식 API 활용	LinkedIn 공식 REST API 및 GraphQL 엔드포인트를 사용해 데이터 수집. 인증 토큰은 OAuth 2.0을 통해 안전하게 발급받는다.
데이터 최소화	수집 목적에 따라 필요한 필드만 요청. “필요 이상의 데이터” 수집 금지.
동의 기반 수집	사용자로부터 직접 동의를 받은 데이터만 수집, GDPR Consent 플래그를 저장.
보안 프로토콜	HTTPS, HSTS, CSP 헤더 적용.
내부 감사	데이터 접근 로그, audit trail를 주기적으로 검토.

8️⃣ 결론

가짜 계정 생성과 대규모 스크래핑은 기술적 측면 뿐 아니라 법적·윤리적 측면에서도 위험 부담이 크다. 기업은 공식 API 사용, 데이터 최소화, 동의 기반 수집, 그리고 강력한 보안 정책을 채택해 이러한 위험을 회피해야 한다. 동시에 LinkedIn과 같은 플랫폼은 IP 차단, CAPTCHA, 브라우저 지문 분석 등 다층 방어 체계를 구축해 무단 데이터 수집을 억제한다.

핵심:
1️⃣ 가짜 계정 생성은 인증 우회와 자동화 도구를 결합해 대규모 계정을 만들어낸다.
2️⃣ 스크래핑은 헤드리스 브라우저와 프록시 회전을 활용해 동적 페이지를 파싱한다.
3️⃣ 법적·윤리적 위험은 서비스 약관 위반·GDPR·저작권 문제를 동반한다.

이 가이드를 통해 기술 담당자는 스크래핑 행위의 위험성을 인식하고, 합법적이고 안전한 데이터 수집 방안을 설계할 수 있다.

출처: https://www.dailysecu.com/news/articleView.html?idxno=201206

728x90

저작자표시 비영리 변경금지 (새창열림)

'보안이슈' 카테고리의 다른 글

[보안뉴스][긴급] ‘오라클 EBS’ 사용 기업 보안 경고등! 취약점 악용해 클롭 랜섬웨어 조직 실제 공격중 (0)	2025.10.07
[데일리시큐]해킹연합 ‘스캐터드 랩서스 헌터스’, 세일즈포스 고객 데이터 10억 건 탈취 주장…다크웹 협박전 재개 (0)	2025.10.07
[데일리시큐]’제로데이 클라우드‘, 런던서 첫 개최…오픈소스 클라우드·AI 해킹으로 450만달러(62억) 상금 걸고 열린다 (0)	2025.10.07
[보안뉴스][미리보는 2025 국감-4] 송경희 위원장 앞에 산적한 개인정보보호 과제는? (0)	2025.10.07
[보안뉴스][미리보는 2025 국감-4] 송경희 위원장 앞에 산적한 개인정보보호 과제는? (0)	2025.10.07

내용 요약

핵심 포인트

기술 세부 내용

1️⃣ 가짜 계정 생성 (Account Creation Automation)

2️⃣ 대규모 데이터 스크래핑 (Mass Data Scraping)

3️⃣ 스크래핑 방어 메커니즘 (Defensive Measures)

4️⃣ 법적 및 윤리적 고려사항

5️⃣ 스크래핑 및 가짜 계정 방지 도구 (Defense Tools)

6️⃣ 사례 연구: LinkedIn vs. ProAPIs

7️⃣ 실무 적용: 안전한 데이터 수집 전략

8️⃣ 결론

'보안이슈' 카테고리의 다른 글

티스토리툴바