기타

[사설] AI에 적합한 요소: 비행 테스트 세계에서 얻은 안전 교훈

폴라리스 4달 전 47

출처	https://breakingdefense.com/2023/12/the-...t-testing/

정책 제안으로 가득 찬 바이든 대통령의 행정명령부터 개발 속도 문제로 CEO를 해고하려는 OpenAI 이사회에 이르기까지, AI 안전은 점점 더 많은 의사결정권자의 관심사가 되고 있다. 하지만 정부 기관과 민간 기업이 너무 늦기 전에 인공 지능을 엄격한 안전 테스트를 거치는 방법은 무엇일까? 기술의 세부 사항은 매우 다르지만, 전 공군 비행 테스트 엔지니어이자 현재 우주군 장교인 마이클 오코너는 이 기고문에서 길고 종종 치명적이었던 비행 테스트의 역사에서 배워야 할 중요한 교훈이 있다고 주장한다.

'가짜 뉴스'에서 인류 멸종에 이르기까지, 잘못된 AI로 인한 잠재적 피해는 일상적인 것부터 실존적인 것까지 다양하다. 정부, 기업, 단체, 개인은 입법, 규제, 기업 모범 사례를 통해 이러한 위험을 해결하기 위해 고군분투하고 있다. 일부는 항공기에서 교훈을 얻어 항공기의 아차사고와 실제 추락 사고를 문서화하고 면밀히 조사하는 것과 같은 방식으로 사고 데이터베이스를 구축하기도 한다. 현대의 '신경망' 인공 지능의 예측 불가능하고 불투명한 특성이 비행 제어 시스템의 보다 결정론적인 논리에 깔끔하게 매핑되지는 않지만, 이 두 가지 모두 최첨단 기술을 안전하게 탐색하려는 인간의 시도다.

따라서 지난 120년 동안 군 비행 테스트 업계가 라이트 형제와 '라이트 스터프' 전투기 조종사의 위험한 초창기부터 현대의 과학적 안전 관행에 이르기까지 어떻게 위험을 완화해왔는지 살펴볼 가치가 있다. 세 가지 중요한 교훈을 배워야 한다:

- 기술만 고려하는 것이 아니라 인간 작업자를 고려한 설계 표준을 수립합니다;
- 이상적인 조건이 아닌 현실적인 과제를 수행하면서 시스템을 테스트한다.
- 안전한 성능의 '범위'를 체계적으로 확장해야 합니다.

비행기와 조종사를 위한 기준

1903년 12월 17일 최초의 라이트 플라이어가 이륙하기 전에도 항공기의 안정성과 조종사의 조종 능력에 대한 연구는 수년 동안 진행되어 왔다. 비행 테스트 분야가 발전함에 따라 많은 교훈이 체계화되고 문서화되었으며, 미 국방부는 최종적으로 MIL-STD-1797을 발표했다: 조종 항공기의 비행 품질. (FAA 규정에도 유사한 요구 사항이 있다). 이 표준은 다양한 항공기 유형에 대한 적절한 제어 감도부터 전체 비행기의 비행 안정성까지 항공기가 어떻게 작동해야 하는지에 대한 정량화된 권장 사항을 제공했다. 중요한 점은 이 표준이 항공기 자체의 동작뿐만 아니라 사람이 제어 루프에 진입했을 때의 항공기 성능도 명시했다는 것이다.

마찬가지로, 연구자와 개발자가 AI가 어떻게 실패할 수 있는지 배우면서 이러한 교훈을 전체 AI 커뮤니티와 널리 공유하면 위험을 줄일 수 있으며, 결국 정량화 가능한 성능 표준으로 발전하여 상업용 AI의 기준을 설정할 수 있다. (항공 표준은 정부 기관에서 유지 관리하지만, 민관 컨소시엄과 같은 다른 조직에서 AI 표준을 관리할 수도 있다).

이러한 표준은 기술과 함께 진화해야 하며 AI의 다양한 응용 분야에 맞게 조정되어야 한다. 생사를 결정하는 군사 또는 의료용 AI는 저녁 식사를 위한 최고의 레시피를 고르는 AI와는 다른 수준의 조사를 받아야 한다. 가장 중요한 것은 모든 표준은 설계 시 인적 요소, 특히 인간의 편견과 사각지대가 AI의 학습 데이터에 어떤 영향을 미치고 더 넓은 세상에서 어떻게 활용될 수 있는지 고려해야 한다는 것이다.

시스템 테스트

시스템 테스트는 대담한 테스트 파일럿이 항공기의 물리적 한계를 뛰어넘는 영화 '더 라이트 스터프'로 유명해진 할리우드 버전의 항공은 아니지만, 일상적인 테스트 및 평가(T&E)의 대부분을 차지한다. 시스템이 사용하기에 안전한지, 의도한 대로 작동하는지 확인하는 것이 핵심이다.

이는 복잡하게 상호 작용하는 모든 전자 장치를 갖춘 최신 항공기의 경우 충분히 복잡한 문제다. 인공지능의 모든 가능한 용도와 잠재적인 오용 방법을 테스트하고 평가하는 것은 사실상 무한한 작업이다. 하지만 세상을 복잡한 시스템 시스템으로 생각하고 복잡한 시스템을 복잡한 현실 세계에서 테스트하는 것은 여전히 가능하며 필수적이다. 테스트는 AI 시스템을 구축하는 데 사용되는 초기 학습 데이터부터 배포, 사용 및 수정 방법에 이르기까지 AI 시스템 간의 상호 작용을 다루어야 한다.

시스템 테스트를 통해 시스템이 계획대로 작동한다는 것이 확인되면 시스템의 한계를 조심스럽게 확장하는 것도 중요하다! 이를 엔지니어들은 "한계 확장"이라고 부른다.

모든 항공기에는 그 안에서 작동하도록 설계된 성능 한계가 있다. 너무 빨리 가면 압력으로 인해 구조적 고장이 발생할 수 있고, 너무 높이 올라가면 공기가 너무 얇아져 비행이 불가능하며, 너무 느리면 실속하게 된다. 이러한 한계는 설계자의 요구 사항과 이러한 요구 사항을 충족하기 위해 고려해야 하는 절충안에 의해 정의된다.

엔벨로프 테스트는 가장자리에서 시작하지 않는다. 대신 테스터는 설계와 모델링에 가장 확신을 가질 수 있는 조건에서 '엔벨로프 중심부'에서 시작한다. 따라서 저속 및 고속 택시 테스트 후 항공기의 첫 비행은 이륙, 착륙 패턴 주변을 잠깐 비행한 후 착륙하는 경우가 많다. 이 초기 발판에서 테스터는 설계의 한계에서 안전한 성능을 보여줄 때까지 더욱 까다로운 조건에서 항공기 동작을 특성화하는 '엔벨로프 확장'을 단계별로 신중하게 수행한다. (시스템이 특정 한계로 설계되었다고 해서 테스터가 그 한계에 머무르는 것은 아니다. 특정 제트 전투기가 마하 2까지 갈 수 있다고 해서 드문 작전상의 필요를 제외하고는 그렇게 해야 한다는 의미는 아니다). 엔벨로프 테스트의 결과는 일반 운영자가 수행해야 하는 작업에 운영상의 제한을 두는 데 사용된다.

이제 AI의 '성능 한계선'은 항공기보다 더 복잡하고 다차원적일 수 있으며, 끊임없이 학습하고 스스로 수정하는 AI는 계속 변화하는 한계선을 가질 수 있다. AI는 예측 불가능하고 비결정적일 수 있으며, 동일한 입력이 불투명한 이유로 다른 결과를 초래할 수 있어 '허용 가능한 성능'의 경계 내에서도 원치 않는 행동을 유발할 수 있다. 이를 위해서는 정확도 및 신뢰도와 같은 성능 특성이 운영 상황에 따라 어떻게 변할 수 있는지에 대한 정보를 제공해야 할 수 있다.

AI의 잠재적 구성과 상태는 적어도 현재로서는 가장 복잡한 항공기보다 훨씬 더 정확하게 파악하고 분석하기가 어렵기 때문에 쉽지 않을 것이다. 이러한 어려움이 AI의 본질적인 특성 때문인지, 알고리즘의 성능을 측정할 수 있는 적절한 도구가 부족하기 때문인지, 아니면 단순히 AI가 항공 테스트에서 쌓을 수 있는 수십 년의 경험을 아직 축적하지 못했기 때문인지는 아직 알 수 없다. 의학처럼 복잡한 다른 분야에서도 많은 노력과 투자, 테스트를 통해 인체처럼 복잡하고 다양한 변수를 가진 시스템에 대한 인사이트를 얻을 수 있었다는 점은 낙관적인 근거가 될 수 있다. 시스템의 복잡성이 이해를 가로막는 난공불락의 장벽은 아니다.

물론 항공기와 AI를 비교하는 데에는 분명히 주의해야 할 점이 있다. 특히 불완전한 소프트웨어는 결함이 있는 물리적 프로토타입보다 훨씬 빠르게 수정하거나 업그레이드할 수 있고, (지금까지는) 실패로 인해 사람이 죽는 경우는 거의 없기 때문에 실리콘밸리 스타트업과 심지어 주요 IT 기업의 문화는 항공기 비행 안전 테스터보다 "빨리 움직여 물건을 부수는" 위험에 훨씬 더 관대하다. 그러나 AI가 차량에 도입되고 차량의 자율성이 높아지면 이 경계가 모호해지기 때문에 두 문화는 안전한 공통점을 찾아야 한다.

이러한 주의 사항에도 불구하고 규제 기관과 개발자는 다른 커뮤니티에서 기술 개발 시 발생하는 다른 위험 문제를 어떻게 해결했는지 이해하는 것이 좋다. 여기에는 여러 영역에 적용될 수 있는 최상위 수준의 교훈이 포함된다:

1. 테스트. AI든 항공 우주든 시스템의 작동 방식을 배우는 근본적인 방법은 테스트하는 것이다.

2. 인간을 고려하라. 엄격하고 형식적인 표준이 AI보다 항공기에 더 적합할 수 있지만, 사용 사례에 따라 한계가 달라진다. 어떤 경우든 사람이 시스템과 상호작용하는 방식을 고려하는 것은 필수이며, 표준을 수립하는 것이 바람직할 수 있다.

3. 복잡성. 새로운 시스템을 도입할 때 모든 순열과 사용 사례를 예측할 수는 없지만, 인지적 테스트를 통해 위험을 완화할 수 있다. 마찬가지로 중요한 것은 기술과 환경이 진화함에 따라 지속적인 테스트다. 이러한 테스트는 성능 최적화에만 국한되지 않고 운영 환경의 변화에 따라 성능이 어떻게 변화하는지 이해하는 데 중점을 둔다.

4. 엔벨로프 정의. 엔벨로프에는 AI를 사용할 수 있는 환경과 AI가 허용할 수 있는 행동의 한계를 설정해야 한다. 여기에는 이러한 환경과 행동을 시행하기 위해 소프트웨어에 내장된 제어 및 제한 장치가 포함될 수 있으며, 최소한 이를 위반할 경우 운영자에게 경고를 보낼 수 있다. 최소한 바람직하지 않은 행동을 완화하기 위한 인간 시스템, 프로세스 및 절차를 마련할 수 있다. AI가 학습하고 적응함에 따라 AI와 인간의 한계, 가정도 정기적으로 테스트해야 한다. AI가 변화하는 것처럼 운영 환경도 변화할 수 있으며, 허용 가능한 행동의 범위도 변화할 수 있다. 그리고 중요한 것은 어떤 한계가 대부분의 경우 사람들을 안전하게 지켜준다고 해서 항상 그럴 것이라는 의미는 아니라는 점이다.

모든 신기술이 그렇듯이 역사적으로도 비슷한 점이 있다. 모든 교훈이 정확히 적용되지는 않겠지만, 군용 비행 테스트에서 어렵게 얻은 지식과 사고방식은 미래의 AI 시스템 사용자에게 도움이 될 수 있다.

마이클 오코너는 조지타운 대학교 보안 및 신흥 기술 센터(CSET)의 미국 우주군 펠로우다. CSET에 합류하기 전에는 캘리포니아주 로스앤젤레스 공군 기지에서 우주 프로그램 테스트 책임자로 근무했다. 이전에는 캘리포니아 에드워즈 공군 기지의 공군 테스트 센터에서 원격 조종 항공기 테스트를 지원하는 평가자 비행 테스트 엔지니어로 근무했다. 이 글에 표현된 견해는 저자의 의견이며 공군, 국방부 또는 미국 정부의 공식 정책이나 입장을 반드시 반영하는 것은 아니다.

번호	분류	제목	글쓴이	날짜	추천	조회
공지		2023년 하반기 개편 안내 (레벨 시스템 추가) 9	Mi_Dork	23.07.13.09:07	+1	4338
공지		밀리돔 후원 요청 (2023-06-23) 28	운영자	14.01.24.20:42	+13	39188
3415	기타	normal 그리스, 구형 무기를 우크라이나에 지원하기로	폴라리스	24.01.29.19:07	0	102
3414	기타	normal 미 의회는 이스라엘에 대한 특별 원조 도구는 대만의 사용... 1	폴라리스	24.01.27.15:00	0	189
3413	기타	normal 미국과 유럽 해군 참모총장들이 첨단 기술 대화 중에 인력 ...	폴라리스	24.01.27.14:58	0	65
3412	기타	normal 이스라엘 국방부 고위 관리, '첨단 플랫폼과 능력&#03...	폴라리스	24.01.27.14:58	0	74
3411	기타	normal 중국, UAE 무인기술 전시회에서 기술력 선보여	폴라리스	24.01.27.14:57	0	122
3410	기타	normal KNDS와 Junghans Defence, 나토 계약 받아 유럽 포탄 재고 ...	폴라리스	24.01.27.14:57	0	69
3409	기타	normal 미 방위산업체들이 고정가격 거래에 대해 점점 더 신경을 ...	폴라리스	24.01.26.17:25	0	132
3408	기타	normal 미 DISA, 곧 기관용 AI '컨시어지' 시제품 제작	폴라리스	24.01.26.17:23	0	46
3407	기타	normal 미군 관계자들은 레이저 무기에 대한 인내심을 요구하고 있...	폴라리스	24.01.26.17:22	0	72
3406	기타	normal 영국 정보기관, 러시아내 공동체 위기와 우크라이나 전쟁 ...	폴라리스	24.01.26.17:19	0	64
3405	기타	normal 튀르키예, 네가지 외국제 무기를 자국산으로 교체하기 위한...	폴라리스	24.01.25.15:36	0	246
3404	기타	normal 미 국방부의 초기 JADC2 목표가 예산 분쟁으로 위험에 빠져	폴라리스	24.01.25.15:34	0	50
3403	기타	normal 미국 업계, 지향성 에너지 무기는 국방부의 전폭적인 지지...	폴라리스	24.01.24.18:07	0	100
3402	기타	normal 스웨덴의 나토 가입이 튀르키예 의회의 찬성으로 주요 장애...	폴라리스	24.01.24.18:05	0	66
3401	기타	normal LIG넥스원, UAE 로봇/무인 전문전시회 ‘UMEX 2024’ 참가	폴라리스	24.01.23.15:55	0	131
3400	기타	normal [사설] 중국군의 부패는 미국인들의 무사안일에 대한 변명... 1	폴라리스	24.01.23.15:54	0	221
3399	기타	normal 미 국방부는 AI가 탑재된 미래형 군집드론과 함정을 이미 ...	폴라리스	24.01.23.15:54	0	66
3398	기타	normal 가자 분쟁은 이스라엘의 새로운 첨단 다영역 부대의 시험장...	폴라리스	24.01.23.15:53	0	59
3397	기타	normal 민간 사모펀드가 18억 달러에 항공기 제작업체 카만 인수	폴라리스	24.01.22.12:17	0	78
3396	기타	normal 투자자들, 우크라이나에서 '전쟁에서 승리할' 기...	폴라리스	24.01.22.12:16	0	89

나의 메뉴

[사설] AI에 적합한 요소: 비행 테스트 세계에서 얻은 안전 교훈

폴라리스

10Lv. max
최고 레벨

나의 메뉴 편집

추가할 메뉴 선택

폴라리스 10Lv. max 최고 레벨

신고

댓글 삭제

검색

로그인

폴라리스

10Lv. max
최고 레벨