Integrated Ph.D. | 컴퓨터・정보통신 전공 March 2019 ~ February 2024 |
B.S. | 컴퓨터공학과 March 2015 ~ February 2019 |
Python | |
PyTorch | |
Linux | |
NLP |
클래스 불균형이 존재하는 분류 데이터의 Macro F1-Score의 향상을 목표로 함
저빈도 클래스의 데이터가 부족하고 이에 저빈도 클래스의 성능이 낮은 것을 문제로 정의
저빈도 레이블의 학습량을 늘리기 위해 클래스 샘플 수 기반의 미니배치 샘플링 확률을 정의하는 방법 제안
특정 샘플에 편향되는 것을 막기 위해 스케줄링을 통한 샘플링 선택 전략 고안
Sequencial Sampling 및 Recency Bias 적용 실험과 비교하여 높은 성능을 달성
전문 도메인에 적용된 공개 사전학습 언어모델의 부적절한 토큰 분리 및 미등록단어 문제에 대한 개선을 목표로 함
제한된 학습 데이터 및 학습 시간에 적용할 수 있는 방법 필요
형태소 분석과 Wordpiece Tokenizer를 사용하여 도메인 특화 어휘를 추출
기존 사전학습 언어모델의 Token Embeddings를 확장 및 초기화
2번의 fine-tuning 학습을 통해 추가된 도메인 확장 어휘를 적응시키는 방법 제안
분류 클래스가 시간에 따라 변경되는 다운스트림 태스크에서 재학습하지 않고 수정된 클래스에 대응하는 것을 목표로 함
HuggingFace 클래스를 기반으로 REALM 구조로 모델 구현
분류 태스크에서의 외부 지식 형태를 정의하고 BERT 기반의 외부 지식 검색기 구현
Zero-shot 생성 성능이 안정적인 SKT의 ko-gpt-trinity-1.2B-v0.5를 통해 검색된 외부 지식 정보에 의존한 클래스 생성
새로운 클래스에 대한 외부 지식이 추가되었을 때 바로 예측 결과에 반영될 수 있음을 확인
Science & Technology NER | paper |
---|
PLM의 활용성 검증을 위해 과학기술 도메인의 한국어 상세개체 태깅 클래스 정의 및 데이터 구축 필요
"보건의료" 분야의 데이터를 구축하기 위해 "MeSH" 의학용어 분류집의 RDF 파일 분석 및 영어 용어 자동 번역
문자열 매칭으로 자동 태깅 후 7명의 외부 작업자들을 통해 수작업 정제 수행
3만 문장의 상세개체 태깅 데이터 구축 및 문자열 검색 기반 태깅 결과 Macro-F1 71.84를 달성함을 확인
Keyword-to-Text for Supporting Facts | paper |
---|
정형화된 지식베이스를 참고하여 질문에 대한 답변과 근거 문장을 제공하는 것을 목표로 함
Wikidata와 DBpedia의 RDF 파일 분석 및 추가 데이터 크롤링
T5와 BART 모델에 Pointer-Generator Network를 추가 구현
질문과 관련된 n-triple을 입력으로 근거문장을 생성하고 생성된 근거문장과 질문을 입력으로 정답을 생성하는 모델 학습
2023.04. ~ 2023.10. | 과학기술 논문 조사 분석을 위한 딥러닝 기반 논문 패싯 추출 기술 연구 |
2022.04. ~ 2023.12. | 보이스피싱 정보 수집・가공 및 빅데이터 기반 수사지원시스템 개발 |
2022.04. ~ 2022.10. | 과학기술분야 사전학습 언어모델 고도화 및 어휘확장 기술 연구 |
2021.04. ~ 2022.12. | 비정형 텍스트를 학습하여 쟁점 별 사실과 논리적 근거 추론이 가능한 인공지능 원천기술 |
2021.04. ~ 2021.11. | 위험 상황 초기 인지를 위한 ICT 기반의 범죄 위험도 예측 및 대응 기술 개발 |
2021.04. ~ 2021.11. | 과학기술 논문 조사 분석을 위한 딥러닝 기술 적용 연구 |
2020.04. ~ 2020.10. | Data skewness에 강건한 분류 및 예측 기술 선행 연구 |
2020.03. ~ 2020.09. | 딥러닝 기반 이슈 요약 생성 기술 개발 |
2019.04. ~ 2020.12. | 마취분야용 의료 딥러닝을 활용한 인공지능 및 인터랙티브 OCS KIOSK 시스템 개발 |
2018.06. ~ 2018.11. | 시계열 데이터 기반 위험도 추론 및 유사 범죄 예측 기술 선행 연구 |
2017.01. ~ 2017.12. | IOT 융합기반 청정지역 1차 산업 생산관리 SW 고도화 기술 개 |
차정원, 성수진, 10-2498719, “의료 처치방안 추천 시스템”, 2023.02.
차정원, 성수진, 10-2458360, “불균형 데이터에 대한 딥러닝 분류 모델 성능을 향상시키기 위한 레이블 기반 샘플 추출 장치 및 그 방법”, 2022.10.
차정원, 성수진, 10-2022-0008262, “딥러닝 학습 기법을 이용하는 유사도 기반 클러스터링 장치 및 그 방법”, 2022.01.
차정원, 성수진, 10-2020-0126977, “문서 요약 장치 및 방법”, 2020.09.
성수진, 차정원. “질의응답에 대한 지식베이스 기반 근거 문장 생성 모델.” 정보과학회논문지 50, no. 11 (2023): 940-946, 10.5626/JOK.2023.50.11.940
성수진, 차정원. “외부 지식 검색기 기반 퓨샷 토픽 분류 모델.” 한국정보과학회 학술발표논문집 (2023): 340-342.
오채민, 성수진, 이승우, 차정원. “상세개체 태깅에 대한 과학기술 분야 사전학습 언어모델 활용성 검증.” 한국정보과학회 학술발표논문집 (2023): 414-416.
Seong, Sujin, and Jeongwon Cha. 2023. “Domain Word Extension Using Curriculum Learning” Sensors 23, no. 6: 3064. https://doi.org/10.3390/s23063064
성수진,차정원,“분류 체계 자동 생성 지원을 위한 용어 벡터 생성 방법 탐색”,제34회 한글 및 한국어 정보처리 학술대회 논문집 (2022): 600-603
성수진, 차정원. "지식베이스 기반 근거 문장을 제공하는 질의응답 모델." 한국정보과학회 학술발표논문집 (2022): 389-391.
성수진, 김성찬, 이승우, 차정원, “문맥 정보를 이용한 논문 문장 수사학적 분류”, 제 33 회 한글 및 한국어 정보처리 학술대회 논문집 (2021): 316-319.
성수진, 박원주, 이용태, 차정원, “불균형 범주 분류를 위한 동적 샘플링 스케줄러”, 제 33 회 한글 및 한국어 정보처리 학술대회 논문집 (2021): 221-226.
성수진, 차정원. “단어 손실함수와 반복 페널티를 추가한 트랜스포머 인코더-디코더 제목 생성 모델.” 정보과학회 컴퓨팅의 실제 논문지 27, no. 4 (2021): 210-215, 10.5626/KTCP.2021.27.4.210
성수진, 차정원. “리워드를 이용한 설명 가능 마취용 처치 추천 딥뉴럴 네트워크.” 한국정보과학회 학술발표논문집 (2020): 448-450.
성수진, 권수범, 윤지욱, 오진영, 차정원. “마취용 처치 추천을 위한 설명 가능한 딥뉴럴 네트워크.” 정보과학회 컴퓨팅의 실제 논문지 26, no. 12 (2020): 550-555, 10.5626/KTCP.2020.26.12.550
성수진, 이승우, 차정원. “단어 손실함수를 추가한 트랜스포머 인코더-디코더 기반의 제목 생성 모델.” 한국정보과학회 학술발표논문집 (2020): 416-418.
성수진, 귄수범, 윤지욱, 오진영, 차정원. “마취용 처치 추천을 위한 설명 가능한 딥뉴럴 네트워크.” 한국정보과학회 학술발표논문집 (2019): 536-538.
성수진, 차정원, “깊이에 따른 중간 단계 분류기 내부 학습 경향 분석 및 고찰”, 제 31 회 한글 및 한국어 정보처리 학술대회 논문집 (2019): 115-119.
성수진, 방준성, 차정원. “합성곱 신경망 구조를 이용한 문서 범주 관련 키워드 추출.” 한국정보과학회 학술발표논문집 (2019): 599-601.
성수진, 박성재, 정인규, 차정원, “Multi-Task Learning 에서 공유 공간과 성능과의 관계 탐구”, 제 30 회 한글 및 한국어 정보처리 학술대회 논문집 (2018): 305-309.
성수진, 신창욱, 박성재, 차정원, “CNN Sequence-to-Sequence 를 이용한 대화 시스템 생성”, 제 30 회 한글 및 한국어 정보처리 학술대회 논문집 (2018): 151-154.
Su-Jin Seong, Seong-Jae Park, Tae-Ho Park, Chang-Uk Shin, Da-Sol Park, Jeong-Moo Kim, Jeong-Won Cha. “Epidemic Respiratory Disease Prediction Using Ensemble Method.” INTERNATIONAL CONFERENCE ON FUTURE INFORMATION & COMMUNICATION ENGINEERING 10, no. 1 (2018): 253-256.
성수진, 박성재, 차정원. “일별 굴 생산량의 예측 가능성에 관한 연구.” 한국정보과학회 학술발표논문집 (2017): 904-906.