데이터 사이언스
Research
데이터 분류
꼬리표(label)가 붙어 있지 않는 데이터들을 어떻게 분류해야지 주어진 데이터에서 가장 많은 정보를 추출할 수 있을까요? 데이터의 분류는 매우 중요하고 범용적인 문제라서 이미 많은 알고리즘들(예: k-means clustering, principle component analysis, random forest)이 개발되어 있습니다. 데이터들을 잘 분류하게 되면 분류된 그룹들 사이의 비슷한 점과 다른 점으로부터 각 그룹의 특징을 엿볼 수 있게 됩니다. 여기서 그룹의 크기에도 그룹의 특징이 숨어 있는데, 만약 모든 그룹의 크기가 같게 분류가 되었다면 이 숨어 있는 특징은 모두 잃게 됩니다. 따라서 좋은 분류를 생각할 때, 우리는 그룹의 크기분포도 염두에 두어야 한다는 것을 최근 깨달았고 관련된 연구를 진행하고 있습니다.
- Cubero RJ, Jo J, Marsili M, Roudi Y and Song J. Statistical criticality arises in most informative representations, Journal of Statistical Mechanics, 6:063402 (2019)
- Song J, Marsili M, and Jo J. Resolution and relevance trade-offs in deep learning, Journal of Statistical Mechanics, 12:123406 (2018)
시계열 데이터의 인과관계 추론
여러 변수들의 시계열 데이터에는 각 변수들이 서로 어떻게 인과론적인 영향을 주고 받는지에 대한 정보가 들어 있습니다. 우리는 최근 통계물리에 기반한 인과관계 추론 알고리즘을 개발했습니다. 뇌파, 주가/환율 등락, 개체수 변화, 인체 움직임, 지구 온난화 지표, 등의 시계열 데이터에서 뇌, 금융, 생태계, 동작, 기후변화 연결망을 추론하는 응용연구를 진행하고 있습니다.
- Hoang DT, Jo J and Periwal V. Data-driven inference of hidden nodes in networks, Phys Rev E, 99:042114 (2019)
- Hoang DT, Song J, Periwal V, and Jo J. Network inference in stochastic systems from neurons to currencies: Improved performance at small sample size, Phys Rev E, 99:023311 (2019)
정보열역학
생명현상은 컴퓨터나 기계의 동작과는 확연히 구별되는 특성이 있습니다. 세포내 분자 수준에서 일어나는 생명현상은 잘 짜여진 닫힌 배선도에서 일어나는 사건이라기 보다는 불확실성으로 가득찬 열린 공간에서 일어나는 사건들입니다. 그럼에도 불구하고 필요하면 놀라운 정확도를 보이는 것이 바로 생명체입니다. 최근 발견된 “열역학적 불확정성의 정리”는 생체회로의 에너지 소모와 동작의 정확도 사이의 거래를 정량화 했습니다. 많은 수리생물학 모형들이 생체회로의 동작들은 잘 기술하고 있지만, 노이즈로 가득찬 열린 공간에서 그 동작들을 수행하기 위해 필요한 에너지 비용까지 고려하고 있지는 않습니다. 동작 수행만 놓고 보면 최적의 시스템일지라도 에너지 소모가 많다면 생명체는 그 시스템을 채택하지 않을 수도 있습니다. 우리는 에너지 소모를 염두에 두고 다양한 생명현상(예: 항상성, 생체리듬, 학습)을 새로 해석해 보려고 합니다.
- Jo J and Ghim CM. “Design” principles of intracelluar biological circuits, 물리학과 첨단기술 10월 (2016)
- Lee S, Hyeon C, and Jo J. Thermodynamic uncertainty relation of interacting oscillators in synchrony, Phys Rev E, 98:032119 (2018)
- Song T and Jo J. Tripartite cell networks for glucose homeostasis, Physical Biology, 16:051001 (2019)
생명정보학
우리의 몸과 정신을 형성하는 재료는 4진 코드로 되어 있는 유전정보입니다. DNA에 들어 있는 이 “디지털” 정보는 약 30억개의 염기쌍으로 코딩이 되어 있고, 한 개의 염기쌍을 표현하는데 2비트(00, 01, 10, 11)면 충분하니, 30억개의 염기쌍은 대충 1GB 정도의 크기를 가진 정보입니다. 우리는 (후성)유전정보의 저장과 전달을 정보이론을 통해 살펴보는 것에 관심을 가지고 있습니다.