초록 |
모델 기반 공정제어 기법은 충분한 제어 성능 확보를 위해서 정확한 공정 모델을 필요로 한다. 하지만 공정 모델이 존재하지 않거나 모델과 실제 공정 사이의 불일치가 발생하는 경우, 모델을 이용한 최적제어를 진행할 수 없다는 한계가 존재한다. 반면에 강화학습 기반의 공정제어는 실제 공정과 상호작용하며 데이터를 기반으로 한 최적제어를 학습하므로 공정 모델이 필요하지 않고, 학습된 에이전트를 유사한 문제에 적용할 수 있다. 본 연구에서는 모델이 필요 없는 강화학습 알고리즘으로 최적제어 법칙에 대한 학습을 진행한 뒤, 전이학습(transfer learning)을 적용하여 유사한 공정을 제어하는 방법을 다룬다. 이를 위해 연속 교반 탱크 반응기(CSTR)로 구성된 공정 시스템에 대해서 최소 비용으로 운전할 수 있도록 온도와 반응물 유량을 조작변수로 설정하여 제어를 진행했다. 강화학습 알고리즘으로는 정책경사법의 일종인 DDPG (Deep Deterministic Policy Gradient)를 적용하여 학습을 진행했다. 결과적으로 기존의 잘 튜닝된 PID 제어와 비교했을 때 충분히 활용 가능한 유사한 성능을 보이는 것을 확인할 수 있었다. |