Sola, D., Warmuth, C., Schäfer, B., Badakhshan, P., Rehse, J. R., & Kampik, T. (2023, March). SAP Signavio Academic Models: A Large Process Model Dataset. In Process Mining Workshops: ICPM 2022 International Workshops, Bozen-Bolzano, Italy, October 23–28, 2022, Revised Selected Papers (pp. 453-465). Cham: Springer Nature Switzerland.
#
[ 1. Introduction ]
- 프로세스 모델은 조직이 운영하는 방식을 나타내며, BPM 생명 주기에 따라 프로세스를 이해하고 분석, 재설계, 자동화하기 위한 기반임
- 대부분의 조직은 프로세스 모델의 large repository를 보유하고 있지만, 일반 연구원들은 이러한 모델에 접근할 수 없음(조직 내부의 민감 정보가 포함될 수 있으므로 대부분 비공개)
- 본 논문의 목적
- SAP-SAM(SAP-Signavio Academic Models)와 model collection(대규모의 프로세스, 비즈니스 모델로 구성된) 제공
- 관련 데이터셋의 기본 개요와 출처, 구조(structure) 제공
- SAP-SAM의 selected properties & use cases 제시
- 작업 방법에 대한 권장 사항 & 데이터셋의 한계 설명
[ 2. Related Datasets ]
- SAP-SAM에 비해 기존 process model collection의 규모는 작은 편
- hdBPMN [21] : 704개의 BPMN 모델 포함
- RePROSory [5] : 700개의 모델 포함
[ 3. Origins and Structure of SAP-SAM ]
- SAP-SAM에는 2011~2021년까지 SaaS(Software-as-a-Service) 플랫폼을 사용해 생성된 1,021,471개의 프로세스 및 비즈니스 모델이 포함됨
- 대부분의 모델은 비즈니스 프로세스 Model과 Notation(BPMN 2.0) 존재
- SAP-SAI(SAP-Sagnavio Academic Institute)를 사용하면 researcher, teacher, student가 비즈니스 프로세스 모델을 생성, 분석, 실행 할 수 있음
- SAP-SAI은 비상업적 연구, 교육에서만 사용할 수 있도록 제한되며 등록 시 자신이 만든 모델을 연구 목적으로 사용할 수 있음에 동의함
- 민감 정보와 관련하여 anonymization script가 실행되어 이메일 주소, 학생 등록 번호와 같은 정보는 후처리됨
- 결과적으로, SAP-SAM 모델은 2011.07~2021.09까지 72,996명의 사용자에 의해 생성됨
BPMN 모델은 BPMN 2.0 standard를 준수하며 개별 모델을 BPMN 2.0 XML로 변환 가능
- 데이터셋에 포함된 모델
- BusinessProcessModelandNotation(BPMN) : BPMN is a standardized nota tion for modeling business processes [15]. SAP-SAM distinguishes between BPMN process models, collaboration models, and choreography models, and among BPMN process models between BPMN 1.1 and BPMN 2.0 models.
- Decision Model and Notation (DMN) : DMN is a standardized notation for modeling business decisions, complementing BPMN [17].
- Case Management Model and Notation (CMMN) : CMMN is an attempt to supplement BPMN and DMN with a notation that focuses on agility and autonomy [16].
- Event-driven Process Chain (EPC) : EPC [22] is a process modeling notation that enjoyed substantial popularity before the advent of BPMN.
- Unified Modeling Language (UML) : UML is a modeling language used to describe software (and other) systems. It is subdivided into class and use case diagrams.
- Value Chain : A value chain is an informal notation for sketching high-level end-to-end processes and process frameworks.
- ArchiMate : ArchiMate is a notation for the integrated modeling of informa tion technology and business perspectives on large organizations [13].
- Organization Chart : Organization charts are tree-like models of organiza tional hierarchies.
- Fundamental Modeling Concepts (FMC) Block Diagram : FMC block dia grams support the modeling of software and IT system architectures.
- (Colored) Petri Net : Petri nets [18] are a popular mathematical modeling language for distributed systems and a crucial preliminary for many formal foundations of BPM. In SAP-SAM, colored Petri nets [12] are considered a separate notation.
- Journey Map : Journey maps model the customer’s perspective on an organi zation’s business processes.
- Yet Another Workflow Language (YAWL) : YAWL is a language for modeling the control flow logic of workflows [26].
- jBPM : jBPM models allowed for the visualization of business process models that could be executed by the jBPM business process execution engine before the BPMN 2.0 XML serialization format existed. However, recent versions of jBPM rely on BPMN 2.0-based models.
- Process Documentation Template : Process documentation templates support the generation of comprehensive PDF-based process documentation reports. These templates are technically a model notation, although they may practi cally be considered a reporting tool instead.
- XForms : XForms is a (dated) standard for modeling form-based graphical user interfaces [2].
- Chen Notation : Chen notation diagrams [3] allow for the creation of entity- relationship models.
[ 4. Properties of SAP-SAM ]
properties를 검증하기 위한 소스 코드(github)
Modeling Notations
→ 서로 다른 notation으로 표현된 모델의 수 & percentage
- 100개 미만의 모델에 사용되는 notation
- Process Documentation Template(86 models)
- jBPM4(76 models)
- XForms(20 models)
- Chen Notation(3 models)
⇒ 주로 사용되는 modeling notation은 BPMN이므로, BPMN 2.0에 초점을 맞춤
- 100개 미만의 모델에 사용되는 notation
Languages
전 세계인이 사용할 수 있으므로 각각 다른 언어를 사용하여 생성됨
→ 절반 이상이 영어로 구성되어있음
Elements
→ BPMN 모델에서 발생하는 다양한 element types
- sequence flow 98.88%
- task 98.11
- start message event 25.42%
- collapsed subprocess 25.23%
- ..
- 30개 이상의 element type은 전체의 1% 미만으로 사용됨
- 하나의 BPMN 모델에는 평균적으로 11.3개의 element type과 46.7개의 element가 사용됨
- type별 element 수
Labels
- BPMN 모델의 모든 element는 모델러에 의해 label이 지정됨(28,293,762개 element에 대해 2,820,531개의 개별 label 생성)
- 첫 번째 bin에는 BPMN 모델의 element에 대해 가장 자주 사용되는 1만개의 label이 포함됨
- 전반적으로 전체 element 중 53.9%가 처음 1만개의 label로 지정되는 것을 알 수 있음(??)
- long-tail distribution은 많은 label이 모든 BPMN 모델에 한 element에만 사용됨을 의미(64.9%의 label이 한 번만 사용됨)
- unevenness of the label usage distribution(라벨 사용 분포의 불균일성)
[ 5. SAP Signavio Academic Model Application ]
- 대규모 프로세스 모델 collection(i.e., SAP-SAM)은 BPM 연구를 위한 가치있고 중요한 자원임
- 이는 비즈니스 프로세스에 대한 조직적 지식과 모델링 실습에 대한 지식(knowledge)을 체계화함
BPM 커뮤니티에 대한 SAP-SAM의 potential value를 설명하기 위해 특히 관련있는 application scenario 설명
- Knowledge Generation
- 프로세스 모델은 비즈니스 프로세스를 묘사하고 조직 운영에 대한 지식을 체계화함
- SAP-SAM은 조직 모델링의 contents & practice에 대한 새로운 insight를 생성하는 지식 기반으로 간주될 수 있음
- Application example
- Reference model mining [20]
- Identifying modeling patterns [10]
- Modeling Assistance
- Process model auto-completion [23]
- Automated abstraction techniques [27]
- Evaluation
- 평가는 조직 내 데이터셋과 비교할 수 있는 데이터셋으로 진행해야 함
- SAP-SAM은 관련 데이터셋보다 훨씬 큰 데이터이므로 실제 데이터에 대한 기존 process management approach 평가에 사용 가능함
- 활용 예시
[ 6. Limitations and Recommendations for Usage ]
- SAP-SAM은 학술 커뮤니티에서 광범위한 process querying/business process analytics use cases를 다루는 tool&algorithm을 테스트하고 평가하는 데 사용 가능하지만 데이터셋의 한계를 고려해야 함
- SAP-SAM은 researcher, teacher, student에 의해 생성된 모델로 구성되어 있으므로 duplicate(copy)가 존재함 -> process querying에서 variant identification & fuzzy matching approach 평가에 사용할 수 있지만 diversity(i.e., the breadth of the dataset)에 부정적인 영향을 미침
- 많은 모델의 기술적 quality가 낮을 수 있음(학습 목적으로 학생 or process modeling beginner가 만든 모델이 포함되므로)
-> 이러한 데이터에서 mistake 또는 antipattern을 분석할 수도 있지만 ML 기반의 generating modeling recommendation에는 적절하지 않을 수 있음 많은 모델이 교육 또는 학습, 시연 목적으로 만들어졌을 가능성이 높음
-> 교육, 학습, 시연 목적으로 생성된 모델은 technical precision & correctness를 강조하는 반면, industry process model은 facilitation of stakeholder alignment와 같은 business goal에 초점을 맞추므로 차이가 있음- 이처럼 본 논문에서 제안하는 데이터셋이 exhaustive하지 않을 수 있음
- 특히, 이러한 한계는 특정 use case 또는 evaluation scenario에 따라 달라지므로 데이터셋 사용자가 이를 식별해야 함
- 대부분의 프로세스 모델은 A-B-C toy examples from exercises와 SAP-SAM 데이터셋을 넘어 연구를 용이하게 하는 방향으로 충분한 relevance & quality를 갖추고 있음
[ 7. Conclusion ]
- SAP-SAM 데이터셋(현재까지 가장 큰 데이터 collection) 제시
- process management professionals가 아닌 researcher, teacher, student로부터 생성된 “academic” 모델임에도 프로세스 모델 쿼리, 분석을 위한 tool & algorithm 개발, 평가에 유용할 것
- Extension
- Business objects/dictionary entries
- Standard-conform XML serializations
- PNG/SVG image representations
Comments powered by Disqus.