Score-Based Methods Overview · Tae Hyun Kim (Lowell)

Overview

Score-based methods assign a score function to each graph and search for the graph that best fits the data. Unlike constraint-based methods, they optimize model fit without CI tests.

Score-Based Methods Overview

Mermaid source (click to expand)

> flowchart LR
>     Data[Data] --> Score[Score Function]
>     Score --> Search[Search Algorithm]
>     Search --> Best[Best Graph/MEC]
>

Core Idea

Optimization problem: $\mathcal{G}^* = \arg\max_{\mathcal{G} \in \text{DAGs}} S(\mathcal{G}; D)$

$S$ : Score function (BIC, BGe, etc.)
$D$ : Data
Search over MECs for efficiency

Comparison of Main Algorithms

Algorithm	Search Strategy	Complexity	Feature
GES	Greedy	$O(n^4)$	Forward-backward phases
FGES	Parallel Greedy	Fast	Parallelized GES
Hill-climbing	Local search	$O(n^2)$	Simple but local optima
NOTEARS	Continuous opt	$O(n^3)$	Acyclicity constraint

Score Functions

BIC (Bayesian Information Criterion)

$S_{\text{BIC}}(\mathcal{G}; D) = \log P(D | \hat{\theta}, \mathcal{G}) - \frac{k}{2}\log n$

$k$ : Number of parameters
$n$ : Sample size
Penalizes complexity

BGe (Bayesian Gaussian equivalent)

$S_{\text{BGe}}(\mathcal{G}; D) = \log P(D | \mathcal{G})$

Marginal likelihood with Gaussian assumption:

Uses conjugate priors
Closed-form computation

BDeu (Bayesian Dirichlet equivalent uniform)

$S_{\text{BDeu}}(\mathcal{G}; D) = \sum_{i} \sum_{j} \left[ \log\frac{\Gamma(\alpha_{ij})}{\Gamma(\alpha_{ij} + n_{ij})} + \sum_k \log\frac{\Gamma(\alpha_{ijk} + n_{ijk})}{\Gamma(\alpha_{ijk})} \right]$

Score for discrete data

Score Equivalence

Definition: The score is constant within a MEC

$\mathcal{G}_1 \equiv \mathcal{G}_2 \implies S(\mathcal{G}_1; D) = S(\mathcal{G}_2; D)$

Implication:

Does not distinguish DAGs within a MEC
Can directly search over CPDAGs

Advantages and Disadvantages

Advantages

No Faithfulness Required
- Weaker assumption than constraint-based methods
- Can work even under unfaithful distributions
Principled Model Selection
- Bayesian framework
- Automatic complexity control (BIC penalty)
Global Optimization
- Global fit rather than local CI decisions

Disadvantages

NP-hard Problem
- DAG space is super-exponential
- Greedy search → local optima
Score Function Choice
- Results depend on the score
- Misspecification issues
Computational Cost
- Slow in high dimensions
- → Mitigated by FGES

Constraint vs Score Comparison

Aspect	Constraint-Based	Score-Based
Core operation	CI tests	Score optimization
Assumption	Faithfulness	Score decomposability
Local vs Global	Local decisions	Global fit
Noise sensitivity	High (CI test errors)	Moderate
Computation	Many CI tests	Score evaluations