조항

4.7: 데이터에 지수 모델 맞추기

4.7: 데이터에 지수 모델 맞추기



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

이전 섹션에서 우리는 로그 스케일을 사용하는 숫자 라인을 보았습니다. 로그 스케일을 사용하여 축이 하나 또는 둘 모두 있는 2차원 그래프를 보는 것도 일반적입니다.

수직 축에서 로그 스케일을 사용하는 일반적인 용도 중 하나는 지수적으로 변화하는 양을 그래프로 표시하는 것입니다. 이는 상대적인 차이를 드러내는 데 도움이 되기 때문입니다. 아래 두 주식 차트는 1928년부터 2010년까지의 다우존스 산업 평균을 보여줍니다.

두 차트 모두 선형 수평 척도를 갖지만 첫 번째 그래프에는 선형 수직 척도가 있고 두 번째 그래프에는 대수 수직 척도가 있습니다. 첫 번째 척도는 우리에게 더 친숙한 척도이며, 적어도 2000년까지 기하급수적으로 강한 경향을 보이는 것을 보여줍니다.

예 (PageIndex{1})

1929년과 2008년에 주식 시장이 하락했습니다. 어느 것이 더 컸습니까?

해결책

첫 번째 그래프에서 2008년경 주식시장의 하락폭은 매우 크게 나타나며, 달러 가치로 볼 때 실로 큰 하락폭이었다. 그러나 두 번째 그래프는 상대적인 변화를 보여주며 2009년의 하락은 이 그래프에서 덜 중요해 보이며 실제로 1929년부터 시작된 하락은 백분율로 보면 훨씬 더 중요합니다.

구체적으로 2008년 다우지수는 약 14,000에서 8,000으로 6,000 하락했다. 이것은 분명히 큰 가치 하락이며 약 43% 하락에 해당합니다. 1929년에 다우 값은 1932년 7월까지 약 380의 고점에서 저점 42로 떨어졌습니다. 가치 측면에서 이 338의 하락은 2008년 하락보다 훨씬 작지만 89% 하락에 해당합니다. 로그 척도는 이러한 상대적 변화를 보여줍니다.

한 축은 선형 눈금을 사용하고 다른 축은 로그 눈금을 사용하는 위의 두 번째 그래프는 세미 로그 그래프.

정의: 세미 로그 및 로그 로그 그래프

NS 세미 로그 그래프는 선형 눈금을 사용하는 축과 로그 눈금을 사용하는 축이 있는 그래프입니다.

NS 로그 로그 그래프는 로그 스케일을 사용하는 두 축이 있는 그래프입니다.

예 (PageIndex{2})

세로축에 대수 눈금을 사용하여 세미 로그 그래프의 (f(x)=3(2)^{x}) 그래프에 5개의 점을 플로팅합니다.

해결책

이렇게 하려면 그래프에서 5개의 점을 찾은 다음 출력 값의 로그를 계산해야 합니다. 5개의 입력 값을 임의로 선택하고,

(NS)(f(x))로그((f(x)))
-3(3(2)^{-1} = dfrac{3}{8})-0.426
-1(3(2)^{-1} = dfrac{3}{2})0.176
0(3(2)^{0} = 3)0.477
2(3(2)^{2} = 12)1.079
5(3(2)^{5} = 96)1.982

이 값을 세미 로그 그래프에 플롯하면

이 반 로그 척도에서 지수 함수의 값은 선형으로 나타납니다. 로그 속성을 활용하여 이 동작이 예상된다는 것을 보여줄 수 있습니다. (f(x)=ab^{x}) 함수의 경우 log((f(x)))를 찾으면

[log left(f(x) ight)=log left(ab^{x} ight) onumber] 로그의 sum 속성을 활용하면,
[log left(f(x) ight)=log left(a ight)+log left(b^{x} ight) onumber] 이제 지수 속성을 활용하면,
[log left(f(x) ight)=log left(a ight)+xlog left(b ight) onumber]

이 관계는 선형이며 log(NS) 수직 절편으로, log(NS) 기울기로. 이 관계는 역으로도 활용될 수 있습니다.

예 (PageIndex{3})

지수 그래프는 세미 로그 축에 그려집니다. 이 그래프를 생성한 지수 함수 (g(x))에 대한 공식을 찾으십시오.

해결책

그래프는 (0, 1)에서 수직 절편이 있는 선형입니다. 점 (0, 1)과 (4, 4) 사이의 변화를 보면 선의 기울기가 (dfrac{3}{4})임을 확인할 수 있습니다. 출력은 log((g(x)))이므로 방정식 (log left(g(x) ight)=1+dfrac{3}{4} x)가 됩니다.

지수 형식으로 다시 작성하고 단순화하여 (g(x))에 대한 이 공식을 풀 수 있습니다.

[log left(g(x) ight)=1+dfrac{3}{4} x onumber] 지수로 다시 쓰기,
[g(x)=10^{1+dfrac{3}{4} x} onumber] 지수 규칙을 사용하여 이것을 나누면,
[g(x)=10^{1} cdot 10^{dfrac{3}{4} x} onumber] 지수 규칙을 사용하여 두 번째 요소를 그룹화하면,
[g(x)=10^{1} cdot left(10^{dfrac{3}{4} } ight)^{x} onumber] 10의 거듭제곱 계산,
[g(x)=10left(5.623 ight)^{x} onumber]

운동 (PageIndex{1})

지수 그래프는 아래 세미 로그 그래프에 표시됩니다. 이 그래프를 생성한 지수 함수 (g(x))에 대한 공식을 찾으십시오.

답변

[g(x) = 10^{2 - 0.5x} = 10^2 (10^{-0.5})^{x},quad f(x) = 100 (0.3162)^x onumber]

지수 함수 피팅하기 데이터

일부 기술 옵션은 데이터에 맞는 지수 함수를 찾기 위한 전용 함수를 제공하지만 대부분은 선형 함수를 데이터에 맞추기 위한 함수만 제공합니다. 세미 로그 스케일은 선형 함수를 데이터에 맞추는 기술을 기반으로 데이터에 지수 함수를 맞추는 방법을 제공합니다.

선형화를 사용하여 데이터 세트에 지수 함수를 맞추기 위해

  1. 데이터 출력 값의 로그 찾기
  2. (입력, 로그(출력)) 쌍에 맞는 선형 방정식을 찾습니다. 이 방정식은 log((f(x))) = (b + mx) 형식이 됩니다.
  3. 지수 함수 (f(x))에 대해 이 방정식을 풉니다.

예 (PageIndex{4})

아래 표는 1980년부터 2004년까지 컴퓨터 하드 드라이브의 저장 공간 메가바이트당 비용을 표시하고 데이터는 1980년 이후 연도로 변경된 입력으로 오른쪽의 표준 그래프에 표시됩니다.

이 데이터는 기하급수적으로 감소하는 것으로 보입니다. 이 붕괴를 모델링하는 함수를 찾으려면 비용 로그를 찾는 것부터 시작합니다.

해결책

예상대로 비용 로그의 그래프는 상당히 선형으로 나타나며 지수 함수가 원래 데이터에 적합할 것임을 시사하며 합리적으로 적합합니다. 기술을 사용하여 로그(비용) 값에 맞는 선형 방정식을 찾을 수 있습니다. 1980년 이후의 연도로 (t)를 사용하여 선형 회귀는 다음 방정식을 제공합니다.

[로그 (C(t))=2.794-0.231t번호]

(C(t)) 풀기,

[C(t)=10^{2.794-0.231t}번호]
[C(t)=10^{2.794} cdot 10^{-0.231t} onumber]
[C(t)=10^{2.794} cdot left(10^{-0.231} ight)^{t} onumber]
[C(t)=622cdot left(0.5877 ight)^{t} onumber]

이 방정식은 컴퓨터 하드 드라이브에 저장하는 메가바이트당 비용이 매년 약 41%씩 감소하고 있음을 나타냅니다.

이 기능을 사용하여 향후 스토리지 비용을 예측할 수 있습니다. 2020년의 비용 예측((t = 40)):

(C(40) =622left(0.5877 ight)^{40} 약 0.000000364) 메가바이트당 달러, 정말 적은 수입니다. 이는 하드 드라이브 스토리지의 테라바이트당 $0.36에 해당합니다.

이 모델에서 예측한 값을 실제 데이터와 비교하면 모델이 원본 데이터와 크기 순서대로 일치하지만 특정 값은 상당히 다르게 나타납니다. 불행히도 이것은 데이터를 맞출 수 있는 최고의 지수 모델입니다. 비지수 모델이 데이터에 더 잘 맞을 수도 있고, 데이터에 비교적 단순한 모델이 더 이상 데이터에 더 잘 맞지 않을 만큼 데이터에 충분히 넓은 가변성이 있을 수도 있습니다.

년도MB당 실제 비용모델별 예상 비용
1980192.31622.3
198487.8674.3
198815.988.9
199241.1
19960.1730.13
20000.0068490.015
20040.0011490.0018

운동 (PageIndex{2})

아래 표는 2000년 이후 (t)년 이후의 중국으로부터의 미국 수입액의 가치 (V)(십억 달러)를 보여줍니다.

년도200020012002200320042005
(NS)012345
(V)100102.3125.2152.4196

이 데이터는 기하급수적으로 증가하는 것으로 보입니다. 이 데이터를 선형화하고 2011년에 수입이 수십억 달러로 예상되는 모델을 구축하십시오.

답변

(V(t) = 90.545 (1.2078)^t). 2011년에는 (V(11) = 7,224억 5,000만 달러)가 예상됩니다.

이 섹션의 중요 주제

  • 세미 로그 그래프
  • 로그-로그 그래프
  • 지수 함수 선형화
  • 지수 방정식을 데이터에 맞추기

데이터에서 지수 모델 구축

우리가 배웠듯이 투자 증가, 방사성 붕괴, 대기압 변화, 냉각 대상의 온도와 같은 지수 함수로 모델링할 수 있는 상황이 많이 있습니다. 이러한 현상의 공통점은 무엇입니까? 우선 모든 모델은 시간이 지남에 따라 증가하거나 감소합니다. 하지만 그게 전부는 아닙니다. 그건 방법 지수 방정식으로 가장 잘 모델링되는지 여부를 결정하는 데 도움이 되는 데이터 증가 또는 감소. 일반적으로 지수 함수의 동작을 알면 지수 회귀를 사용할 때를 인식할 수 있으므로 지수 증가 및 감소를 검토해 보겠습니다.

지수 회귀 성장이 천천히 시작되었다가 한계 없이 빠르게 가속되는 상황 또는 쇠퇴가 빠르게 시작된 다음 점점 느려져 점점 0에 가까워지는 상황을 모델링하는 데 사용됩니다. 지수 함수를 데이터 포인트 세트에 맞추기 위해 그래프 유틸리티에서 "ExpReg" 명령을 사용합니다. 이것은 y = a b x y = a b x 형식의 방정식을 반환합니다.

주어진 데이터 세트에서 그래프 유틸리티를 사용하여 지수 회귀를 수행합니다.

  1. STAT 다음 EDIT 메뉴를 사용하여 주어진 데이터를 입력하십시오.
    1. 목록에서 기존 데이터를 모두 지웁니다.
    2. L1 열에 입력 값을 나열합니다.
    3. L2 열에 출력 값을 나열합니다.
    1. ZOOM [9]를 사용하여 데이터에 맞게 축을 조정합니다.
    2. 데이터가 지수 패턴을 따르는지 확인합니다.
    1. STAT 다음 CALC 메뉴에서 "ExpReg"를 선택합니다.
    2. 에 대해 반환된 값 사용 NS 그리고 NS 모델을 기록하려면 y = a b x 입니다. y = a b x .

    2007년에는 음주 운전의 충돌 위험을 조사한 대학 연구가 발표되었습니다. 2,871건의 충돌 데이터를 사용하여 사람의 혈중 알코올 농도(BAC)와 사고 위험의 연관성을 측정했습니다. [링크]는 연구 1의 결과를 보여줍니다. NS 상대적 위험 사람이 충돌할 가능성이 몇 배나 더 높은지를 측정한 것입니다. 예를 들어, BAC가 0.09인 사람은 술을 마시지 않은 사람보다 사고 위험이 3.54배 더 높습니다.

    1. 그래프 유틸리티의 STAT 및 EDIT 메뉴를 사용하여 L1에 BAC 값을 나열하고 L2에 상대 위험 값을 나열합니다. 그런 다음 STATPLOT 기능을 사용하여 산점도가 [링크]에 표시된 지수 패턴을 따르는지 확인합니다.

    지수 모델을 얻기 위해 STAT 다음 CALC 메뉴에서 "ExpReg" 명령을 사용합니다.

    과학적 표기법에서 변환하면 다음과 같습니다.

    모델을 사용하여 BAC 0.16과 관련된 위험을 추정합니다. 0.16. 모델에서 x x를 0.16 0.16으로 대체하고 y를 풉니다. 요 .

    체중이 160파운드인 사람이 6잔의 술을 마신 후 운전하면 술에 취하지 않은 상태에서 운전할 때보다 충돌할 확률이 약 26.35배 더 높습니다.

    [링크] 최근 졸업생의 졸업 후 매월 신용카드 잔액을 보여줍니다.

    1. 지수 회귀를 사용하여 이러한 데이터에 모델을 맞추십시오.
    2. 이 비율로 지출이 계속된다면 졸업 후 1년 후 졸업생의 신용 카드 빚은 얼마가 될까요?

    지수 회귀 모델이 상황을 무기한으로 나타낼 것이라고 가정하는 것이 합리적입니까?

    아니요. 모델은 회귀를 위해 수집된 실제 데이터로 구성된다는 점을 기억하십시오. 일반적으로 원래 관찰(보간) 간격 내에서 추정하는 것이 합리적입니다. 그러나 모델을 사용하여 예측하는 경우 추론 기술을 사용하여 모델이 원래 관찰 간격(외삽)을 훨씬 초과하는 입력에 대해 의미가 있는지 여부를 결정하는 것이 중요합니다.


    인수

    Inc.() 함수에 의해 생성된 인시던트 객체. 플로팅 기능의 경우incident_fit 객체.

    두 모델 간의 분리를 식별하는 선택적 시점입니다. NULL이면 단일 모델이 적합합니다. 제공된 경우 두 모델이 분할의 양쪽에 있는 기간에 적합합니다.

    예측에 사용되는 신뢰 구간은 기본적으로 95%입니다.

    fit의 경고를 기본적으로 FALSE로 숨겨야 하는지 여부를 나타내는 논리입니다. 경고는 일반적으로 로그 선형 회귀를 수행하기 전에 제거되는 일부 0 발생률을 나타냅니다.

    분할의 양쪽에 있는 기간의 크기(일)입니다.

    출력에 플롯을 추가해야 하는지 여부를 나타내는 논리값( TRUE , 기본값), 다양한 분할에 대한 평균 R2를 표시합니다.

    그룹이 있는 경우 각 그룹에 대해 별도의 분할 날짜를 결정해야 합니까? 기본값은 TRUE 이며, 이 경우 별도의 분할 날짜가 있으므로 각 그룹에 대해 별도의 모델이 생성됩니다. FALSE 인 경우 분할 날짜는 풀링된 데이터에서 결정되고 날짜와의 상호 작용 및 주효과로 그룹을 모델링합니다.


    애플리케이션 인터페이스¶

    PyFlux API는 가능한 한 명확하고 간결하게 설계되었습니다. 즉, 모델 구축 프로세스를 수행하는 데 최소한의 단계가 필요합니다. 높은 수준의 개요는 아래에 자세히 설명되어 있습니다.

    첫 번째 단계는 모델 인스턴스 생성여기서 주요 인수는 (i) pandas 데이터 프레임과 같은 데이터 입력, (ii) ARIMA 모델에 대한 자기회귀 시차와 같은 설계 매개변수, (iii) 모델링된 시계열의 분포를 지정하는 제품군입니다. , 정규 분포와 같은.

    두 번째 단계는 사전 형성예를 들어 ARIMA 모델 (Nleft(0,10 ight)) 의 상수에 대해 사전 작업을 할 수 있습니다. 모델에 첨부된 latent_variables 객체를 출력하여 잠재변수를 확인할 수 있습니다. 사용자가 Maximum Likelihood를 수행하려는 경우 사전 형성은 무시됩니다.

    세 번째 단계는 모델 피팅(또는 추론), 적합 방법을 사용하여 추론 옵션을 지정합니다. 현재 옵션에는 최대 가능성(MLE), 메트로폴리스-헤이스팅스(M-H) 및 블랙박스 변동 추론(BBVI)이 포함됩니다. 완료되면 모델 잠재 변수 정보가 업데이트되고 사용자는 사후 피팅 방법을 진행할 수 있습니다.

    네 번째 단계는 모델 평가, 회고 그리고 예측. 모델이 적합하면 사용자는 과거 적합성을 살펴보고 사후 예측 검사로 비판하고 샘플을 예측하고 모델에 대한 다양한 기타 작업을 수행할 수 있습니다.


    캘리포니아의 COVID-19 총 사례의 지수 적합성

    COVID-19 범유행과 관련된 데이터는 “질병통제예방센터” 공식 웹사이트(https://data.cdc.gov/Case-Surveillance/United-States-COVID-19-Cases- and-Deaths-by-State-o/9mfq-cb36) 및 .csv 파일로 다운로드됩니다. 가장 먼저 할 일은 데이터를 Pandas 데이터 프레임으로 가져오는 것입니다. 이를 위해 Pandas 기능 팬더.read_csv() 그리고 팬더.Dataframe() 고용되었다. 생성된 데이터 프레임은 15개의 열로 구성되며, 그 중 submit_date, 상태, 전체 사례, 확인된 사례 및 기타 관련 관찰 항목을 찾을 수 있습니다. 이러한 범주가 표시되는 순서에 대한 통찰력을 얻기 위해 알 수 있는 대로 데이터 프레임의 헤더를 인쇄합니다. 총 사례는 "tot_cases" 음성 아래에 나열됩니다.

    이 기사에서는 캘리포니아와 관련된 데이터에만 관심이 있으므로 캘리포니아 주와 관련된 정보만 포함하는 하위 데이터 프레임을 만듭니다. 이를 위해 데이터 프레임의 하위 섹션을 인덱싱하는 Pandas의 잠재력을 활용합니다. 이 데이터 프레임은 df_CA(캘리포니아에서)라고 하며 "state" 열이 "CA"와 동일한 기본 데이터 프레임의 모든 요소를 ​​포함합니다. 이 단계 후에 우리는 두 개의 배열을 만들 수 있습니다. tot_cases) 총 케이스(해당 헤더 열의 이름은 "tot_cases")를 포함하고 첫 번째 기록까지 경과된 일 수(일명 ). 데이터가 매일 기록되었으므로 "days" 배열을 만들기 위해 0에서 "tot_cases" 배열의 길이까지 동일한 간격의 정수 배열을 만들면 됩니다. 이런 식으로 각 숫자는 n°를 나타냅니다. 첫 번째 기록(0일)부터 경과된 일 수.

    이 시점에서 우리는 생성된 데이터셋을 맞추기 위해 curve_fit()에 의해 사용될 함수를 정의할 수 있습니다. 지수 함수는 다음 방정식으로 정의됩니다.

    y = a*exp(b*x) +c

    어디 에이, ㄴ 그리고 피팅 매개변수입니다. 따라서 지수 함수를 반환하는 exp_fit() 함수를 정의합니다. 와이, 이전에 정의되었습니다. curve_fit() 함수는 데이터를 맞추려는 피팅 함수, 데이터 포인트의 값이 저장된 x 및 y 배열을 필요에 따라 입력합니다. 또한 p0 = […]라는 목록에 삽입하여 각 피팅 매개변수에 대한 초기 추측을 제공하고 이러한 매개변수에 대한 상한 및 하한 경계를 제공할 수도 있습니다(curve_fit() 함수에 대한 포괄적인 설명은 https를 참조하십시오. //docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html ). 이 예에서는 피팅 매개변수에 대한 초기 추측만 제공합니다. 또한, 처음 200일 동안의 총 케이스만 적합하도록 하겠습니다. 이는 연속적인 일 동안 케이스 수가 더 이상 기하급수적 추세를 따르지 않기 때문입니다(새 케이스 수가 감소했기 때문일 수 있음). "days" 및 "tot_cases" 배열의 처음 200개 값만 참조하기 위해 배열 슬라이싱(예: days[:200])을 활용합니다.

    Curve_fit()의 출력은 피팅 함수 내에서 정의하는 동안 사용된 것과 동일한 순서로 표시되는 피팅 매개변수입니다. 이를 염두에 두고 피팅된 결과를 포함하는 배열을 빌드하고 "fit_eq"라고 할 수 있습니다.

    이제 피팅 배열을 만들었으므로 원래 데이터 포인트와 지수 피팅을 모두 그릴 수 있습니다.

    최종 결과는 그림 1과 같은 플롯이 됩니다.

    그림 1


    4.7 지수 작성 및 적용 - PowerPoint PPT 프레젠테이션

    PowerShow.com은 최고의 프레젠테이션/슬라이드쇼 공유 웹사이트입니다. 귀하의 응용 프로그램이 비즈니스, 방법, 교육, 의학, 학교, 교회, 영업, 마케팅, 온라인 교육 또는 단지 재미를 위한 것이든 PowerShow.com은 훌륭한 리소스입니다. 그리고 무엇보다도 멋진 기능의 대부분이 무료이며 사용하기 쉽습니다.

    PowerShow.com을 사용하여 상상할 수 있는 거의 모든 주제에 대한 예제 온라인 PowerPoint ppt 프레젠테이션을 찾고 다운로드하여 자신의 슬라이드와 프레젠테이션을 무료로 개선하는 방법을 배울 수 있습니다. 또는 새로운 작업을 수행하는 방법을 알려주는 삽화 또는 애니메이션 슬라이드가 포함된 고품질 PowerPoint ppt 프레젠테이션을 찾아 무료로 다운로드하는 데 사용하십시오. 또는 PowerPoint 슬라이드를 업로드하여 교사, 학급, 학생, 상사, 직원, 고객, 잠재적 투자자 또는 전 세계 사람들과 공유할 수 있습니다. 또는 Facebook 친구나 Google+ 서클과 공유할 수 있는 2D 및 3D 전환, 애니메이션, 선택한 음악이 포함된 멋진 사진 슬라이드쇼를 만드는 데 사용합니다. 그것도 모두 무료!

    적은 비용으로 업계 최고의 온라인 개인 정보 보호를 받거나 최고의 순위로 프레젠테이션과 슬라이드 쇼를 공개적으로 홍보할 수 있습니다. 그러나 그 외에는 무료입니다. 프레젠테이션과 슬라이드 쇼를 애니메이션, 2D 및 3D 전환 효과, 포함된 음악 또는 기타 오디오, 슬라이드에 포함된 비디오를 포함하여 원래의 멀티미디어 기능을 모두 갖춘 범용 Flash 형식으로 변환할 수도 있습니다. 모두 무료입니다. PowerShow.com에 있는 대부분의 프레젠테이션과 슬라이드쇼는 무료로 볼 수 있으며 대부분은 무료로 다운로드할 수도 있습니다. (사람들이 원본 PowerPoint 프레젠테이션과 사진 슬라이드쇼를 유료로 다운로드하도록 허용할지 아니면 무료로 다운로드할지 여부를 선택할 수 있습니다.) 지금 PowerShow.com을 무료로 확인하십시오. 진정으로 모든 사람을 위한 것이 있습니다!

    프리젠테이션을 무료로 제공합니다. 또는 새로운 작업을 수행하는 방법을 알려주는 삽화 또는 애니메이션 슬라이드가 포함된 고품질 PowerPoint ppt 프레젠테이션을 찾아 무료로 다운로드하는 데 사용하십시오. 또는 PowerPoint 슬라이드를 업로드하여 교사, 학급, 학생, 상사, 직원, 고객, 잠재적 투자자 또는 전 세계 사람들과 공유할 수 있습니다. 또는 Facebook 친구나 Google+ 서클과 공유할 수 있는 2D 및 3D 전환, 애니메이션, 선택한 음악이 포함된 멋진 사진 슬라이드쇼를 만드는 데 사용합니다. 그것도 모두 무료!


    답변

    "Time Series Modeler" 대화 상자 또는 TSMODEL 구문에 지수 평활 매개변수 값을 사용자가 입력하는 옵션은 없습니다. 구문 창에서 EXSMOOTH 명령을 실행하여 이러한 매개변수를 지정할 수 있습니다. 사용 가능한 매개변수는 ALPHA(일반 평활 매개변수 또는 평활 상수), GAMMA(추세 평활 매개변수), DELTA(계절 평활 매개변수) 및 PHI(추세 수정 매개변수)입니다.

    EXSMOOTH 명령은 이전 버전의 SPSS에서 Trends 모듈의 일부였습니다. EXSMOOTH와 ARIMA, AREG(자기 상관 오류가 있는 회귀) 등을 포함한 Trends 모듈의 절차는 SPSS Statistics의 최근 릴리스에서 구문 명령을 통해서만 사용할 수 있습니다. 새로운 예측 모듈은 SPSS 14에 도입되었고 추세 대화 상자는 SPSS 16에서 제거되었습니다. 추세 구문 명령은 이제 통계 코어의 일부로 사용할 수 있으므로 SPSS 통계가 있는 경우 명령에 액세스할 수 있습니다(학생 SPSS 버전에는 구문 명령 처리가 포함되어 있지 않습니다. 지수 평활을 위한 평활 매개변수를 입력하려면 EXSMOOTH 구문 명령을 실행해야 합니다. 다음은 EXSMOOTH에 대한 구문 도움말 페이지의 예입니다.

    엑스무스 VAR2
    /모델=LA
    /기간=4
    /씨팩트=(23 -14.4 7 -15.6)
    /알파=0.20
    /감마=0.20
    /델타=0.30
    /초기화=(112,17).

    이 명령은 가산 계절 성분이 있는 선형 추세 성분을 지정합니다(/MODEL=LA).

    EXSMOOTH 명령에 대한 구문 도움말을 보려면 SPSS Statistics 구문 편집기 창에 EXSMOOTH(대소문자 필요 없음)를 입력한 다음 구문 창 도구 모음에서 구문 도움말 아이콘을 클릭합니다. 이 아이콘은 왼쪽 하단 모서리에 물음표가 있는 종이처럼 보입니다. Trends 명령은 다음을 클릭하여 열리는 구문 참조 안내서에 나타나지 않습니다.
    도움말->명령 구문 참조.


    용법

    시간을 나타내는 비지수 선형 스케일 값으로 구성된 벡터입니다.

    X축 시간 단위의 역수로 표시되는 첫 번째 속도 상수입니다. 첫 번째 반감기는 0.6932/k1입니다.

    X축 시간 단위의 역수로 표시되는 두 번째 속도 상수입니다. 두 번째 반감기는 0.6932/k2입니다.

    감쇠의 첫 번째 단계에서 y 범위에 대한 단일 값(y 단위).

    감쇠의 두 번째 단계에서 y 범위에 대한 단일 값(y 단위)..

    가장 낮은 예상 y 값 또는 무한 시간의 값으로 Y와 동일한 단위로 표시됩니다.


    기본 사용법

    데이터세트

    사용 에피피터 데이터 최소 2개의 변수가 필요합니다. 하나는 전염병이 진행되는 동안 질병 강도에 대한 각 평가 시간을 나타내고 다른 하나는 질병 강도 변수를 비율(예: 발병률, 중증도, 유병률)로 나타냅니다. 반복실험으로 설계된 실험의 경우 세 번째 변수가 필요합니다.

    복제된 플롯에서 측정된 하나의 전염병에 대한 DPC 데이터 세트를 시뮬레이션해 보겠습니다. 시뮬레이션된 데이터는 S자 모양의 다환형 전염병과 유사합니다. 우리는 그것을 사용하여 할 수 있습니다 에피피터 에피피터의 sim_logistic() 함수(?sim_logistic에 대한 자세한 내용은 여기).

    시뮬레이션된 데이터 세트를 살펴보겠습니다.

    sim_logistic()을 사용하여 생성된 dpc_L 객체는 4개의 열이 있는 데이터 프레임입니다. y 변수는 비율로 질병 강도에 대한 벡터입니다(0 < y < 1). 시각화를 용이하게 하기 위해 ggplot 함수를 사용하여 플롯을 만들어 보겠습니다. ggplot2 패키지.

    Fit_lin()을 사용한 선형 회귀

    fit_lin()에는 최소한 시간 및 y 인수가 필요합니다. 예제에서는 복제를 나타내는 random_y를 호출합니다. 데이터 프레임에 연결된 이러한 변수를 빠르게 호출하는 방법은 아래와 같습니다.

    fit_lin()은 여러 요소를 포함하는 목록 객체를 출력합니다. 목록의 세 가지 요소가 기본적으로 표시됩니다. 모델 적합도, 감염률 및 초기 접종의 통계

    모델 적합 통계

    목록의 Stats 요소는 4가지 모델 각각이 3가지 측정값을 기반으로 관측치를 예측한 방법을 보여줍니다.

    • Lin의 일치 상관 계수 CCC(Lin 2000), 편향과 정밀도를 모두 고려한 일치 측정
    • 결정 계수 r_squared(R 2 ), 정밀도 측정
    • 각 모델에 대한 잔차 표준 편차 RSE.

    4가지 모델은 높은 CCC에서 낮은 CCC로 분류됩니다. sim_logistic 함수를 사용하여 합성 전염병 데이터를 생성했기 때문에 예상대로 물류 다른 모델보다 우월했습니다.

    모델 계수

    두 개의 관심 계수에 대한 추정치, 각각의 표준 오차 및 상위 및 하위 95% 신뢰 구간은 감염률 및 초기 접종원 요소에 표시됩니다. 후자의 경우 역변환(추정)과 선형화된 추정이 모두 표시됩니다.

    글로벌 통계

    f_lin$stats_all 요소는 각 모델에 대한 모든 통계가 포함된 와이드 형식 데이터 프레임을 제공합니다.

    모델 예측

    예측된 값은 위와 동일한 $ 연산자를 사용하여 호출된 데이터 요소에 데이터 프레임으로 저장됩니다. 각 모델에 대해 관찰된 및 ( y ) 및 역변환된 예측( 예측된 )이 모두 표시됩니다. 선형화된 값과 잔차도 표시됩니다.

    예측 플롯

    plot_fit()은 기본적으로 모든 적합 모델에 의해 관찰 및 예측된 값을 나타내는 플롯 패널을 생성합니다. 관찰을 위한 점의 크기와 적합선의 크기를 각각 제어하는 ​​인수 pont_size 및 line_size.

    출판 준비가 된 플롯

    플롯은 ggplot2 아래와 같이 플롯 매개변수를 재정의하는 새 레이어를 추가하여 쉽게 사용자 정의할 수 있는 개체입니다. 모델 인수를 사용하면 플롯에 표시할 모델을 선택할 수 있습니다. 다음 플롯은 물류 모델에 맞게 사용자 정의되었습니다.

    비선형 회귀

    두 매개변수

    fit_nlin() 함수는 비선형 매개변수의 최소제곱 추정을 위해 Levenberg-Marquardt 알고리즘을 사용합니다. 시간 및 질병 강도 외에도 y0 및 r에 대한 시작 값이 starting_par 인수에 제공되어야 합니다. 출력 형식과 해석은 fit_lin() 과 유사합니다.

    참고: "초기 매개변수 추정치에서 행렬"이라는 오류 메시지가 표시되면 매개변수의 시작 값을 수정하여 문제를 해결하십시오.

    plot_fit을 사용하여 결과를 확인할 수 있습니다.

    추정 K(최대 질병)

    많은 전염병에서 DPC의 마지막 측정(최종 시간)은 최대 강도에 도달하지 않으며 이러한 이유로 최대 점근선(운반 용량 K)의 추정이 필요할 수 있습니다. fin_lin2() 는 fit_lin() 에서 제공하는 추정치 외에 K 추정치를 제공합니다.

    함수를 시연하기 전에 최대 약 0.8(80%)의 y_random2로 다른 변수를 생성하여 시뮬레이션된 데이터를 변환할 수 있습니다. 가장 간단한 방법은 y_random에 0.8을 곱하는 것입니다.

    그런 다음 새 데이터 세트에 대해 fit_nlin2()를 실행합니다.

    여러 DPC에 모델 맞추기

    가장 일반적으로 관찰 또는 실험 연구에서 분석할 전염병이 하나 이상 있습니다. 목표가 모든 곡선에 공통 모델을 맞추는 것이라면 fit_multi() 함수가 유용합니다. 각 DPC는 단일 데이터 프레임에서 추가로 결합하기 위해 고유한 식별이 필요합니다.

    sim_ 함수 패밀리를 사용하여 세 가지 전염병을 만들고 데이터를 단일 data.frame에 저장해 보겠습니다. 이러한 데이터를 시뮬레이션하기 위해 Gompertz 모델이 사용되었습니다. DPC를 다르게 하기 위해 y0 및 r 매개변수를 허용했습니다. bind_rows() 함수를 사용하여 세 개의 DPC를 결합하고 각 전염병에 대해 문자 벡터로 자동 생성되는 식별자( .id )의 이름을 'DPC'로 지정해야 합니다.

    동일한 플롯에서 3개의 DPC를 시각화할 수 있습니다.

    또는 이들을 별도로 플로팅하려면 facet_wrap()을 사용하십시오.

    Fit_multi() 사용

    fit_multi()는 시간, 질병 강도(비율로), 데이터 및 곡선 식별자( strata_cols )의 네 가지 이상의 인수가 필요합니다. 후자의 인수는 하나 이상의 계층 포함을 c("strata1",strata2") 로 허용합니다. 아래 예에서 계층 이름은 변수 이름인 DPC입니다.

    기본적으로 선형 회귀는 데이터에 적합하지만 다른 인수 nlin = T를 추가하면 대신 비선형 회귀가 적합합니다.

    목록의 모든 매개 변수는 아래와 같이 $ 연산자를 사용하여 반환할 수 있습니다.

    마찬가지로 모든 데이터를 반환할 수 있습니다.

    비선형 회귀가 선호되는 경우 nlim 인수를 TRUE로 설정해야 합니다.

    K를 추정하고 싶습니까?

    K 를 추정하려면 nlin = TRUE 및 Estimate_K = TRUE 로 설정하십시오.

    참고: 두 인수를 모두 TRUE 로 설정하지 않으면 nlin defaut가 FALSE이므로 K가 추정되지 않습니다. 또한 K를 추정할 때 우리는 적합하지 않다는 것을 기억하십시오. 지수 모델.

    그래픽 출력

    ggplot2를 사용하여 모델 곡선 및 추정된 매개변수의 우아한 데이터 시각화를 생성합니다.

    DPC 및 적합 곡선

    multi_fit$Data 에는 원본 데이터와 각 모델별 예측값이 저장됩니다. 다음과 같이 멋진 플롯을 생성할 수 있습니다.

    겉보기 감염률

    multi_fit$Parameters 요소는 모든 통계 및 매개변수가 저장된 위치입니다. 겉보기 감염률의 추정치를 플로팅해 보겠습니다.


    예측: 원칙 및 실습(3판)

    이 장에서 지금까지 가정한 선형 관계가 적절한 경우가 많지만, 비선형 함수형이 더 적합한 경우가 많습니다. 이 섹션에서 일을 단순하게 유지하기 위해 예측 변수 (x) 가 하나만 있다고 가정합니다.

    비선형 관계를 모델링하는 가장 간단한 방법은 회귀 모델을 추정하기 전에 예측 변수 (y) 및/또는 예측 변수 (x)를 변환하는 것입니다. 이것은 비선형 기능적 형태를 제공하지만 모델은 매개변수에서 여전히 선형입니다. 가장 일반적으로 사용되는 변환은 (자연) 로그입니다(섹션 3.1 참조).

    NS 로그 로그 기능 형식은 [ log y=eta_0+eta_1 log x +varepsilon으로 지정됩니다. ] 이 모델에서 기울기 (eta_1)는 탄성으로 해석될 수 있습니다. (eta_1)는 (x)의 1% 증가로 인한 (y)의 평균 백분율 변화입니다. . 다른 유용한 형식도 지정할 수 있습니다. NS 로그 선형 형식은 예측 변수를 변환하고 선형 로그 형태는 예측자를 변환하여 얻습니다.

    변수에 대한 대수 변환을 수행하려면 관찰된 모든 값이 0보다 커야 함을 기억하십시오. 변수 (x)에 0이 포함된 경우 (log(x+1)) 변환을 사용합니다. 즉, 변수 값에 1을 더한 다음 로그를 취합니다. 이것은 로그를 취하는 것과 유사한 효과를 갖지만 0 문제를 피합니다. 또한 변환된 스케일에서 0으로 남아 있는 원래 스케일에서 0이라는 깔끔한 부작용이 있습니다.

    단순히 데이터를 변환하는 것이 적절하지 않고 보다 일반적인 사양이 필요할 수 있는 경우가 있습니다. 그런 다음 우리가 사용하는 모델은 [ y=f(x) +varepsilon ]입니다. 여기서 (f)는 비선형 함수입니다. 표준(선형) 회귀에서 (f(x)=eta_ <0>+ eta_ <1>x) 입니다. 다음에 나오는 비선형 회귀의 사양에서 우리는 (f) 가 단순히 대수 또는 기타 변환과 비교하여 (x) 의 보다 유연한 비선형 함수가 되도록 허용합니다.

    가장 간단한 사양 중 하나는 (f) 조각 선형. 즉, (f)의 기울기가 변할 수 있는 점을 소개합니다. 이러한 점을 매듭. 이것은 (x_<1,t>=x)를 허용하고 (x_<2,t>) 변수를 도입하여 [egin x_ <2,t>= (x-c)_+ &= left< egin 0& 텍스트 x < c x-c & ext x ge c end오른쪽. 끝] ((x-c)_+) 표기법은 값이 양수이면 (x-c) 값을 의미하고 그렇지 않으면 0을 의미합니다. 이렇게 하면 기울기가 (c) 점에서 구부러집니다. 위 형식의 추가 변수를 추가하여 관계에 추가 굽힘을 포함할 수 있습니다.

    이러한 방식으로 구성된 조각별 선형 관계는 다음과 같은 특수한 경우입니다. 회귀 스플라인. 일반적으로 선형 회귀 스플라인은 [ x_<1>= x quad x_ <2>= (x-c_<1>)_+ quaddotsquad x_를 사용하여 얻습니다. = (x-c_)_+ ] 여기서 (c_<1>,dots,c_) 매듭(선이 구부러질 수 있는 점)입니다. 매듭의 수( (k-1) )와 매듭의 위치를 ​​선택하는 것은 어렵고 다소 임의적일 수 있습니다. 일부 자동 매듭 선택 알고리즘을 사용할 수 있지만 널리 사용되지는 않습니다.

    비선형 추세로 예측

    섹션 7.4에서 (x=t)를 설정하여 시계열에 선형 추세를 맞추는 방법이 도입되었습니다. 비선형 추세를 피팅하는 가장 간단한 방법은 [ x_ <1,t>=t,quad x_<2,t>=t^2,quad dots를 지정하여 얻은 2차 또는 고차 추세를 사용하는 것입니다. ] 그러나 예측에 2차 이상의 추세를 사용하는 것은 권장되지 않습니다. 외삽할 때 결과 예측은 종종 비현실적입니다.

    더 나은 접근 방식은 위에서 소개한 조각별 사양을 사용하고 특정 시점에서 구부러지는 조각별 선형 추세에 맞추는 것입니다. 이것을 선형 조각으로 구성된 비선형 추세로 생각할 수 있습니다. 추세가 시간 ( au) 에서 구부러지면 위의 (x=t) 및 (c= au) 를 대체하여 지정하여 예측 변수 [egin x_ <1,t>& = t x_ <2,t>&= (t- au)_+ = left< egin 0& 텍스트 t < au t- au & ext t ge au end오른쪽. 끝] 모델에 있습니다. (x_<1,t>) 및 (x_<2,t>) 의 관련 계수가 (eta_1) 및 (eta_2) 이면 (eta_1) 는 다음을 제공합니다. 시간 ( au) 이전 추세의 기울기인 반면 시간 ( au) 이후의 선 기울기는 (eta_1+eta_2) 로 표시됩니다. 추가 굽힘은 ((t- au)_+) 형식의 변수를 추가하여 관계에 포함될 수 있습니다. 여기서 ( au)는 "매듭" 또는 선이 구부러져야 하는 시점입니다.

    예: 보스턴 마라톤 우승 횟수

    우리는 남성의 보스턴 마라톤 우승 시간에 일부 트렌드 모델을 맞출 것입니다. 먼저 남자 데이터를 추출하고 우승 시간을 숫자 값으로 변환합니다. 1924년에는 코스가 연장되어(24.5마일에서 26.2마일로) 우승 횟수가 급증했기 때문에 해당 날짜 이후의 데이터만 고려합니다.

    그림 7.20의 상단 패널은 1924년 이후의 우승 시간을 보여줍니다. 시계열은 시간이 지남에 따라 우승 시간이 개선됨에 따라 일반적인 하향 추세를 보여줍니다. 하단 패널은 선형 추세를 데이터에 피팅한 잔차를 보여줍니다. 플롯은 선형 추세에 의해 포착되지 않은 명백한 비선형 패턴을 보여줍니다.

    그림 7.20: 보스턴 마라톤 우승 시간에 선형 추세를 맞추는 것은 부적절합니다.

    Fitting an exponential trend (equivalent to a log-linear regression) to the data can be achieved by transforming the (y) variable so that the model to be fitted is, [ log y_t=eta_0+eta_1 t +varepsilon_t. ] The fitted exponential trend and forecasts are shown in Figure 7.21. Although the exponential trend does not seem to fit the data much better than the linear trend, it perhaps gives a more sensible projection in that the winning times will decrease in the future but at a decaying rate rather than a fixed linear rate.

    The plot of winning times reveals three different periods. There is a lot of volatility in the winning times up to about 1950, with the winning times barely declining. After 1950 there is a clear decrease in times, followed by a flattening out after the 1980s, with the suggestion of an upturn towards the end of the sample. To account for these changes, we specify the years 1950 and 1980 as knots. We should warn here that subjective identification of knots can lead to over-fitting, which can be detrimental to the forecast performance of a model, and should be performed with caution.

    Figure 7.21: Projecting forecasts from linear, exponential and piecewise linear trends for the Boston marathon winning times.

    Figure 7.21 shows the fitted lines and forecasts from linear, exponential and piecewise linear trends. The best forecasts appear to come from the piecewise linear trend.


    비디오 보기: Issa demar Swimwear Fashion Show SS 2018 Miami Swim Week 2017 (팔월 2022).