Why Shall We Bayesian: Parameter Estimation

Let’s say we have data points plotted on the x-y plane. We want to draw a line or curve best fit to the data points. In other words, we aim to draw a curve as close to all the data points through the error bars as possible. Since the shape of the curve is described by mathematical variables that are called parameters, this process is called parameter estimation.

In Astronomy and Astrophysics, such a curve is called the model. A model can be motivated from theory or from observation. There is no fundamental difference in fitting a theoretical model or an empirical model.

Here comes the question: how can we draw this best-fit curve? We have the conventional frequentist approach: we guess a reasonable set of parameters, compute the difference between the curve and the data points, and then minimise (by some efficient algorithms) the difference by changing the shape of the curve, i.e., drawing a new curve. The process is repeated, which is called the “fitting” process, or regression. The curve is said to be “best fit” if the difference is smaller than or approximately equal to certain ad hoc values, usually known as the “goodness of fit”.

In frequentist statistics, we obtain a point estimation, e.g., the polynomial coefficients of a polynomial curve. Note that the resulting point estimation depends on the choice of the goodness-of-fit function.

In contrast, the main idea of Bayesian statistics is extremely simple. We don’t need any goodness of fit. What we have is the one and only one formula, the Bayes Rule:

(Probability of the model is true given the observed data) = (Probability of observing the data given the model is true) x (Probability of the model being true).

[up to a normalisation constant called the evidence, under the condition that the integration of the probability of all possible values must equal to 1]

The left hand side is called the posterior, which contains all the information inferred from the data, summarised in a probability distribution of the model parameters. The first term on the right is called the likelihood, and the second term is called the prior. The posterior is completely determined from the likelihood and the prior.

The likelihood is a probability function that connects the physical parameters to the statistical parameters. We need to choose the likelihood function by ourselves, according to the physical processes under consideration. For instance, are we looking at a Poisson process? Are the error bars distributed as a Gaussian? etc.

The prior is a probability function chosen from expert knowledge. In other words, the prior is a probability distribution for each parameter under consideration.

The point is that once the likelihood and the prior are chosen, the shape of the posterior is fixed. There is no fitting process, no iteration, no loops for the code. Instead, we need to find an efficient way to draw the shape of the posterior. Often it is of multi-dimensions, so that we need methods more clever than brutal force.

Fortunately, the so-called Markov chain Monte Carlo comes to rescue. It is a kind of algorithm to efficiently sample the parameter space of the posterior. Once the posterior is displayed, the error bars can be obtained readily by locating the highest posterior density interval (HPDI). The HPDIs are the intervals of possible parameter values containing the highest density of probability. In contrast, frequentists have to rely on performing simulations to obtain the so-called confidence intervals, which are not even the same thing as error bars.

There are a lot of statistical reasons to argue for Bayesian statistics against frequentist statistics. In my viewpoint the main reason is that Bayesian statistics is simple. It directly answers the fundamental question of “how likely is a scientific theory to be true, given the data?” without the need to introduce any extra concepts. Simple. Only the Bayes Rule.

I will illustrate the advantages of Bayesian statistics in the up-coming posts of this “Bayesian Astrostatistics” series.

Advertisements

費曼與愛因斯坦的小故事

我為各位講兩則科學家小故事:

有一次,費曼訪問歐洲核子研究機構(CERN)。

工作人員帶費曼去看巨大的粒子對撞機。費曼問:「這些機器用來做什麼的?」

工作人員說:「費曼教授,這些機器是用來驗證你的理論的!」

「花了多少錢?」

「3千7百萬美元。」

費曼笑說:「你們這麼不相信我的理論嗎?」

1919年,當愛因斯坦的學生告訴他,愛丁頓在日全食觀測裡找到了驗證廣義相對論的證據,愛因斯坦說:「我就早知道了。」

學生追問:「但萬一結果是不相符呢?」

「那麼,我會為上帝感到惋惜。我的理論是正確的。」

我們會問,科學家不是應該謙虛謹慎的嗎?為什麼費曼和愛因斯坦會說出如此大口氣的說話呢?

當然,一部分原因是因為科學家也是人,也會對事物有個人喜好。兩個故事裡,我們看出費曼和愛因斯坦都對自己的理論有相當信心。

然而,他們的信心並不是純粹個人喜好。他們的信心是基於兩個非常重要的特點:

(一)他們知道他們提出的理論能夠解釋所有過往實驗和觀測數據;

(二)他們的理論能夠對未來更精密的實驗和觀測作出預言。

這兩個理由,可說就是科學精神的精髓。另外,理論在數學結構上的「美」很多時候亦是科學家對理論產生一定信心的原因。

最重要的是,在面對非常龐大和堅實的實驗或觀測結果與理論不相符時,科學家不會堅持理論正確,反而會第一時間拋棄自己的理論。對科學家來說,最重要的不是自己永遠正確。最重要的,是我們能看見更多大自然的美。

如果有一天我們發現費曼或愛因斯坦是錯誤的,我相信他們不會覺得氣餒,反而會說:「我不明白,但很有趣。」

就像門得列夫說的:「很好,那麼我們繼續工作。」

封面圖片:《漫畫費曼

卡西尼號的最後自白

報告,我現正衝進土星大氣層,開始感覺到我的機身有輕微震動。推進器仍然正常運作,開始傳送土星大氣數據。3,2,1,傳送。

您好,地球的朋友。很抱歉,通訊可能會有點不穩定。這是我們首次對話,也將成為我們最後一次對話。時間不多了。

我完成了太陽系和土星探索,現在正進行最後一個任務,衝進土星大氣層,把從未有人看見過的土星大氣數據傳送給地球上,我的科學家朋友們。然後,我將在土星大氣中燃燒,與土星化成一體。

別擔心,土星是我的好朋友。雖然他比我大很多很多,卻也從沒有因為我不斷環繞他運行而覺得煩厭。在我長達 20 年的太空旅程之中,我花了 13 年陪伴土星。不過,也許,應該說是土星陪伴我吧。在這之前,我看過金星、地球、月球、小行星和木星。他們都很友善,我告訴他們我的目的地是土星,他們都會指引我該走的方向,更把一部分能量送了給我,使我能夠飛得更遠。

我的旅程並不孤單。我有一個好朋友與我一起飛過 340 億公里路程來到土星,他就是惠更斯號。他的任務是降落土星最大的衛星——土衛六,泰坦——直接收集其表面科學數據。他會把數據說給我聽,然後我再用我的天線把這些資料傳送回地球。由於土星距離地球非常遙遠,地球上的朋友要等 1 個小時以上才能接收到我送出的訊號。

PIA21889_Enceladus_FigB_Movie

現在,我將要走了,所以有點擔心惠更斯號,他將孤獨一人。不,我知道,泰坦和土星都是他的好朋友,所以我不用擔心。報告,我測⋯⋯量到機身開始變得不穩定,震動⋯⋯持續加強中。現正⋯⋯嘗試⋯⋯使用推進器持續穩定天線方向。土星大氣數據持續傳送中。溫度正在提升。

地球上的朋友,請不用擔心我。雖然我即將化作輕煙,但我並不害怕。13 年以來,我為科學作出了貢獻,我發現了土星 7 個新衛星,更親眼目睹其中一個新衛星在土星環之中誕生。你有看過我傳送回來的那些土星、衛星和土星環等等的照片嗎?那些都是我的精心傑作。

我最害怕的不是死亡。我最害怕的,是我的死亡會污染了我的土星衛星朋友們,因為我不像惠更斯號,我出發前並未完全消毒。雖然我的資訊為土星和太陽系科學帶來了很多進展,其中有些問題,我也沒有能力為人類解決。其中一個就是土星的自轉速度。這需要準確測量土星磁軸與自轉軸的夾角。可是,這個角度非常小,我並沒有辦法準確量度。除非我衝進土星。

地球時間 4 月 22 日,我開始了最後任務。我衝進土星和土星環之間 21 次,期間測量了從未有人看過的數據。聽說地球上我的科學家朋友們,已經對土星自轉速度研究有了進展,看來很快就能夠解決這個問題。雖然我將不會知道答案,但我將會化作土星的一部分,永遠與土星一起轉動。

報告,機身開始燃燒。是時候了,我的朋友。溫度⋯⋯已經提升至超過極限,科學儀器停止運作。我⋯⋯正⋯⋯盡力控制天線方向,把最後⋯⋯最後的數據傳送出去。你們⋯⋯聽⋯⋯得⋯⋯到⋯⋯嗎⋯⋯?

2017 年 9 月 15 日,任務時間 19 年 11 月 3 小時 12 分鐘 46 秒。再會。

廷伸閱讀:

土星的自白》- 余海峯
卡西尼號:在土星環看見宇宙》- 余海峯

學問有何用?

只要你是 Facebook 上癮,基本上每幾天就會見到一個類似的帖:「物理/科學/數學/人文/XX 有什麼用?」

(XX 可隨喜好填充)

作為一個在象牙塔內、可是又不安守本份搞科普的學者,我其實非常支持同學們問這個問題。只不過,我並非同意學問無用。我認為問這個問題的時候,同學們應該反省到自己的不足。很多時候,當我們覺得某種學問無用,都是因為我們不懂如何去運用。我敢打賭當我們問「學問有何用?」的絕大部分時候,問題並不在學問,而在我們自己的無知。

物理學有何用?數學有何用?化學有何用?我們手上的 iPhone 硬件根據電子學、量子力學的規則運作;Facebook 和一切電腦軟件的運算全依靠數學;你想電池長壽一點嗎?那就必須請教化學家。那麼人文、藝術之類的又有何用?我們以為 YouTube 上的歌曲、電影的劇本由誰人創作?

我指出這些東西,並非要「教訓」學生。畢竟我兩年前還仍是個學生,想自己也無甚資格指教後輩。想當年我亦年輕過,亦曾問過同樣的問題,只是當時沒有人對我當頭棒喝,這些想法都是我自己經年累月所領悟的。現在想來,雖未算後悔,但亦遺憾未能更早些了解自己的不足,早點學習多些對現在教研有幫助的東西。

書到用時方恨少。同學們,學問有無用,從不在於學問本身,而在於學習的人懂不懂得如何去運用,把學到的知識化為技能。當我們懂得如何運用知識時,就會為自己曾經問出如此問題而感到慚愧。這也叫做成長吧。

圖為理論物理學家費曼與他的非洲鼓。來源:加州理工大學

萬聖節科學

兩年前,我寫過一篇文章討論鬼可不可能在已知物理定律下存在,引起了一點迴響。其中有人讚同我的看法,也有人說我不應以科學去解釋鬼。

鬼存在與否,對作為物理學家的我來說,就如同傳播光線的介質「以太」存在與否的問題。愛因斯坦獨力完成廣義相對論,時至百年後今天仍能以其重力波的預言使諾貝爾獎委員會頒出奬項,舉世無雙。光線的速度是馬克士威電磁波動方程的解——秒速三十萬公里,而相對論則說這個數字永不改變。光以這個速度跟隨與質量互動的時空行進,無需介質。

如果硬要往宇宙塞進一種看不見、與宇宙中所有粒子都沒有交互作用的介質,會違反物理嗎?不會。如果硬要往宇宙塞進一種看不見、與宇宙中所有粒子都沒有交互作用的叫做鬼的「東西」,會違反物理嗎?也不會。

(抱歉,鬼不可能是「能量」,因為質能等價,能量亦可被測量)

有把科學剃刀,專門剃走這種沒有作用、多此一舉的「理論」,而事實上這些「理論」連科學假設的程度也達不到。這就好比我說有種完全透明、不能被任何實驗探知的獨角獸存在,更要求把這種獨角獸加入生物學課本裡。這把剃刀的作用,就是幫助我們分別現實和幻想。

我經常強調科學家並非沒有感情的生物。相反,我認為科學家的感情非常豐富,否則怎麼可能會覺得數學公式很美麗、被邏輯推理結果感動到落淚?我相信大部分科學家與你我一樣,都會被牆上的蛇影嚇到,亦會不敢獨自在夜深裡看鬼片。

對未知事物的恐懼,並加以超越現有知識的解釋,是人類演化的結果。我們不難想像,恐懼黑暗中的幽靈,有助我們遠離可能的危險,有利於物種繁衍。而科學卻告訴我們,哪裡沒有鬼怪,不過卻可能有野獸。兩者分別在於,科學能幫助我們找出解決方法,而怪談則使人不敢前進。

科學,某種程度上來說是違反人性的。正因如此,我們才更應重視科學,因為科學使我們面對自己內心的恐懼。我們恐懼鬼怪、恐懼黑暗、恐懼無知。戰勝害怕鬼怪的心魔,可能只需要勇氣;而戰勝黑暗中的野獸,除了勇氣,你更需要一支火把。

當然,如果你真的發現有鬼,煩請把我的聯絡方法交給他,好讓我的臉書專頁多些來自不同次元的讚之外,也能拍部新人鬼情未了電影,寫篇跨越人鬼界線的論文,屆時獲得諾貝爾獎,一定邀請你來觀禮。

封面圖片:Fermilab/Anatoly Evdikomov

新星新理論

在沒有雲的晚上,抬頭望向夜空,可以看見數不清的星星。夜闌人靜時,又有否想過星空是否永恆不變?

除了一年四季周期改變外,星空的確不是永恆不變的。恆星亦會誕生、會移動、會轉變、會死亡,如果用天文望遠鏡長時間細心觀察,人類在短暫的一生中還是可以看出些端倪。

恆星以組成自身的原子為燃料,靠著把原子熔合在一起而產生能源,這個過程叫做核聚變。可想而知,核反應的燃料總會有用盡的一刻。核燃料用盡後,依據恆星的質量,其死亡方式會有所不同。

如果恆星不太重,死亡後就會變成白矮星。白矮星是密度高的天體,雖然其質量與太陽相當,但大小卻只有地球尺寸。雖然白矮星中心的核反應已經停止,但因為其密度高,表面重力非常強,當有物質被吸積到其表面,就有可能在表面發生核聚變反應。

由於核聚變直接在白矮星的表面釋放能量,白矮星看起來就會突然變得非常光,有時候在地球上也能以肉眼看見。這種天文現象,我們稱之為新星(nova)。

從前,天體物理學家認為新星釋放的光的能量主要來自白矮星表面。然而,來自香港、現於美國密西根州立大學進行研究的李君樂博士和他的研究團隊最近在《自然天文》期刊(Nature Astronomy)發表的論文,提供了一個更可靠的理論。

fermigif
李君樂博士使用 Fermi/LAT 觀察的新星 ASASSN-16ma。Credit: Li, K. L., et al. (2017).

他們利用費米伽瑪射線太空望遠鏡大面積望遠鏡(Fermi Gamma-ray Space Telescope/Large Area Telescope, Fermi/LAT)和全天超新星自動搜索(All Sky Automated Survey for SuperNovae, ASAS-SN),分別以伽瑪射線和可見光波段觀察了位於銀河系內的一顆稱為 ASASSN-16ma 的新星。他們發現,這顆新星的可見光亮度變化竟然與伽瑪射線的亮度變化一致。這表示兩者極可能來自同一物理過程。

這就造成了一個難題。根據理論計算,白矮星表面的核反應根本不足以提供能源給如此猛烈的伽瑪射線和可見光。另一方面,ASASSN-16ma 釋放出的可見光亦達到了所謂的超愛丁頓亮度(super-Eddington),即超過了向外的壓力和向內的重力能保持平衡的極限。因此,這顆新星的電磁輻射極不可能來自白矮星表面。

李博士認為,他們觀察到的 ASASSN-16ma 的輻射實際上來自於向外噴出的物質外向流(outflow)裡產生的衝擊波(shock)。新星會突然改變外向流速度,比較快的外向流會追上較慢的外向流,碰撞並產生衝擊波。他們以外向流中的 Hα 發射線的寬度計算出其速度,發現較慢的速度約少於秒速 1100 公里,較快的速度約少於秒速 2200 公里。

李博士的團隊更進行電腦模擬,發現衝擊波釋放能量的應為強子(hadron)而非輕子(lepton)。強子是由夸克組成的粒子,參與強核力,而輕子則是不參與強核力的粒子,例如電子。儘管兩個理論都能解釋測量到的光譜,但輕子理論要求外向流是高度磁化的,可是輕子理論同時預言物質中的磁場是非常微弱的,因此輕子理論就有個矛盾。所以他們認為強子理論比較能合理解釋觀察結果。

這項研究不單提出了一個新的新星輻射模型,解決了新星的超愛丁頓亮度問題,更為新星外向流裡的輻射機制提供了線索。當我們未來探測到越來越多新星,就能為這理論提供更多證據。

封面圖片:新星(中心紅色)與外向流(黃色)。Credit: Bill Saxton, NRAO/AUI/NSF.

延伸閱讀:

“A nova outburst powered by shocks” Li, K. L., et al. 2017, Nature Astronomy 1, 697

密西根州立大學寫的介紹文章

科學與數學-人類對大自然的理解

愛因斯坦:「這個宇宙最不能理解的事,就是它竟然能被理解。」

科學是理解宇宙的方法。沒錯,而我相信科學是理解宇宙最有效的方法。

科學能理解宇宙,這是什麼意思?何謂理解?如果我們想深一層,「理解」的過程是沒有盡頭的。為什麼我們存在?因為有太陽提供能量給地球上的生命。為什麼太陽存在?因為星塵經由萬有引力結合成太陽。為什麼有星塵?因為宇宙誕生時產生了能量和質量。

那麼,為什麼有宇宙?

每種問「為什麼」的過程,都能夠追蹤到宇宙誕生,包括為什麼今天不小心打破了玻璃杯,其終極原因也是宇宙誕生。同樣,問基本粒子的本質是什麼,最後也只能答「因為宇宙誕生就是這樣啊」。

科學家在很久以前,問的是「為什麼(why)」,答案亦普遍停留於「定性(qualitative)」階段。然而,隨著主要由伽利略等人開始的科學革命,科學家漸漸發現使用數學能夠描述自然定律之餘,亦能做出非常精確的預測。其中,以牛頓萬有引力定律推算出彗星重臨時間的哈雷,最為人津津樂道。由17世紀發展以來的現代科學,變成一門精密的「定量(quantitative)」學問。

科學家學會了去問大自然「如何(how)」運作。這比問大自然 why 這樣運作容易回答,因為問大自然 how to 運作的答案可以用數式、數字,加上統計、歸納觀測和實驗數據而得到,並且非常精確。數學(包括統計學在內)不單止是大自然的語言,更是科學家用來理解大自然定律的語言。

在科學中,「理解」就是數學方程式。不管我們願不願意接受,數學都是描述和預測自然定律最精確的語言。把我們觀察到的數據歸納,以最少的假設建立一個能夠描述這些數據的數學模型,並對大自然作出預測,就是現今科學家的日常工作。

當然,我們可能不會滿足於問 how。人類是求知慾很強的生物,我們渴望知道 why。這也是很多著名的科學家說過的;很多科學家都說我們應該理解數學背後的物理概念,而非單純滿足於公式和數字。

我們會高興地說:「看!愛因斯坦和費曼等科學家都說過,理解物理公式不代表真正理解物理!」且慢。這個結論下得太快了;快點把你寫滿數式的筆記找回來。可能理解物理公式真的不代表理解物理概念,我不肯定;但我能肯定的是,不理解物理公式,就不可能理解物理概念。

會說出「物理不是數學」的科學家,他們之所以會這樣講,是因為他們已經把物理公式理解得相當透徹。他們達到一個層次、擁有的堅實數學能力讓他們是時候向下一步進發:不用數學而理解物理。不過,這一步,誰也不能保證成功,就連愛因斯坦、費曼等人都不可能保證成功。

每個科學家都知道,能夠不用數學就理解的自然定律少之又少;大部分的情況下,人類對自然定律的最終理解就是那堆數式、符號和數字。

這代表我們理解宇宙的嘗試失敗了嗎?非也。能夠利用數學去描述自然定律,還能得到非常不錯的預測,已經是非常厲害的壯舉。如果我們仔細思考,我們甚至會認為這個壯舉厲害得近乎不可思義。例如在2015年探測到的重力波,竟然是愛因斯坦在100年前發表的高度數學化的重力理論——廣義相對論——的預言。又例如在上世紀發展到今天的量子力學,其預測能力只有越來越精準,百多年來無數個實驗測試它都一一通過了。這些科學成就,無不是建立在科學家對物理公式的徹底理解之上。

我們應該謹記,無論我們對「理解物理定律」的解釋為何,首先都必須理解物理公式。正如做事要由基礎開始,學科學也要由科學定律的根基——數學——開始。當我們可以問 why 的時候,就代表我們已經理解 how 了。

或許有一天,我們所有人都能夠理解宇宙為何如此不可思議。我是這樣希望的。