2.1)shell 的定義 在介紹 shell 是甚麼東西之前,不妨讓我們重新檢視使用者與電腦系統的關係: 圖(FIXME) 我們知道電腦的運作不能離開硬體,但使用者卻無法直接對硬體作驅動,硬體的驅動只能透過一個稱為"作業系統(Operating System)"的軟體來控制,事實上,我們每天所談的 linux ,嚴格來說只是一個作業系統,我們稱之為"核心(kernel)"。然而,從使用者的角度來說,使用者也沒辦法直接操作 kernel ,而是透過 kernel 的"外殼"程式,也就是所謂的 shell ,來與 kernel 溝通。這也正是 kernel 跟 shell 的形像命名關係。如圖: 圖(FIXME) 從技術角度來說,shell 是一個使用者與系統的互動界面(interface),主要是讓使用者透過命令行(command line)來使用系統以完成工作。因此,shell 的最簡單的定義就是---命令解譯器(Command Interpreter): * 將使用者的命令翻譯給核心處理, * 同時,將核心處理結果翻譯給使用者。 每次當我們完成系統登入(log in),我們就取得一個互動模式的 shell ,也稱為 login shell 或 primary shell。若從行程(process)角度來說,我們在 shell 所下達的命令,均是 shell 所產生的子行程。這現像,我們暫可稱之為 fork 或 spawn。如果是執行腳本(shell script)的話,腳本中的命令則是由另外一個非互動模式的子 shell (sub shell)來執行。也就是 primary shell 產生 sub shell 的行程,sub shell 再產生 script 中所有命令的行程。(行程管理也是 linux 學習中很重要的環節,我們日後的章節中另外說明。) 這裡,我們必須知道:kernel 與 shell 是不同的兩套軟體,而且都是可以被替換的: * 不同的作業系統使用不同的 kernel , * 而在同一個 kernel 之上,也可使用不同的 shell 。 在 linux 的系統預設中,一般都可以找到好幾種不同的 shell ,且通常會被列於 /etc/shells 這個檔案裡。不同的 shell 有著不同的功能,且也彼此各異、或說"大同小異"。常見的 shell 主要分為兩大主流: sh: burne shell (sh) burne again shell (bash) csh: c shell (csh) tc shell (tcsh) korn shell (ksh) (FIXME) 大部份的 Linux 系統的預設 shell 都是 bash ,其原因大致如下兩點: * 自由軟體 * 功能強大 bash 是 gnu project 最成功的產品之一,自推出以來深受廣大 Unix 用戶喜愛,且也逐漸成為不少系統的標準。 2.2) shell prompt(PS1) 與 Carriage Return(CR) 的關係 當你成功登錄進一個文字界面之後,大部份情形下,你會在熒幕上看到一個不斷閃爍的方塊或底線(視不同版本而別),我們稱之為*遊標*(coursor)。遊標的作用就是告訴你接下來你從鍵盤輸入的按鍵所插入的位置,且每輸如一鍵遊標便向右邊移動一個格子,若連續輸入太多的話,則自動接在下一行輸入。 在剛完成登錄還沒輸入任何按鍵之前,你所看到的遊標所在行的左邊部份,我們稱之為提示符號(prompt)。提示符號的格式或因不同系統版本而各有不同,在 Linux 上,只需留意最接近遊標的最後一個可見的提示符號,通常是如下兩者之一: $:給一般使用者帳號使用 #:給 root (管理員)帳號使用 事實上,shell prompt 的意思很簡單: * 是 shell 告訴使用者:您現在可以輸入命令行了。 我們可以說,使用者只有在得到 shell prompt 才能打命令行,而 cursor 是指示鍵盤在命令行所輸入的位置,使用者每輸入一個鍵,cursor 就往後移動一格,直到碰到命令行讀進 CR(Carriage Return,由 Enter 鍵產生)字符為止。CR 的意思也很簡單: * 是使用者告訴 shell:老兄你可以執行我的命令行了。 嚴格來說,所謂的命令行,就是在 shell prompt 與 CR 字符之間所輸入的文字。(思考:為何我們這裡堅持使用 CR 字符而不說 Enter 鍵呢?答案在後面的學習中揭曉。) 2.3) 解讀命令行 不同的命令可接受的命令行格式或有不同,標準的情況下,一個命令行格式包含如下所列的內容: 命令名稱(command) 選項(option) 參數(argument) 若從技術細節來看,shell 會依據 IFS(Internal Field Seperator) 將 command line 所輸入的文字給拆解為欄位(field)或詞(word)。然後再針對特殊字符(meta)先作處理,最後再重組整行 command line 。(注意:請務必理解上兩句話的意思,我們日後的學習中會常回到這裡思考。) 其中的 IFS 是 shell 預設使用的欄位分隔符號,可以由一個及多個如下按鍵組成: * 空白鍵(White Space) * 表格鍵(Tab) * 回車鍵(Enter) 系統可接受的命令名稱(command name)可以從如下途逕獲得: * 明確路逕所指定的外部命令 * 命令別名(alias) * 自定功能(function) * shell 內建命令(built-in) * $PATH 之下的外部命令 每一個命令行均必需含用命令名稱,這是不能缺少的。然而 option 跟 argument 則視命令的要求與命令語法(synopsis)而定,可以沒有也可以有多個。一般來說,命令的 option 是命令行為模式、告訴命令如何處理;argument 則是指定命令的處理對相。 從一般大家所依循的命令語法上來看,命令行的第一個欄位(field)是命令名稱,其後的欄位可以是 option 也可以是 argument。大多數的情況下,option 欄位都是以“-”這個符號開始的,argument 則不能用“-”來引導,除非是放在一個只含“--”兩個符號的欄位之後。舉例來說明一下好了: 命令一: ls -l -a b c 上面命令的 -l 與 -a 是 option; 而 b 與 c 則是 argumeng。 命令二: ls -l -- -a b c 上面命令的 -l 是 option; 而 -a 與 b 與 c 則是 argumeng。 在很多命令語法上,option 的表示法也分為兩種方式: * 縮寫: 以一個 - 跟一個字母組成欄位,例如:ls -a * 全寫: 以兩個 - 跟多個字母組成欄位,例如:ls --all 然而,在語法的安排上,很多命令卻可接受多個 option 縮寫的合併在同一欄位上: * 合併: 以一個 - 跟多個字母組成欄位,例如:ls -al 很多時候,大多命令的 option 跟 argument 的順序是不重要的:可以先寫 option 也可以先寫 agument。但有些命令則不一定如此。 如此複雜的命令語法,對很多初學者來說,或多或少構成了一定程度上的混亂。是的,我不想否認這點。但是,一旦我們理解了基本的命令語法結構,那就能理解日後碰到的各種複雜多變命令語法了。這對我們的學習是非常重要的基礎,我們在後面的學習中,任何時候都需要正確的解讀每一個命令的語法,務必將 command line 的每一個 option 與 argument 區分出來。 * 練習: 請區分如下各命令的不同: ls -a -l l ls -al l ls -all ls --all ls -- --all 2.4) 從 echo 了解命令行 承接上一章節所介紹的 command line ,這裡我們用 echo 這個命令加以進一步說明。來,先讓我們溫習一下:標準的 command line 包含三個部件: command option argument echo 是一個非常簡單、直接的 Linux 命令:將 argument 送出至標準輸出(STDOUT),通常就是在螢幕(monitor)上輸出。(註:STDOUT 我們在後面的章節再解說) 為了更好理解,不如先讓我們先跑一下 echo 命令好了: CODE: $ echo $ 你會發現只有一個空白行,然後又回到 shell prompt 上了。這是因為 echo 在預設上,在顯示完 argument 之後,還會送出一個換行符號(new-line charactor)。但是上面的 command 並沒任何的 argument ,那結果就只剩一個換行符號了。若你要取消這個換行符號,可利用 echo 的 -n option : CODE: $ echo -n $ 上面的例子不妨讓我們回到 command line 的概念上來討論上例的 echo 命令好了:command line 只有 command name(echo) 及 option(-n),並沒有任何 argument 。要想看看 echo 的 argument,那還不簡單﹗接下來,你可試試如下的輸入: CODE: $ echo first line first line $ echo -n first line first line $ 於上兩個 echo 命令中,你會發現 argument 的部份顯示在你的熒幕,而換行符號則視 -n option 的有無而別。很明顯的,第二個 echo 由於換行符號被取消了,接下來的 shell prompt 就接在輸出結果同一行了... ^_^ 事實上,echo 除了 -n options 之外,常用選項還有: -e :啟用反斜線控制字符的轉換(參考下表) -E:關閉反斜線控制字符的轉換(預設如此) -n :取消行末之換行符號(與 -e 選項下的 \c 字符同意) 關於 echo 命令所支援的反斜線控制字符如下表: \a:ALERT / BELL (從系統喇叭送出鈴聲) \b:BACKSPACE ,也就是向左刪除鍵 \c:取消行末之換行符號 \E:ESCAPE,跳脫鍵 \f:FORMFEED,換頁字符 \n:NEWLINE,換行字符 \r:RETURN,回車鍵 \t:TAB,表格跳位鍵 \v:VERTICAL TAB,垂直表格跳位鍵 \n:ASCII 八進位編碼(以 x 開首為十六進位) \\:反斜線本身 (表格資料來自 O'Reilly 出版社之 Learning the Bash Shell, 2nd Ed.) 或許,我們可以透過實例來了解 echo 的選項及控制字符: 例一: CODE: $ echo -e "a\tb\tc\nd\te\tf" a b c d e f 上例運用 \t 來區隔 abc 還有 def ,及用 \n 將 def 換至下一行。 例二: CODE: $ echo -e "\141\011\142\011\143\012\144\011\145\011\146" a b c d e f 與例一的結果一樣,只是使用 ASCII 八進位編碼。 例三: CODE: $ echo -e "\x61\x09\x62\x09\x63\x0a\x64\x09\x65\x09\x66" a b c d e f 與例二差不多,只是這次換用 ASCII 十六進位編碼。 例四: CODE: $ echo -ne "a\tb\tc\nd\te\bf\a" a b c d f $ 因為 e 字母後面是刪除鍵(\b),因此輸出結果就沒有 e 了。在結束時聽到一聲鈴嚮,那是 \a 的傑作﹗由於同時使用了 -n 選項,因此 shell prompt 緊接在第二行之後。若你不用 -n 的話,那你在 \a 後再加個 \c ,也是同樣的效果。 事實上,在日後的 shell 操作及 shell script 設計上,echo 命令是最常被使用的命令之一。比方說,用 echo 來檢查變量值: CODE: $ A=B $ echo $A B $ echo $? 0 (註:關於變量概念,我們留到後面章節才跟大家說明。) 好了,更多的關於 command line 的格式,以及 echo 命令的選項,就請您自行多加練習、運用了... 2.5) 認識 quoting 還是回到我們的 command line 來吧...經過前面兩章的學習,應該很清楚當你在 shell prompt 後面敲打鍵盤、直到按下 Enter 的時候,你輸入的文字就是 command line 了,然後 shell 才會以行程的方式執行你所交給它的命令。但是,你又可知道:你在 command line 輸入的每一個文字,對 shell 來說,是有類別之分的呢? 簡單而言(我不敢說這是精確的定議,註一),command line 的每一個 charactor ,分為如下兩種: * literal:也就是普通純文字,對 shell 來說沒特殊功能。 * meta:對 shell 來說,具有特定功能的特殊保留字元。 (註一:關於 bash shell 在處理 command line 時的順序說明,請參考 O'Reilly 出版社之 Learning the Bash Shell, 2nd Edition,第 177 - 180 頁的說明,尤其是 178 頁的流程圖 Figure 7-1。) Literal 沒甚麼好談的,凡舉 abcd、123456 這些"文字"都是 literal,但 meta 卻常使我們困惑。事實上,前兩節我們在 command line 中已碰到兩個機乎每次都會遇見的 meta : * IFS:由 三者之一組成(shell 預設用 space )。 * CR:由 產生。 IFS(Internal Field Seperator)是用來拆解 command line 的每一個欄位(field)用的,因為 shell command line 是按欄位來處理的。而 CR(Carriage Return) 則是用來結束 command line 用的,這也是為何我們敲 命令就會跑的原因。除了 IFS 與 CR ,常用的 meta 還有: = :設定變量。 $ :作變量或運算替換(請不要與 shell prompt 搞混了)。 > :重導向 stdout。 < :重導向 stdin。 | :命令管線。 & :重導向 file descriptor ,或將命令置於背境執行。 ( ):將其內的命令置於 nested subshell 執行,或用於運算或命令替換。 { }:將其內的命令置於 non-named function 中執行,或用在變量替換的界定範圍。 ; :在前一個命令結束時,而忽略其返回值,繼續執行下一個命令。 && :在前一個命令結束時,若返回值為 true,繼續執行下一個命令。 || :在前一個命令結束時,若返回值為 false,繼續執行下一個命令。 ! :執行 history 列表中的命令 .... 假如我們需要在 command line 中將這些保留字元的功能關閉的話,就需要 quoting 處理了。在 bash 中,常用的 quoting 有如下三種方法: * hard quote:' ' (單引號),凡在 hard quote 中的所有 meta 均被關閉。 * soft quote: " " (雙引號),在 soft quoe 中大部份 meta 都會被關閉,但某些則保留(如 $ )。(註二) * escape : \ (反斜線),只有緊接在 escape (跳脫字符)之後的單一 meta 才被關閉。 ( 註二:在 soft quote 中被豁免的具體 meta 清單,我不完全知道,有待大家補充,或透過實作來發現及理解。 ) 下面的例子將有助於我們對 quoting 的了解: CODE: $ A=B C # 空白鍵未被關掉,作為 IFS 處理。 $ C: command not found. $ echo $A $ A="B C" # 空白鍵已被關掉,僅作為空白鍵處理。 $ echo $A B C 在第一次設定 A 變量時,由於空白鍵沒被關閉,command line 將被解讀為: * A=B 然後碰到,再執行 C 命令 在第二次設定 A 變量時,由於空白鍵被置於 soft quote 中,因此被關閉,不再作為 IFS : * A=BC 事實上,空白鍵無論在 soft quote 還是在 hard quote 中,均會被關閉。Enter 鍵亦然: CODE: $ A='B > C > ' $ echo "$A" B C 在上例中,由於 被置於 hard quote 當中,因此不再作為 CR 字符來處理。這裡的 單純只是一個換行符號(new-line)而已,由於 command line 並沒得到 CR 字符,因此進入第二個 shell prompt (PS2,以 > 符號表示),command line 並不會結束,直到第三行,我們輸入的 並不在 hard quote 裡面,因此並沒被關閉,此時,command line 碰到 CR 字符,於是結束、交給 shell 來處理。 上例的 要是被置於 soft quote 中的話, CR 也會同樣被關閉: CODE: $ A="B > C > " $ echo $A B C 然而,由於 echo $A 時的變量沒至於 soft quote 中,因此當變量替換完成後並作命令行重組時, 會被解釋為 IFS ,而不是解釋為 New Line 字符。 同樣的,用 escape 亦可關閉 CR 字符: CODE: $ A=B\ > C\ > $ echo $A BC 上例中,第一個 跟第二個 均被 escape 字符關閉了,因此也不作為 CR 來處理, 但第三個 由於沒被跳脫,因此作為 CR 結束 command line 。但由於 鍵本身在 shell meta 中的特殊性,在 \ 跳脫後面,僅僅取消其 CR 功能,而不會保留其 IFS 功能。 關於 這個鍵在三種 quoting 所表現的不同特性有點特殊,引用時要小心留意。您或許發現光是一個 鍵所產生的字符就有可能是如下這些可能: CR IFS NL(New Line) FF(Form Feed) NULL ... 至於甚麼時候會解釋為甚麼字符,這個我就沒去深挖了,或是留給讀者諸君自行慢慢摸索了... ^_^ 至於 soft quote 跟 hard quote 的不同,主要是對於某些 meta 的關閉與否,以 $ 來作說明: CODE: $ A=B\ C $ echo "$A" B C $ echo '$A' $A 在第一個 echo 命令行中,$ 被置於 soft quote 中,將不被關閉,因此繼續處理變量替換,因此 echo 將 A 的變量值輸出到熒幕,也就得到 "B C" 的結果。在第二個 echo 命令行中,$ 被置於 hard quote 中,則被關閉,因此 $ 只是一個 $ 符號,並不會用來作變量替換處理,因此結果是 $ 符號後面接一個 A 字母:$A 。 ******************* 練習與思考:如下結果為何不同? CODE: $ A=B\ C $ echo '"$A"' # 最外面的是單引號 "$A" $ echo "'$A'" # 最外面的是雙引號 'B C' (提示:單引號及雙引號,在 quoting 中均被關閉了。) ******************* 在我這幾年的教學裡,我發現有很多初學者的問題,都與 quoting 理解的有關。比方說,若我們在 awk 或 sed 的命令參數中調用之前設定的一些變量時,常會問及為何不能的問題。要解決這些問題,關鍵點就是: * 區分出 shell meta 與 command meta 前面我們提到的那些 meta ,都是在 command line 中有特殊用途的,比方說 { } 是將其內一系列 command line 置於不具名的函式中執行(可簡單視為 command block ),但是,awk 卻需要用 { } 來區分出 awk 的命令區段(BEGIN, MAIN, END)。若你在 command line 中如此輸入: CODE: $ awk {print $0} 1.txt 由於 { } 在 shell 中並沒關閉,那 shell 就將 {print $0} 視為 command block ,但同時又沒有使用“;”符號作命令區隔,因此就出現 awk 的語法錯誤結果。要解決這個問題,可用 hard quote : CODE: $ awk '{print $0}' 1.txt 上面的 hard quote 應好理解,就是將原本的 {、、$(註三)、} 這幾個 shell meta 關閉,避免掉在 shell 中遭到處理,而完整的成為 awk 參數中的 command meta 。 ( 註三:而其中的 $0 是 awk 內建的 field number ,而非 awk 的變量,awk 自身的變量無需使用 $ 。) 理解了 hard quote 的功能,再來理解 soft quote 與 escape 就不難: CODE: awk "{print \$0}" 1.txt awk \{print\ \$0\} 1.txt 然而,若你要改變 awk 的 $0 的 0 值是從另一個 shell 變量讀進呢?比方說:已有變量 $A 的值是 0,那如何在 command line 中解決 awk 的 $$A 呢?你可以很直接否定掉 hard quoe 的方案: CODE: $ awk '{print $$A}' 1.txt 那是因為 $A 的 $ 在 hard quote 中是不能替換變量的。聰明的讀者(如你!),經過本章學習,我想,應該可以解釋為何我們可以使用如下操作了吧: CODE: A=0 awk "{print \$$A}" 1.txt awk \{print\ \$$A\} 1.txt awk '{print $'$A'}' 1.txt awk '{print $'"$A"'}' 1.txt # 注:"$A" 包在 soft quote 中 假以時日,我相信你能舉出更多的方案呢.... ^_^ 2.6) 變量在 export 前後的差異 這次讓我們暫時丟開 command line ,先來了解一下 bash 變量(variable)吧。所謂的變量,就是就是利用一個特定的"名稱"(name)來存取一段可以變化的"值"(value)。 * 變量設定(set) 在 bash 中,你可以用 "=" 來設定或重新定義變量的內容: name=value 在設定變量的時侯,得遵守如下規則: * 等號左右兩邊不能使用區隔符號(IFS),也應避免使用 shell 的保留字元(meta charactor)。 * 變量名稱不能使用 $ 符號。 * 變量名稱的第一個字母不能是數字(number)。 * 變量名稱長度不可超過 256 個字母。 * 變量名稱及變量值之大小寫是有區別的(case sensitive)。 如下是一些變量設定時常見的錯誤: A= B :不能有 IFS 1A=B :不能以數字開頭 $A=B :名稱不能有 $ a=B :這跟 a=b 是不同的 如下則是可以接受的設定: A=" B" :IFS 被關閉了 (請參考前面的 quoting 章節) A1=B :並非以數字開頭 A=$B :$ 可用在變量值內 This_Is_A_Long_Name=b :可用 _ 連接較長的名稱或值,且大小寫有別。 * 變量替換(substitution) Shell 之所以強大,其中的一個因素是它可以在命令行中對變量作替換(substitution)處理。在命令行中使用者可以使用 $ 符號加上變量名稱(除了在用 = 號定義變量名稱之外),將變量值給替換出來,然後再重新組建命令行。比方: CODE: $ A=ls $ B=la $ C=/tmp $ $A -$B $C (注意:以上命令行的第一個 $ 是 shell prompt ,並不在命令行之內。) 必需強調的是,我們所提的變量替換,只發生在 command line 上面(是的,讓我們再回到 command line 吧﹗) 仔細分析最後那行 command line ,不難發現在被執行之前(在輸入 CR 字符之前),$ 符號會對每一個變量作替換處理(將變量值替換出來再重組命令行),最後會得出如下命令行: CODE: ls -la /tmp 還記得前面在討論命令行結構時我請大家"務必理解"的那兩句嗎?若你忘了,那我這裡再重貼一遍: QUOTE: 若從技術細節來看,shell 會依據 IFS(Internal Field Seperator) 將 command line 所輸入的文字給拆解為欄位(field)或詞(word)。然後再針對特殊字符(meta)先作處理,最後再重組整行 command line 。 這裡的 $ 就是 command line 中最經典的 meta 之一了,就是作變量替換的﹗在日常的 shell 操作中,我們常會使用 echo 命令來查看特定變量的值,例如: CODE: $ echo $A -$B $C 我們已學過, echo 命令只單純將其 argument 送至"標準輸出"(STDOUT,通常是我們的熒幕)。 所以上面的命令會在熒幕上得到如下結果: CODE: ls -la /tmp 這是由於 echo 命令在執行時,會先將 $A(ls)、$B(la)、跟 $C(/tmp) 給替換出來的結果。利用 shell 對變量的替換處理能力,我們在設定變量時就更為靈活了: A=B B=$A 這樣,B 的變量值就可繼承 A 變量"當時"的變量值了。不過,不要以"數學羅輯"來套用變量的設定,比方說: A=B B=C 這樣並不會讓 A 的變量值變成 C 。再如: A=B B=$A A=C 同樣也不會讓 B 的值換成 C 。上面是單純定義了兩個不同名稱的變量:A 與 B ,它們的值分別是 B 與 C 。若變量被重復定義的話,則原有舊值將被新值所取代(這不正是"可變的量"嗎?) 當我們在設定變量的時侯,請記著這點: * 用一個名稱儲存一個數值 僅此而已。 此外,我們也可利用命令行的變量替換能力來"擴充"(append)變量值: A=B:C:D A=$A:E 這樣,第一行我們設定 A 的值為 "B:C:D",然後,第二行先將 $A 的值(B:C:D)替換出來,再補上":E"將值擴充為 "B:C:D:E" 。上面的擴充範例,我們使用區隔符號( : )來達到擴充目的,要是沒有區隔符號的話,如下是有問題的: A=BCD A=$AE 因為第二次是將 A 的值繼承 $AE 的提換結果,而非 $A 再加 E ﹗要解決此問題,我們可用更嚴謹的替換處理: A=BCD A=${A}E 上例中,我們使用 {} 將變量名稱的範圍給明確定義出來,如此一來,我們就可以將 A 的變量值從 BCD 給擴充為 BCDE 。 [提示]:關於 ${name} 事實上還可做到更多的變量處理能力,這些均屬於比較進階的變量處理,現階段暫時不介紹了,後面我們會再進行補充。 * 輸出變量(export) 嚴格來說,我們在當前 shell 中所定義的變量,均屬於"本地變量"(local variable),只有經過 export 命令的"輸出"處理,才能成為環境變量(environment variable)。方法如下: CODE: $ A=B $ export A 或: CODE: $ export A=B 經過 export 輸出處理之後,變量 A 就能成為一個環境變量供其後的命令使用。在使用 export 的時侯,請別忘記 shell 在命令行對變量的"替換"(substitution)處理,比方說: CODE: $ A=B $ B=C $ export $A 上面的命令並未將 A 輸出為環境變量,而是將 B 作輸出,這是因為在這個命令行中,$A 會首先被提換出 B 然後再"塞回"作 export 的參數。 [提示]: 要理解這個 export ,事實上需要從 process 的角度來理解才能透徹。我們將於後面章節為大家說明 process 的觀念,敬請留意。 *取消變量(unset) 要取消一個變量,在 bash 中可使用 unset 命令來處理: CODE: unset A 與 export 一樣,unset 命令行也同樣會作變量替換(這其實就是 shell 的功能之一),因此: CODE: $ A=B $ B=C $ unset $A 事實上所取消的變量是 B 而不是 A 。 此外,變量一旦經過 unset 取消之後,其結果是將整個變量拿掉,而不僅是取消其變量值。因此,如下兩行其實是很不一樣的: CODE: $ A= $ unset A 第一行只是將變量 A 設定為"空值"(null value),但第二行則讓變量 A 不在存在。雖然用眼睛來看,這兩種變量狀態在如下命令結果中都是一樣的: CODE: $ A= $ echo $A $ unset A $ echo $A 請學員務必能識別 null value 與 unset 的本質區別,這在一些進階的變量處理上是很嚴格的。比方說: CODE: $ str= # 設為 null $ var=${str=expr} # 定義 var $ echo $var $ echo $str $ unset str # 取消 $ var=${str=expr} # 定義 var $ echo $var expr $ echo $str expr 只要稍加思考應該不難發現為何同樣的 var=${str=expr} 在 null 與 unset 之下的不同。 若你看不出來,那可能是如下原因之一: a. 你太笨了 b. 不了解 var=${str=expr} 這個進階處理(這個我們後面會說明) c. 對本篇說明還沒來得及消化吸收 e. 我講得不好 不知道你選哪個呢? 2.7) exec 跟 source 差在哪? 這次先讓我們從一個實例貼子來談起吧: QUOTE: cd /etc/aa/bb/cc可以執行 但是把這條命令寫入shell時shell不執行! 這是什么原因呀! 要回答這個問題,先讓我們了解一下行程(process)的觀念好了。首先,我們所執行的任何程式,都是由父行程(parent process)所產生出來的一個子行程(child process),子行程在結束後,將返回到父行程去。此一現像在 Linux 系統中被稱為 fork (為何要程為 fork 呢?嗯,畫一下圖或許比較好理解: 圖 (FIXME) 更重要的是要知道:當子行程被產生的時候,父行程會先復製本身的環境出來然後再移交給子行程使用(某些環境設定會被子行程重設)。這個認知有助於我們理解上一章節所談到的"環境變量": * 所謂環境變量其實就是那些會傳給子行程的變量。 簡單而言,"遺傳性"就是區分本地變量與環境變量的決定性指標。然而,從遺傳的角度來看,我們也不難發現環境變量的另一個重要特徵: * 環境變量只能從父行程到子行程單向繼承。換句話說:在子行程中的環境如何變更,均不會影響父行程的環境。 接下來,再讓我們了解一下命令腳本(shell script)的概念。所謂的 shell script 講起來很簡單,就是將你平時在 shell prompt 後所輸入的多行 command line 依序寫入一個文字檔去而已。其中再加上一些條件判斷、互動界面、參數運用、函數調用、等等技巧,得以讓 script 更加"聰明"的執行,但若撇開這些技巧不談,我們真的可以簡單的看成 script 只不過依次執行預先寫好的命令行而已。 再結合以上兩個概念(process + script),那應該就不難理解如下這句話的意思了: * 正常來說,當我們執行一個 shell script 時,其實是先產生一個 sub-shell 的子行程,然後 sub-shell 再去產生 script 裡面的命令行子行程。 我們可以透過下面的圖示更好的理解: (FIXME) 那接下來,讓我們回到本章開始時所提到的例子再從新思考: QUOTE: cd /etc/aa/bb/cc可以執行 但是把這條命令寫入shell時shell不執行! 這是什么原因呀! 我的答案是這樣的: QUOTE: 因為,一般我們跑的 shell script 是用 subshell 去執行的。從 process 的觀念來看,是 parent process 產生一個 child process 去執行,當 child 結束後,會返回 parent ,但 parent 的環境是不會因 child 的改變而改變的。所謂的環境元數很多,凡舉 effective id, variable, workding dir 等等...其中的 workding dir ($PWD) 正是疑問所在。當用 subshell 來跑 script 的話,sub shell 的 $PWD 會因為 cd 而變更,但當返回 primary shell 時,$PWD 是不會變更的。 能夠了解問題的原因及其原理是很好的,但是如何解決問題恐怕是我們更感興趣的﹗是吧?^_^ 那好,接下來,再讓我們了解一下 source 命令好了。當你有了 fork 的概念之後,要理解 source 就不難: * 所謂 source 就是讓 script 在當前 shell 內執行、而不是產生一個 sub-shell 來執行。 如圖所示: (FIXME) 由於所有執行結果均於當前 shell 內完成,若 script 的環境有所改變,當然也會改變當前環境了!因此,只要我們要將原本單獨輸入的 script 命令行變成 source 命令的參數,就可輕易解決前例提到的問題了。 比方說,原本我們是如此執行 script 的: CODE: ./my.script 現在改成這樣即可: CODE: source ./my.script 或: . ./my.script 說到這裡,我想,各位有興趣看看 /etc 底下的眾多設定文件,應該不難理解它們被定議後,如何讓其他 script 讀取並繼承了吧?若然,日後你有機會寫自己的 script ,應也不難專門指定一個設定文件以供不同的 script 一起"共用"了... ^_^ Okay,到這裡,若你搞得懂 fork 與 source 的不同,那接下來再接受一個挑戰: * 那 exec 又與 source/fork 有何不同呢? 哦... 要了解 exec 或許較為複雜,尤其扯上 File Descriptor 的話...不過,簡單來說: * exec 也是讓 script 在同一個行程上執行,但是原有行程則被結束了。 簡而言之:原有行程會否終止,就是 exec 與 source/fork 的最大差異了。嗯,光是從理論去理解,或許沒那麼好消化,不如動手"實作+思考"來的印像深刻哦。下面讓我們寫兩個簡單的 script ,分別命令為 1.sh 及 2.sh : 1.sh CODE: #!/bin/bash A=B echo "PID for 1.sh before exec/source/fork:$$" export A echo "1.sh: \$A is $A" case $1 in exec) echo "using exec..." exec ./2.sh ;; source) echo "using source..." . ./2.sh ;; *) echo "using fork by default..." ./2.sh ;; esac echo "PID for 1.sh after exec/source/fork:$$" echo "1.sh: \$A is $A" 2.sh CODE: #!/bin/bash echo "PID for 2.sh: $$" echo "2.sh get \$A=$A from 1.sh" A=C export A echo "2.sh: \$A is $A" 然後,分別跑如下參數來觀察結果: CODE: $ ./1.sh fork $ ./1.sh source $ ./1.sh exec 以上的連線請讀者務必回去以實作的方式執行且加以理解。然後好好的享受 shell script 的樂趣吧! ^_^ 2.8) 從 () 與 {} 的差異理解子行程 嗯,這次輕鬆一下,不講太多... ^_^ 先說一下,為何要用 () 或 {} 好了。許多時候,我們在 shell 操作上,需要在一定條件下一次執行多個命令,也就是說,要麼不執行,要麼就全執行,而不是逐個命令依序的判斷是否要執行下一個命令。或是,需要修改命令執行優先次順,如算術的 2*(3+4) 那樣。這時候,我們就可引入"命令群組"(command group)的概念:將多個命令集中處理。 在 shell command line 中,一般人或許不太計較 () 與 {} 這兩對符號的差異,雖然兩者都可將多個命令作群組化處理,但若從技術細節上,卻是很不一樣的: () 將 command group 置於 sub-shell 去執行,也稱 nested sub-shell。 {} 則是在同一個 shell 內完成,也稱為 non-named command group。 若,你對上一章節的 fork 與 source 的概念還記得了的話,那就不難理解兩者的差異了。要是在 command group 中扯上變量及其他環境的修改,我們可以根據不同的需求來使用 () 或 {} 。通常而言,若所作的修改是臨時的,且不想影響原有或以後的設定,那我們就 nested sub-shell () ,反之,則用 non-named command group {}。 是的,光從 command line 來看,() 與 {} 的差別就講完了,夠輕鬆吧~~~ ^_^ 然而,若這兩個 meta 用在其他 command meta 或領域中(如 Regular Expression),還是有很多差別的。只是,我不打算再去說明了,留給讀者自己慢慢發掘好吧。我這裡只想補充一個概念,就是 function 。 所謂的 function ,就是用一個名字去命名一個 command group ,然後再調用這個名字去執行 command group 中的命令。從 non-named command group 來推斷,大概你也可以猜到我要說的是 {} 了吧?(yes! 你真聰明﹗ ^_^ ) 在 bash 中,function 的定義方式有兩種: 方式一: CODE: function function_name { command1 command2 command3 .... } 方式二: CODE: fuction_name () { command1 command2 command3 .... } 用哪一種方式無所謂,只是若碰到所定意的名稱與現有的命令或別名(Alias)衝突的話,方式二或許會失敗。 但方式二起碼可以少打 function 這一串英文字母,對懶人來說(如我),又何樂不為呢? ^_^ 在某一程度來說,function 也可稱為"函式",但請不要與傳統編程所使用的函式(library)搞混了,畢竟兩者差異很大。唯一相同的是,我們都可以隨時用"已定義的名稱"來調用它們。若我們在 shell 操作中,需要不斷的重覆執行某些命令,我們首先想到的,或許是將命令寫成命令稿(shell script)。不過,我們也可以寫成 function ,然後在 command line 中打上 function_name 就可當一舨的 script 來使用。如果要取消你在 shell 中定義的 function ,可用 unset function_name 來 取消,或是退出 shell ,function 也跟著取消。然而,在 script 中使用 function 卻有許多好處,除了可以提高整體 script 的執行效能外(因為已被載入),還可以節省許多重覆的代碼以增加 script 的設計彈性,也就是所謂模組化設計。 簡單而言,若你會將多個命令寫成 script 以供調用的話,那麼同樣的,你也可以將 function 看成是 script 中的 script 。而且,我們可以自行定義許許多常用的 function 集中寫在特定文件中,然後,在其他的 script 中用上一章節介紹的 source 方式將它們載入並反覆執行。這在大部份的 Linux 發行版本中都被大量的使用中。若你是 RedHat Linux 的使用者,或許,已經猜出 /etc/rc.d/init.d/functions 這個文件的用途了。 okay,說要輕鬆點的嘛,那這次就暫時寫到這吧。祝大家學習愉快﹗ ^_^ 2.9) 運用 $(()) 與 $() 還有 ${} 作更多 shell 處理 我們上一章節介紹了 () 與 {} 的不同,這次讓我們擴展一下,看看更多的變化:$() 與 ${} 又是啥玩意兒呢? 在 bash shell 中,$() 與 `` (反引號) 都是用來做命令替換用(command substitution)的。所謂的命令替換與我們第五章學過的變量替換差不多,都是用來重組命令行的:完成引號裡的命令行,然後將其結果替換出來,再重組命令行。例如: CODE: $ echo the last sunday is $(date -d "last sunday" +%Y-%m-%d) 如此便可得到上一星期天的日期了... ^_^ 在操作上,用 $() 或 `` 都無所謂,只是我"個人"比較喜歡用 $() ,理由是: 1, `` 很容易與 '' ( 單引號)搞混亂,尤其對初學者來說。有時在一些奇怪的字形顯示中,兩種符號是一模一樣的(直豎兩點)。當然了,有經驗的朋友還是一眼就能分辯兩者。只是,若能更好的避免混亂,又何樂不為呢? ^_^ 2, 在多層次的復合替換中,`` 須要額外的跳脫( \` )處理,而 $() 則比較直觀。例如這是錯的: CODE: command1 `command2 `command3` ` 原本的意圖是要在 command2 `command3` 先將 command3 提換出來給 command 2 處理,然後再將結果傳給 command1 `command2 ...` 來處理。然而,真正的結果在命令行中卻是分成了 `command2 ` 與 `` 兩段。正確的輸入應該如下: CODE: command1 `command2 \`command3\` ` 要不然,換成 $( ) 就沒問題了: CODE: command1 $(command2 $(command3)) 只要你喜歡,做多少層的替換都沒問題啦~~~ ^_^ 不過,$() 並不是沒有弊端的。首先,`` 基本上可用在全部的 unix shell 中使用,若寫成 shell script ,其移植性比較高。而 $() 並不見的每一種 shell 都能使用,我只能跟你說,若你用 bash2 或更新的版本 的話,肯定沒問題。 ^_^ 接下來,再讓我們看 ${} 吧。它其實就是用來作變量替換用的。一般情況下,$var 與 ${var} 並沒有啥不一樣。但是用 ${} 會比較精確的界定變量名稱的範圍,比方說: CODE: $ A=B $ echo $AB 原本是打算先將 $A 的結果替換出來,然後再補一個 B 字母於其後,但在命令行上,真正的結果卻是只會提換變量名稱為 AB 的值出來。若使用 ${ } 就沒問題了: CODE: $ echo ${A}B BB 不過,假如你只看到 ${} 只能用來界定變量名稱的話,那你就實在太小看 bash 了﹗為了完整起見,我這裡再用一些例子加以說明 ${} 的一些特異功能。假設我們定義了一個變量為: file=/dir1/dir2/dir3/my.file.txt 我們可以用 ${} 分別替換獲得不同的值: ${file#*/} :拿掉第一條 / 及其左邊的字串:dir1/dir2/dir3/my.file.txt ${file##*/} :拿掉最後一條 / 及其左邊的字串:my.file.txt ${file#*.} :拿掉第一個 . 及其左邊的字串:file.txt ${file##*.} :拿掉最後一個 . 及其左邊的字串:txt ${file%/*} :拿掉最後條 / 及其右邊的字串:/dir1/dir2/dir3 ${file%%/*} :拿掉第一條 / 及其右邊的字串:(空值) ${file%.*} :拿掉最後一個 . 及其右邊的字串:/dir1/dir2/dir3/my.file ${file%%.*} :拿掉第一個 . 及其右邊的字串:/dir1/dir2/dir3/my 記憶的方法為: # 是去掉左邊(在鑑盤上 # 在 $ 之左邊) % 是去掉右邊(在鑑盤上 % 在 $ 之右邊) 單一符號(#或%)是最小匹配﹔兩個符號(##或%%)是最大匹配。 再來用 ${} 提取變量值的字串長度: ${file:0:5} :提取最左邊的 5 個字節:/dir1 ${file:5:5} :提取第 5 個字節右邊的連續 5 個字節:/dir2 我們也可以對變量值裡的字串作替換: ${file/dir/path} :將第一個 dir 替換為 path 得:/path1/dir2/dir3/my.file.txt ${file//dir/path} :將全部 dir 替換為 path 得:/path1/path2/path3/my.file.txt 我們在使用 bash 變數的時候,還要知道變數的賦值狀態:沒設定(unset)、空值(null)、非空值(not null)。利用 ${} 還可針對不同的變數賦值狀態作不同處理: ${file-my.file.txt} :假如 $file 沒有設定,則得到 my.file.txt 的結果。(空值及非空值時不作處理) ${file:-my.file.txt} :假如 $file 沒有設定或為空值,則得到 my.file.txt 的結果。(非空值時不作處理) ${file+my.file.txt} :假如 $file 設為空值或非空值,均得到 my.file.txt 的結果。(沒設定時不作處理) ${file:+my.file.txt} :若 $file 為非空值,則得到 my.file.txt 的結果。(沒設定及空值時不作處理) ${file=my.file.txt} :若 $file 沒設定,則得到 my.file.txt 的結果,同時將 file 這個變量賦值為 my.file.txt 。 (空值及非空值時不作處理) ${file:=my.file.txt} :若 $file 沒設定或為空值,則得到 my.file.txt 的結果,同時將 file 賦值為 my.file.txt 。 (非空值時不作處理) ${file?my.file.txt} :若 $file 沒設定,則將 my.file.txt 輸出至 STDERR。(空值及非空值時不作處理) ${file:?my.file.txt} :若 $file 沒設定或為空值,則將 my.file.txt 輸出至 STDERR。(非空值時不作處理) 記憶的方法為: 以上的理解在於, 你一定要分清楚 unset 與 null 及 not-null 這三種賦值狀態。一般而言, : 與 null 有關, 若不帶 : 的話, null 不受影響, 若帶 : 則連 null 也受影響. 還有,${#var} 可計算出變量值的長度: ${#file} : 可得到 27 ,因為 /dir1/dir2/dir3/my.file.txt 剛好是 27 個字節。 接下來,再為大家介稍一下 bash 的陣列(array)處理方法。因為也會用到 ${} 來處理陣列。一般而言,A="a b c def" 這樣的設定,只是將一整串字串賦值於 A 變數中。但是改為 A=(a b c abc) ,則是將 A 定義為陣列。在 bash 中陣列的替換方法可參考如下介紹的方法: ${A[@]} 可得到 a b c abc (全部組數) ${A[0]} 或 ${A} 可得到 a (第一個組數) ${A[1]} 則得到 b (第二個組數) ${#A[@]} 可得到 4 (全部組數數量) ${#A[0]} 或 ${#A} 可得到 1 (即第一個組數(a)的長度) ${#A[3]} 可得到 3 (第四個組數(abc)的長度) A[3]=xyz 則是將第四個組數重新定義為 xyz ... 能夠善用 bash 的 $() 與 ${} 可大大提高及簡化 shell 在變量上的處理能力。最後為大家介紹 $(())的用途,簡單而言它是用來作整數運算的。在 bash 中,$(()) 的整數運算符號大致有這些: + :加 - :減 * :乘 / :除 % :餘數 & :AND | :OR ^ :XOR ! :NOT 舉例: CODE: $ a=5; b=7; c=2 $ echo $(( a+b*c )) 19 $ echo $(( (a+b)/c )) 6 $ echo $(( (a*b)%c)) 1 在 $(()) 中的變量名稱,可於其前面加 $ 符號來替換,也可以不用,如: $(( $a + $b * $c)) 也可得到 19 的結果 此外,$(()) 還可針對不同進位(如二進位、八進位、十六進位)作運算,只是,輸出結果皆為十進位而已: echo $((16#2a)) 結果為 42 (16進位轉十進位) 以一個實用的例子來看看吧: 假如當前的 umask 是 022 ,那麼新建文件的權限即為 644: CODE: $ umask 022 $ echo "obase=8;$(( 8#666 & ( 8#777 ^ 8#$(umask) ) ))" | bc 644 事實上,單純用 (()) 也可重定義變量值,或作 testing: a=5; ((a++)) 可將 $a 重定義為 6 a=5; ((a--)) 則為 a=4 a=5; b=7; ((a < b)); echo $? 會得到 0 (true) 的返回值。 常見的用於 (()) 的測試符號有如下這些: < :小於 > :大於 <= :小於或等於 >= :大於或等於 == :等於 != :不等於 不過,使用 (()) 作整數測試時,請不要跟 [] 的整數測試搞混亂了。(更多的測試我將於後面的章節再為大家介紹) 怎樣?好玩吧.. ^_^ Okay,這次暫時說這麼多。上面的介紹,並沒有詳列每一種可用的狀態,更多的,就請讀者參考手冊文件并加以實作來理解囉。 2.10) 從 $@ 與 $* 理解位置參數 要說 $@ 與 $* 之前,需得先從 shell script 的位置參數(positional parameter)談起。我們要知道有些變量是 shell 內定的,而且其名稱是我們不能隨意修改的,其中就有位置參數在內。 在 shell script 中,我們可用 $0, $1, $2, $3 ... 這樣的變量分別提取命令行中的如下部份: CODE: script_name parameter1 parameter2 parameter3 ... 我們很容易就能猜出 $0 就是代表 shell script 名稱(路逕)本身,而 $1 就是其後的第一個參數,如此類推... 不過這裡須得留意的是 IFS 的作用,也就是,若 IFS 被 quoting 處理後,那麼 positional parameter 也會改變。如下例: CODE: my.sh p1 "p2 p3" p4 由於在 p2 與 p3 之間的空白鍵被 soft quote 所關閉了,因此 my.sh 中的 $2 是 "p2 p3" 而 $3 則是 p4。 事實上,除了在執行 script 時指定參數之外,在 shell script 的程式碼裡面,我們也可以用 set 命令重新設定 $0 之外的所有位置參數: CODE: set "p1 p2" "p3 p4" 如此,我們將忽略之前所有的位置參數,而重新將 $1 設定為"p1 p2" 而 $2 則為"p3 p4" 在前面兩個章節裡我們曾經討論過 fucntion 的作用,那時我不是說過它是 script 中的 script 嗎?是的,function 一樣可以讀取自己的(有別於 script 的) 位置參數,唯一例外的是 $0 而已。舉例而言: 假設 my.sh 裡有一個 fucntion 叫 my_fun , 若在 script 中跑 my_fun fp1 fp2 fp3 ,那麼,function 內的 $0 是 my.sh ,而 $1 則是 fp1 而非 p1 了。 不如寫個簡單的 my.sh script 看看吧: CODE: #!/bin/bash my_fun() { echo '$0 inside function is '$0 echo '$1 inside function is '$1 echo '$2 inside function is '$2 } echo '$0 outside function is '$0 echo '$1 outside function is '$1 echo '$2 outside function is '$2 my_fun fp1 "fp2 fp3" 然後在 command line 中跑一下 script 就知道了: CODE: chmod +x my.sh ./my.sh p1 "p2 p3" $0 outside function is ./my.sh $1 outside function is p1 $2 outside function is p2 p3 $0 inside function is ./my.sh $1 inside function is fp1 $2 inside function is fp2 fp3 然而,在使用位置參數的時候,我們要注意一些陷阱哦: * $10 不是替換第 10 個參數,而是替換第一個參數($1)然後再補一個 0 於其後﹗ 也就是說,如果運行下面的命令行: my.sh one two three four five six seven eigth nine ten 在 my.sh 裡的 $10 不是 ten 而是 one0 哦... 小心小心﹗ 要抓到 ten 的話,有兩種方法: 方法一是使用我們上一章介紹的 ${} ,也就是用 ${10} 即可。 方法二,就是 shift 了。 用通俗的說法來說,所謂的 shift 就是取消 $0 外全部位置參數中最左邊的參數。其預設值為 1 ,也就是 shift 或 shift 1 都是取消 $1 ,而原本的 $2 則變成 $1、$3 變成 $2 ... 若 shift 3 則是取消前面三個參數,也就是原本的 $4 將變成 $1 ... 那,親愛的讀者,你說要 shift 掉多少個參數,才可用 $1 取得 ${10} 呢? ^_^ okay,當我們對 positional parameter 有了基本概念之後,那再讓我們看看其他相關變量吧。 首先是 $# :它可抓出 positional parameter 的數量。 以前面的 my.sh p1 "p2 p3" 為例: 由於 p2 與 p3 之間的 IFS 是在 soft quote 中,因此 $# 可得到 2 的值。 但如果 p2 與 p3 沒有置於 quoting 中話,那 $# 就可得到 3 的值了。 同樣的道理在 function 中也是一樣的... 因此,我們常在 shell script 裡用如下方法測試 script 是否有讀進參數: CODE: [ $# = 0 ] 假如為 0 ,那就表示 script 沒有參數,否則就是有帶參數... 接下來就是 $@ 與 $* : 精確來講,兩者只有在 soft quote 中才有差異,否則,都表示"全部參數"( $0 除外)。 舉例來說好了: 若在 command line 上跑 my.sh p1 "p2 p3" p4 的話, 不管是 $@ 還是 $* ,都可得到 p1 p2 p3 p4 就是了。 但是,如果置於 soft quote 中的話: "$@" 則可得到 "p1" "p2 p3" "p4" 這三個不同的詞段(word)﹔ "$*" 則可得到 "p1 p2 p3 p4" 這一整串單一的詞段。 我們可修改一下前面的 my.sh ,使之內容如下: CODE: #!/bin/bash my_fun() { echo "$#" } echo 'the number of parameter in "$@" is '$(my_fun "$@") echo 'the number of parameter in "$*" is '$(my_fun "$*") 然後再執行 ./my.sh p1 "p2 p3" p4 就知道 $@ 與 $* 差在哪了 ... ^_^ 2.11) 以 && 與 || 來談條件執行 在學習本章題目之前,先讓我們了解一個概念:return value ﹗ 我們要知道,在 shell 下跑的每一個 command 或 function,結束的時候都會傳回父行程一個值,稱為 return value 。在 shell command line 中可用 $? 這個變數得到最"新"的一個 return value ,也就是剛結束的那個行程傳回的值。Return Value(RV) 的取值為 0-255 之間,由程式(或 script)的作者自行定議