Hi Justin,<br><br>Thanks much for your effort on this. I got this error upon running &#39;starcluster -s 25 start jswtest&#39;. I have not altered my config file from the one I sent you previously.<br><br>PID: 5530 config.py:515 - DEBUG - Loading config<br>
PID: 5530 config.py:108 - DEBUG - Loading file: /home/jsw/.starcluster/config<br>PID: 5530 config.py:515 - DEBUG - Loading config<br>PID: 5530 config.py:108 - DEBUG - Loading file: /home/jsw/.starcluster/config<br>PID: 5530 awsutils.py:54 - DEBUG - creating self._conn w/ connection_authenticator kwargs = {&#39;path&#39;: &#39;/&#39;, &#39;region&#39;: None, &#39;port&#39;: None, &#39;is_secure&#39;: True}<br>
PID: 5530 start.py:167 - INFO - Using default cluster template: smallcluster<br>PID: 5530 cluster.py:1310 - INFO - Validating cluster template settings...<br>PID: 5530 cli.py:184 - DEBUG - Traceback (most recent call last):<br>
  File &quot;/home/jsw/jtriley-StarCluster-dfba6ef/starcluster/cli.py&quot;, line 160, in main<br>    sc.execute(args)<br>  File &quot;/home/jsw/jtriley-StarCluster-dfba6ef/starcluster/commands/start.py&quot;, line 175, in execute<br>
    scluster._validate(validate_running=validate_running)<br>  File &quot;/home/jsw/jtriley-StarCluster-dfba6ef/starcluster/cluster.py&quot;, line 1322, in _validate<br>    self._validate_instance_types()<br>  File &quot;/home/jsw/jtriley-StarCluster-dfba6ef/starcluster/cluster.py&quot;, line 1458, in _validate_instance_types<br>
    self.__check_platform(node_image_id, node_instance_type)<br>  File &quot;/home/jsw/jtriley-StarCluster-dfba6ef/starcluster/cluster.py&quot;, line 1419, in __check_platform<br>    image_is_hvm = (image.virtualization_type == &quot;hvm&quot;)<br>
AttributeError: &#39;Image&#39; object has no attribute &#39;virtualization_type&#39;<br><br>PID: 5530 cli.py:129 - ERROR - Oops! Looks like you&#39;ve found a bug in StarCluster<br>PID: 5530 cli.py:130 - ERROR - Debug file written to: /tmp/starcluster-debug-jsw.log<br>
PID: 5530 cli.py:131 - ERROR - Look for lines starting with PID: 5530<br>PID: 5530 cli.py:132 - ERROR - Please submit this file, minus any private information,<br>PID: 5530 cli.py:133 - ERROR - to <a href="mailto:starcluster@mit.edu">starcluster@mit.edu</a><br>
<br><br><br><div class="gmail_quote">On Wed, Apr 6, 2011 at 8:09 AM, Justin Riley <span dir="ltr">&lt;<a href="mailto:justin.t.riley@gmail.com">justin.t.riley@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Jeff/Joseph,<br>
<br>
Sorry for taking so long to follow up with this but I believe I&#39;ve<br>
fixed this issue for good and you should now be able to launch 50+<br>
node clusters without issue. My original feeling was that the SGE<br>
install script was at fault, however, after several hours of digging I<br>
discovered that ssh-keyscan was failing when there were a large number<br>
of nodes. Long story short this meant that passwordless-ssh wasn&#39;t<br>
being setup fully for all nodes and so the SGE installer script could<br>
not connect to those nodes to add them to the queue. I found a much<br>
better way to populate the known_hosts file with all the nodes using<br>
paramiko instead of ssh-keyscan which is much faster in this case.<br>
<br>
If you haven&#39;t already please re-run &#39;python setup.py install&#39; after<br>
pulling the latest code to test out the latest changes. I&#39;ve also<br>
updated StarCluster perform the setup on all nodes concurrently using<br>
a thread pool so you should notice it&#39;s much faster for larger<br>
clusters. Please let me know if you have issues.<br>
<br>
Thanks,<br>
<font color="#888888"><br>
~Justin<br>
</font><div><div></div><div class="h5"><br>
On Wed, Mar 16, 2011 at 1:37 PM, Kyeong Soo (Joseph) Kim<br>
&lt;<a href="mailto:kyeongsoo.kim@gmail.com">kyeongsoo.kim@gmail.com</a>&gt; wrote:<br>
&gt; Justin,<br>
&gt; Please, find attached the said file.<br>
&gt;<br>
&gt; Regards,<br>
&gt; Joseph<br>
&gt;<br>
&gt;<br>
&gt; On Wed, Mar 16, 2011 at 4:38 PM, Justin Riley &lt;<a href="mailto:jtriley@mit.edu">jtriley@mit.edu</a>&gt; wrote:<br>
&gt;&gt; -----BEGIN PGP SIGNED MESSAGE-----<br>
&gt;&gt; Hash: SHA1<br>
&gt;&gt;<br>
&gt;&gt; Joseph,<br>
&gt;&gt;<br>
&gt;&gt; Great thanks, can you also send me the /opt/sge6/ec2_sge.conf file please?<br>
&gt;&gt;<br>
&gt;&gt; ~Justin<br>
&gt;&gt;<br>
&gt;&gt; On 03/16/2011 12:29 PM, Kyeong Soo (Joseph) Kim wrote:<br>
&gt;&gt;&gt; Hi Justin,<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Please, find attached the gzipped tar file of the logfiles under<br>
&gt;&gt;&gt; install_logs directory.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Note that the configuration is for 25-node (1 master and 24 slaves) cluster.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Below is the time-sorted listing of log files under the same directory:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 13:23<br>
&gt;&gt;&gt; execd_install_node024_2011-03-16_13:23:11.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node023_2011-03-16_11:13:37.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node022_2011-03-16_11:13:36.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node021_2011-03-16_11:13:36.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node020_2011-03-16_11:13:32.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks  18K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_master_2011-03-16_11:13:10.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node017_2011-03-16_11:13:27.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node018_2011-03-16_11:13:27.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node019_2011-03-16_11:13:28.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node016_2011-03-16_11:13:26.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node014_2011-03-16_11:13:25.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node015_2011-03-16_11:13:26.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node012_2011-03-16_11:13:24.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node013_2011-03-16_11:13:25.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node010_2011-03-16_11:13:23.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node011_2011-03-16_11:13:24.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node008_2011-03-16_11:13:22.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node009_2011-03-16_11:13:22.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node006_2011-03-16_11:13:21.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node007_2011-03-16_11:13:21.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node004_2011-03-16_11:13:20.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node005_2011-03-16_11:13:20.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node003_2011-03-16_11:13:19.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node001_2011-03-16_11:13:18.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 2.9K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_node002_2011-03-16_11:13:19.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 3.1K 2011-03-16 11:13<br>
&gt;&gt;&gt; execd_install_master_2011-03-16_11:13:17.log<br>
&gt;&gt;&gt; -rw-r--r-- 1 kks kks 8.4K 2011-03-16 11:13<br>
&gt;&gt;&gt; qmaster_install_master_2011-03-16_11:13:05.log<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; As you can see, the installation of master has been duplicated and it<br>
&gt;&gt;&gt; ended up with master, node001~node023; the top-most log for node024<br>
&gt;&gt;&gt; was for the manual addition through &quot;addnode&quot; command later (i.e., 1<br>
&gt;&gt;&gt; hour 10 mins after).<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Even with this slimmed down version of configurations (compared to the<br>
&gt;&gt;&gt; original 125-node one), the chances that all nodes are properly<br>
&gt;&gt;&gt; installed (i.e., 25 out of 25) were about 50% (last night and this<br>
&gt;&gt;&gt; morning, I tried it about 10 times to set total five of 25-node<br>
&gt;&gt;&gt; clusters).<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Regards,<br>
&gt;&gt;&gt; Joseph<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On Wed, Mar 16, 2011 at 3:57 PM, Justin Riley &lt;<a href="mailto:jtriley@mit.edu">jtriley@mit.edu</a>&gt; wrote:<br>
&gt;&gt;&gt; Hi Jeff/Joseph,<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I just requested to up my EC2 instance limit so that I can test things<br>
&gt;&gt;&gt; out at this scale and see what the issue is. In the mean time would you<br>
&gt;&gt;&gt; mind sending me any logs found in /opt/sge6/default/common/install_logs<br>
&gt;&gt;&gt; and also the /opt/sge6/ec2_sge.conf for a failed run?<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Also if this happens again you could try reinstalling SGE manually<br>
&gt;&gt;&gt; assuming all the nodes are up:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; $ starcluster sshmaster mycluster<br>
&gt;&gt;&gt; $ cd /opt/sge6<br>
&gt;&gt;&gt; $ ./inst_sge -m -x -auto ./ec2_sge.conf<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; ~Justin<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On 03/15/2011 06:30 PM, Kyeong Soo (Joseph) Kim wrote:<br>
&gt;&gt;&gt;&gt;&gt;&gt; Hi Jeff,<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; I experienced the same thing with my 50-node configuration (c1.xlarge).<br>
&gt;&gt;&gt;&gt;&gt;&gt; Out of 50 nodes, only 29 nodes are successfully identified by the SGE.<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; Regards,<br>
&gt;&gt;&gt;&gt;&gt;&gt; Joseph<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; On Sat, Mar 5, 2011 at 10:15 PM, Jeff White &lt;<a href="mailto:jeff@decide.com">jeff@decide.com</a>&gt; wrote:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; I can frequently reproduce an issue where &#39;starcluster start&#39; completes<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; without error, but not all nodes are added to the SGE pool, which I verify<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; by running &#39;qconf -sel&#39; on the master. The latest example I have is creating<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; a 25-node cluster, where only the first 12 nodes are successfully installed.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; The remaining instances are running and I can ssh to them but they aren&#39;t<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; running sge_execd. There are only install log files for the first 12 nodes<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; in /opt/sge6/default/common/install_logs. I have not found any clues in the<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; starcluster debug log or the logs inside master:/opt/sge6/.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; I am running starcluster development snapshot 8ef48a3 downloaded on<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; 2011-02-15, with the following relevant settings:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; NODE_IMAGE_ID=ami-8cf913e5<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; NODE_INSTANCE_TYPE = m1.small<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; I have seen this behavior with the latest 32-bit and 64-bit starcluster<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; AMIs. Our workaround is to start a small cluster and progressively add nodes<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; one at a time, which is time-consuming.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Has anyone else noticed this and have a better workaround or an idea for a<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; fix?<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; jeff<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; StarCluster mailing list<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt;&gt; StarCluster mailing list<br>
&gt;&gt;&gt;&gt;&gt;&gt; <a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; -----BEGIN PGP SIGNATURE-----<br>
&gt;&gt; Version: GnuPG v2.0.17 (GNU/Linux)<br>
&gt;&gt; Comment: Using GnuPG with Mozilla - <a href="http://enigmail.mozdev.org/" target="_blank">http://enigmail.mozdev.org/</a><br>
&gt;&gt;<br>
&gt;&gt; iEYEARECAAYFAk2A550ACgkQ4llAkMfDcrlR2gCeOoYMzl9U+z1owIq98JHBgLHi<br>
&gt;&gt; IngAniUwV6nq/hN6/TfxCBu1d2/MO5Ru<br>
&gt;&gt; =tXep<br>
&gt;&gt; -----END PGP SIGNATURE-----<br>
&gt;&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; StarCluster mailing list<br>
&gt; <a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
&gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
&gt;<br>
&gt;<br>
</div></div></blockquote></div><br>